Prueba U de Mann-Whitney

Prueba no paramétrica de la hipótesis nula

La prueba de Mann-Whitney {\estilo de visualización U} (también llamada prueba de Mann–Whitney–Wilcoxon ( MWW/MWU ), prueba de suma de rangos de Wilcoxon o prueba de Wilcoxon–Mann–Whitney ) es una prueba estadística no paramétrica de la hipótesis nula de que, para valores seleccionados aleatoriamente X e Y de dos poblaciones, la probabilidad de que X sea mayor que Y es igual a la probabilidad de que Y sea mayor que X.

Las pruebas no paramétricas utilizadas en dos muestras dependientes son la prueba de los signos y la prueba de rangos con signo de Wilcoxon .

Supuestos y enunciado formal de hipótesis

Aunque Henry Mann y Donald Ransom Whitney [1] desarrollaron la prueba U de Mann-Whitney bajo el supuesto de respuestas continuas con la hipótesis alternativa de que una distribución es estocásticamente mayor que la otra, hay muchas otras formas de formular las hipótesis nula y alternativa de modo que la prueba U de Mann-Whitney proporcione una prueba válida. [2]

Una formulación muy general es suponer que:

  1. Todas las observaciones de ambos grupos son independientes entre sí,
  2. Las respuestas son al menos ordinales (es decir, se puede al menos decir, de dos observaciones cualesquiera, cuál es la mayor),
  3. Bajo la hipótesis nula H 0 , las distribuciones de ambas poblaciones son idénticas. [3]
  4. La hipótesis alternativa H 1 es que las distribuciones no son idénticas.

Según la formulación general, la prueba sólo es consistente cuando se cumple lo siguiente en H 1 :

  1. La probabilidad de que una observación de la población X exceda a una observación de la población Y es diferente (mayor o menor) que la probabilidad de que una observación de Y exceda a una observación de X ; es decir, P( X > Y ) ≠ P( Y > X ) o P( X > Y ) + 0,5 · P( X = Y ) ≠ 0,5 .

Bajo supuestos más estrictos que la formulación general anterior, por ejemplo, si se supone que las respuestas son continuas y la alternativa se restringe a un cambio de ubicación, es decir, F 1 ( x ) = F 2 ( x + δ ) , podemos interpretar una prueba U de Mann-Whitney significativa como que muestra una diferencia en las medianas. Bajo este supuesto de cambio de ubicación, también podemos interpretar la prueba U de Mann-Whitney como una evaluación de si la estimación de Hodges-Lehmann de la diferencia en la tendencia central entre las dos poblaciones difiere de cero. La estimación de Hodges-Lehmann para este problema de dos muestras es la mediana de todas las posibles diferencias entre una observación en la primera muestra y una observación en la segunda muestra.

De lo contrario, si tanto las dispersiones como las formas de la distribución de ambas muestras difieren, la prueba U de Mann-Whitney no supera una prueba de medianas. Es posible mostrar ejemplos en los que las medianas son numéricamente iguales mientras que la prueba rechaza la hipótesis nula con un valor p pequeño. [4] [5] [6]

La prueba U de Mann-Whitney /prueba de suma de rangos de Wilcoxon no es lo mismo que la prueba de rangos con signo de Wilcoxon , aunque ambas son no paramétricas e implican la suma de rangos . La prueba U de Mann-Whitney se aplica a muestras independientes. La prueba de rangos con signo de Wilcoxon se aplica a muestras pareadas o dependientes.

Estadística U

Sea el grupo 1, una muestra iid de , y sea el grupo 2, una muestra iid de , y sean ambas muestras independientes entre sí. La estadística U de Mann–Whitney correspondiente se define como el menor de los siguientes: incógnita 1 , , incógnita norte 1 {\displaystyle X_{1},\ldots ,X_{n_{1}}} incógnita {\estilo de visualización X} Y 1 , , Y norte 2 {\displaystyle Y_{1},\ldots ,Y_{n_{2}}} Y {\estilo de visualización Y}

1 = norte 1 norte 2 + norte 1 ( norte 1 + 1 ) 2 R 1 , 2 = norte 1 norte 2 + norte 2 ( norte 2 + 1 ) 2 R 2 {\displaystyle U_{1}=n_{1}n_{2}+{\frac {n_{1}(n_{1}+1)}{2}}-R_{1},U_{2}=n_{1}n_{2}+{\frac {n_{2}(n_{2}+1)}{2}}-R_{2}}

con

R 1 , R 2 Estilo de visualización R_{1},R_{2}} siendo las sumas de los rangos en los grupos 1 y 2, después de clasificar todas las muestras de ambos grupos de manera que el valor más pequeño obtenga el rango 1 y el más grande el rango . [7] norte 1 + norte 2 estilo de visualización n_{1}+n_{2}}

Estadística del área bajo la curva (AUC) para curvas ROC

La estadística U está relacionada con el área bajo la curva característica operativa del receptor ( AUC ): [8]

A do 1 = 1 norte 1 norte 2 {\displaystyle \mathrm {AUC} _{1}={U_{1} \over n_{1}n_{2}}}

Tenga en cuenta que esta es la misma definición que el tamaño del efecto del lenguaje común , es decir, la probabilidad de que un clasificador clasifique una instancia elegida aleatoriamente del primer grupo en un nivel superior al de una instancia elegida aleatoriamente del segundo grupo. [9]

Debido a su forma probabilística, la estadística U se puede generalizar a una medida del poder de separación de un clasificador para más de dos clases: [10]

METRO = 1 do ( do 1 ) A do a , {\displaystyle M={1 \over c(c-1)}\sum \mathrm {AUC} _{k,\ell }}

Donde c es el número de clases, y el término R k , ℓ de AUC k , considera solo la clasificación de los elementos que pertenecen a las clases k y (es decir, los elementos que pertenecen a todas las demás clases se ignoran) de acuerdo con las estimaciones del clasificador de la probabilidad de que esos elementos pertenezcan a la clase k . AUC k , k siempre será cero pero, a diferencia del caso de dos clases, generalmente AUC k , ≠ AUC , k , razón por la cual la medida M suma todos los pares ( k , ), en efecto utilizando el promedio de AUC k , y AUC , k .

Cálculos

La prueba implica el cálculo de un estadístico , habitualmente llamado U , cuya distribución bajo la hipótesis nula se conoce:

  • En el caso de muestras pequeñas, la distribución se tabula.
  • Para tamaños de muestra superiores a ~20, la aproximación utilizando la distribución normal es bastante buena.

Alternativamente, la distribución nula se puede aproximar utilizando pruebas de permutación y simulaciones de Monte Carlo.

Algunos libros tabulan estadísticas equivalentes a U , como la suma de los rangos en una de las muestras, en lugar de U en sí.

La prueba U de Mann-Whitney está incluida en la mayoría de los paquetes estadísticos .

También se puede calcular fácilmente a mano, especialmente para muestras pequeñas. Hay dos formas de hacerlo.

Método uno:

Para comparar dos conjuntos pequeños de observaciones, un método directo es rápido y permite comprender el significado de la estadística U , que corresponde al número de victorias en todas las competencias por pares (consulte el ejemplo de la tortuga y la liebre en Ejemplos a continuación). Para cada observación de un conjunto, cuente el número de veces que este primer valor gana sobre cualquier observación del otro conjunto (el otro valor pierde si este primero es mayor). Cuente 0,5 para cualquier empate. La suma de victorias y empates es U (es decir: ) para el primer conjunto. U para el otro conjunto es lo inverso (es decir: ). 1 Estilo de visualización U_{1} 2 Estilo de visualización U_{2}

Método dos:

Para muestras más grandes:

  1. Asignar rangos numéricos a todas las observaciones (poner las observaciones de ambos grupos en un conjunto), comenzando con 1 para el valor más pequeño. Cuando haya grupos de valores empatados, asignar un rango igual al punto medio de los rangos no ajustados (por ejemplo, los rangos de (3, 5, 5, 5, 5, 8) son (1, 3,5, 3,5, 3,5, 3,5, 6) , donde los rangos no ajustados serían (1, 2, 3, 4, 5, 6) ).
  2. Ahora, suma los rangos de las observaciones que provienen de la muestra 1. Ahora se determina la suma de los rangos en la muestra 2, ya que la suma de todos los rangos es igual a N ( N + 1)/2, donde N es el número total de observaciones.
  3. U entonces viene dado por: [11]
1 = R 1 norte 1 ( norte 1 + 1 ) 2 {\displaystyle U_{1}=R_{1}-{n_{1}(n_{1}+1) \sobre 2}\,\!}
donde n 1 es el tamaño de la muestra para la muestra 1, y R 1 es la suma de los rangos en la muestra 1.
Tenga en cuenta que no importa cuál de las dos muestras se considere muestra 1. Una fórmula igualmente válida para U es
2 = R 2 norte 2 ( norte 2 + 1 ) 2 {\displaystyle U_{2}=R_{2}-{n_{2}(n_{2}+1) \sobre 2}\,\!}
El valor más pequeño de U 1 y U 2 es el que se utiliza al consultar las tablas de significancia. La suma de los dos valores viene dada por
1 + 2 = R 1 norte 1 ( norte 1 + 1 ) 2 + R 2 norte 2 ( norte 2 + 1 ) 2 . {\displaystyle U_{1}+U_{2}=R_{1}-{n_{1}(n_{1}+1) \sobre 2}+R_{2}-{n_{2}(n_{2}+1) \sobre 2}.\,\!}
Sabiendo que R 1 + R 2 = N ( N + 1)/2 y N = n 1 + n 2 , y haciendo algo de álgebra , encontramos que la suma es
U1 + U2 = n1n2 .

Propiedades

El valor máximo de U es el producto de los tamaños de muestra de las dos muestras (es decir: ). En tal caso, la "otra" U sería 0. i = norte 1 norte 2 {\displaystyle U_{i}=n_{1}n_{2}}

Ejemplos

Ilustración de los métodos de cálculo

Supongamos que Esopo no está satisfecho con su experimento clásico en el que se descubrió que una tortuga vencía a una liebre en una carrera, y decide realizar una prueba de significancia para descubrir si los resultados podrían extenderse a las tortugas y las liebres en general. Reúne una muestra de 6 tortugas y 6 liebres, y hace que todas corran su carrera a la vez. El orden en el que llegan a la meta (su orden de clasificación, desde la primera hasta la última en cruzar la línea de meta) es el siguiente, escribiendo T para una tortuga y H para una liebre:

THHHHHTTTTTH

¿Cual es el valor de U ?

  • Usando el método directo, tomamos cada tortuga por turno y contamos el número de liebres que vence, obteniendo 6, 1, 1, 1, 1, 1, lo que significa que U T = 11 . Alternativamente, podríamos tomar cada liebre por turno y contar el número de tortugas que vence. En este caso, obtenemos 5, 5, 5, 5, 5, 0, por lo que U H = 25 . Nótese que la suma de estos dos valores para U = 36 , que es 6×6 .
  • Utilizando el método indirecto:
Clasifique los animales según el tiempo que tardan en completar el recorrido, por lo que debe darle al primer animal el rango 12, al segundo el rango 11, y así sucesivamente.
la suma de los rangos alcanzados por las tortugas es 12 + 6 + 5 + 4 + 3 + 2 = 32 .
Por lo tanto, U T = 32 − (6×7)/2 = 32 − 21 = 11 (igual que el método uno).
La suma de los rangos alcanzados por las liebres es 11 + 10 + 9 + 8 + 7 + 1 = 46 , lo que da como resultado U H = 46 − 21 = 25 .

Ejemplo de declaración de resultados

Al informar los resultados de una prueba U de Mann-Whitney , es importante indicar: [12]

  • Una medida de las tendencias centrales de los dos grupos (medias o medianas; dado que la prueba U de Mann-Whitney es una prueba ordinal, generalmente se recomiendan las medianas)
  • El valor de U (quizás con alguna medida del tamaño del efecto, como el tamaño del efecto del lenguaje común o la correlación biserial de rango).
  • Los tamaños de muestra
  • El nivel de significancia.

En la práctica, es posible que ya se haya proporcionado parte de esta información y se debe aplicar el sentido común para decidir si se debe repetir. Un informe típico podría ser:

"Las latencias medias en los grupos E y C fueron 153 y 247 ms; las distribuciones en los dos grupos difirieron significativamente ( U de Mann-Whitney = 10,5 , n 1 = n 2 = 8 , P < 0,05 bilateral)."

Una declaración que haga plena justicia al estado estadístico de la prueba podría ser:

"Los resultados de los dos tratamientos se compararon utilizando la prueba de suma de rangos de dos muestras de Wilcoxon–Mann–Whitney. El efecto del tratamiento (diferencia entre tratamientos) se cuantificó utilizando el estimador de Hodges–Lehmann (HL), que es consistente con la prueba de Wilcoxon. [13] Este estimador (HLΔ) es la mediana de todas las posibles diferencias en los resultados entre un sujeto del grupo B y un sujeto del grupo A. Un intervalo de confianza no paramétrico de 0,95 para HLΔ acompaña estas estimaciones, al igual que ρ, una estimación de la probabilidad de que un sujeto elegido al azar de la población B tenga un peso mayor que un sujeto elegido al azar de la población A. La mediana [cuartiles] del peso de los sujetos en el tratamiento A y B respectivamente son 147 [121, 177] y 151 [130, 180] kg. El tratamiento A redujo el peso en HLΔ = 5 kg (0,95 CL [2, 9] kg, 2 P = 0,02 , ρ = 0,58 )."

Sin embargo, sería raro encontrar un informe tan extenso en un documento cuyo tema principal no fuera la inferencia estadística.

Aproximación normal y corrección de empate

Para muestras grandes, U se distribuye aproximadamente de manera normal . En ese caso, el valor estandarizado

el = metro σ , {\displaystyle z={\frac {U-m_{U}}{\sigma _{U}}},\,}

donde m U y σ U son la media y la desviación estándar de U , es aproximadamente una desviación normal estándar cuya significación se puede comprobar en las tablas de la distribución normal. m U y σ U se dan por

metro = norte 1 norte 2 2 , {\displaystyle m_{U}={\frac {n_{1}n_{2}}{2}},\,} [14] y
σ = norte 1 norte 2 ( norte 1 + norte 2 + 1 ) 12 . {\displaystyle \sigma _{U}={\sqrt {n_{1}n_{2}(n_{1}+n_{2}+1) \sobre 12}}.\,} [14]

La fórmula para la desviación estándar es más complicada en presencia de empates en los rangos. Si hay empates en los rangos, σ debe ajustarse de la siguiente manera:

σ lazos = norte 1 norte 2 ( norte 1 + norte 2 + 1 ) 12 norte 1 norte 2 a = 1 K ( a a 3 a a ) 12 norte ( norte 1 ) , {\displaystyle \sigma _{\text{ties}}={\sqrt {{n_{1}n_{2}(n_{1}+n_{2}+1) \sobre 12}-{n_{1}n_{2}\sum _{k=1}^{K}(t_{k}^{3}-t_{k}) \sobre 12n(n-1)}}},\,} [15]

donde el lado izquierdo es simplemente la varianza y el lado derecho es el ajuste por empates, t k es el número de empates para el k -ésimo rango, y K es el número total de rangos únicos con empates.

Una forma computacionalmente más eficiente con n 1 n 2 /12 factorizado es

σ lazos = norte 1 norte 2 12 ( ( norte + 1 ) a = 1 K ( a a 3 a a ) norte ( norte 1 ) ) , {\displaystyle \sigma _{\text{ties}}={\sqrt {{n_{1}n_{2} \sobre 12}\left((n+1)-{\sum _{k=1}^{K}(t_{k}^{3}-t_{k}) \sobre n(n-1)}\right)}},}

donde n = n 1 + n 2 .

Si el número de empates es pequeño (y especialmente si no hay bandas de empate grandes), los empates se pueden ignorar al hacer los cálculos a mano. Los paquetes estadísticos informáticos utilizarán la fórmula correctamente ajustada de manera rutinaria.

Tenga en cuenta que, dado que U 1 + U 2 = n 1 n 2 , la media n 1 n 2 /2 utilizada en la aproximación normal es la media de los dos valores de U . Por lo tanto, el valor absoluto de la estadística z calculada será el mismo independientemente del valor de U que se utilice.

Tamaños del efecto

Es una práctica ampliamente recomendada que los científicos informen el tamaño del efecto de una prueba inferencial. [16] [17]

Proporción de concordancia de todos los pares

Las siguientes medidas son equivalentes.

Tamaño del efecto del lenguaje común

Un método para informar el tamaño del efecto para la prueba U de Mann–Whitney es con f , el tamaño del efecto del lenguaje común. [18] [19] Como estadística de muestra, el tamaño del efecto del lenguaje común se calcula formando todos los pares posibles entre los dos grupos, luego encontrando la proporción de pares que apoyan una dirección (digamos, que los elementos del grupo 1 son más grandes que los elementos del grupo 2). [19] Para ilustrar, en un estudio con una muestra de diez liebres y diez tortugas, el número total de pares ordenados es diez veces diez o 100 pares de liebres y tortugas. Supongamos que los resultados muestran que la liebre corrió más rápido que la tortuga en 90 de los 100 pares de muestra; en ese caso, el tamaño del efecto del lenguaje común de la muestra es del 90%. [20]

La relación entre f y la U de Mann–Whitney (específicamente ) es la siguiente: 1 Estilo de visualización U_{1}

F = 1 norte 1 norte 2 {\displaystyle f={U_{1} sobre n_{1}n_{2}}\,}

Esto es lo mismo que el área bajo la curva (AUC) de la curva ROC.

ρestadística

Una estadística llamada ρ que está relacionada linealmente con U y se usa ampliamente en estudios de categorización ( aprendizaje de discriminación que involucra conceptos ), y en otros lugares, [21] se calcula dividiendo U por su valor máximo para los tamaños de muestra dados, que es simplemente n 1 × n 2 . ρ es, por lo tanto, una medida no paramétrica de la superposición entre dos distribuciones; puede tomar valores entre 0 y 1, y es una estimación de P( Y > X ) + 0,5 P( Y = X ) , donde X e Y son observaciones elegidas aleatoriamente de las dos distribuciones. Ambos valores extremos representan una separación completa de las distribuciones, mientras que un ρ de 0,5 representa una superposición completa. La utilidad de la estadística ρ se puede ver en el caso del extraño ejemplo utilizado anteriormente, donde dos distribuciones que eran significativamente diferentes en una prueba U de Mann-Whitney tenían, no obstante, medianas casi idénticas: el valor ρ en este caso es aproximadamente 0,723 a favor de las liebres, lo que refleja correctamente el hecho de que, aunque la tortuga mediana venció a la liebre mediana, las liebres colectivamente lo hicieron mejor que las tortugas colectivamente. [ cita requerida ]

Correlación biserial de rango

Un método para informar el tamaño del efecto de la prueba U de Mann-Whitney es con una medida de correlación de rango conocida como correlación biserial de rango. Edward Cureton introdujo y nombró la medida. [22] Al igual que otras medidas correlacionales, la correlación biserial de rango puede variar de menos uno a más uno, donde un valor de cero indica que no hay relación.

Existe una fórmula de diferencia simple para calcular la correlación biserial de rango a partir del tamaño del efecto del lenguaje común: la correlación es la diferencia entre la proporción de pares favorables a la hipótesis ( f ) menos su complemento (es decir: la proporción que es desfavorable ( u )). Esta fórmula de diferencia simple es simplemente la diferencia del tamaño del efecto del lenguaje común de cada grupo, y es la siguiente: [18]

a = F {\displaystyle r=fu}

Por ejemplo, considere el caso en el que las liebres corren más rápido que las tortugas en 90 de 100 pares. El tamaño del efecto del lenguaje común es del 90 %, por lo que la correlación biserial de rango es del 90 % menos el 10 %, y el  r biserial de rango = 0,80 .

Se puede utilizar una fórmula alternativa para el rango biserial para calcularlo a partir de la U de Mann-Whitney (ya sea o ) y los tamaños de muestra de cada grupo: [23] 1 Estilo de visualización U_{1} 2 Estilo de visualización U_{2}

a = F ( 1 F ) = 2 F 1 = 2 1 norte 1 norte 2 1 = 1 2 2 norte 1 norte 2 {\displaystyle r=f-(1-f)=2f-1={2U_{1} sobre n_{1}n_{2}}-1=1-{2U_{2} sobre n_{1}n_{2}}}

Esta fórmula es útil cuando los datos no están disponibles, pero sí hay un informe publicado, porque U y los tamaños de muestra se informan de manera rutinaria. Usando el ejemplo anterior con 90 pares que favorecen a las liebres y 10 pares que favorecen a la tortuga, U 2 es el más pequeño de los dos, por lo que U 2 = 10 . Esta fórmula entonces da r = 1 – (2×10) / (10×10) = 0.80 , que es el mismo resultado que con la fórmula de diferencia simple anterior.

Relación con otras pruebas

Comparación con el estudiantea-prueba

La prueba U de Mann-Whitney prueba la hipótesis nula de que la distribución de probabilidad de una observación extraída al azar de un grupo es la misma que la distribución de probabilidad de una observación extraída al azar del otro grupo frente a una alternativa de que esas distribuciones no son iguales (véase la prueba U de Mann-Whitney#Supuestos y enunciado formal de hipótesis). Por el contrario, una prueba t prueba una hipótesis nula de medias iguales en dos grupos frente a una alternativa de medias desiguales. Por lo tanto, excepto en casos especiales, la prueba U de Mann-Whitney y la prueba t no prueban las mismas hipótesis y deben compararse teniendo esto en cuenta.

Datos ordinales
La prueba U de Mann-Whitney es preferible a la prueba t cuando los datos son ordinales pero no tienen escala de intervalo, en cuyo caso no se puede suponer que el espaciamiento entre valores adyacentes de la escala sea constante.
Robustez
Al comparar las sumas de rangos, [24] la prueba U de Mann-Whitney tiene menos probabilidades que la prueba t de indicar falsamente significancia debido a la presencia de valores atípicos . Sin embargo, la prueba U de Mann-Whitney puede tener un peor control de error de tipo I cuando los datos son heterocedásticos y no normales. [25]
Eficiencia
Cuando se cumple la normalidad, la prueba U de Mann-Whitney tiene una eficiencia (asintótica) de 3/ π o aproximadamente 0,95 en comparación con la prueba t . [26] Para distribuciones suficientemente alejadas de la normalidad y para tamaños de muestra suficientemente grandes, la prueba U de Mann-Whitney es considerablemente más eficiente que la t . [27] Sin embargo, esta comparación en eficiencia debe interpretarse con cautela, ya que Mann-Whitney y la prueba t no prueban las mismas cantidades. Si, por ejemplo, una diferencia de medias de grupo es de interés primario, Mann-Whitney no es una prueba apropiada. [28]

La prueba U de Mann-Whitney arrojará resultados muy similares a los obtenidos con una prueba t paramétrica ordinaria de dos muestras sobre las clasificaciones de los datos. [29]

Eficiencias relativas de la prueba de Mann-Whitney frente a la prueba t de dos muestras si f = g es igual a un número de distribuciones [30]
DistribuciónEficiencia
Logístico π 2 / 9 estilo de visualización {\pi ^{2}/9}
Normal 3 / π {\estilo de visualización 3/\pi}
Laplace3/2
Uniforme1

Diferentes distribuciones

La prueba U de Mann-Whitney no es válida para probar la hipótesis nula contra la hipótesis alternativa ), sin asumir que las distribuciones son las mismas bajo la hipótesis nula (es decir, suponiendo ). [2] Para probar entre esas hipótesis, hay mejores pruebas disponibles. Entre ellas se encuentran la prueba de Brunner-Munzel y la prueba de Fligner-Policello. [31] Específicamente, bajo la hipótesis nula más general , la prueba U de Mann-Whitney puede tener tasas de error de tipo I infladas incluso en muestras grandes (especialmente si las varianzas de dos poblaciones son desiguales y los tamaños de muestra son diferentes), un problema que resuelven las mejores alternativas. [32] Como resultado, se ha sugerido utilizar una de las alternativas (específicamente la prueba de Brunner-Munzel) si no se puede asumir que las distribuciones son iguales bajo la hipótesis nula. [32] PAG ( Y > incógnita ) + 0,5 PAG ( Y = incógnita ) = 0,5 {\displaystyle P(Y>X)+0,5P(Y=X)=0,5} PAG ( Y > incógnita ) + 0,5 PAG ( Y = incógnita ) 0,5 {\displaystyle P(Y>X)+0,5P(Y=X)\neq 0,5} F 1 = F 2 Estilo de visualización F_{1}=F_{2}} PAG ( Y > incógnita ) + 0,5 PAG ( Y = incógnita ) = 0,5 {\displaystyle P(Y>X)+0,5P(Y=X)=0,5}

Alternativas

Si se desea una interpretación de cambio simple, no se debe utilizar la prueba U de Mann-Whitney cuando las distribuciones de las dos muestras son muy diferentes, ya que puede dar una interpretación errónea de resultados significativos. [33] En esa situación, la versión de varianzas desiguales de la prueba t puede dar resultados más confiables.

De manera similar, algunos autores (por ejemplo, Conover [ cita completa requerida ] ) sugieren transformar los datos en rangos (si aún no son rangos) y luego realizar la prueba t en los datos transformados, la versión de la prueba t utilizada depende de si se sospecha o no que las varianzas de la población son diferentes. Las transformaciones de rangos no preservan las varianzas, pero las varianzas se vuelven a calcular a partir de las muestras después de las transformaciones de rangos.

Se ha sugerido la prueba de Brown-Forsythe como un equivalente no paramétrico apropiado de la prueba F para varianzas iguales. [ cita requerida ]

Una prueba más potente es la prueba de Brunner-Munzel , que supera a la prueba U de Mann-Whitney en caso de violación del supuesto de intercambiabilidad. [34]

La prueba U de Mann-Whitney es un caso especial del modelo de probabilidades proporcionales , que permite el ajuste de covariables. [35]

Véase también la prueba de Kolmogorov-Smirnov .

La tau de Kendall

La prueba U de Mann-Whitney está relacionada con varios otros procedimientos estadísticos no paramétricos. Por ejemplo, es equivalente al coeficiente de correlación tau de Kendall si una de las variables es binaria (es decir, solo puede tomar dos valores). [ cita requerida ]

Implementaciones de software

En muchos paquetes de software, la prueba U de Mann-Whitney (de la hipótesis de distribuciones iguales frente a alternativas apropiadas) ha sido mal documentada. Algunos paquetes tratan incorrectamente los empates o no documentan las técnicas asintóticas (por ejemplo, la corrección por continuidad). Una revisión de 2000 analizó algunos de los siguientes paquetes: [36]

  • MATLAB tiene .mw-parser-output .monospaced{font-family:monospace,monospace}ranksum en su caja de herramientas de estadísticas.
  • El paquete base de estadísticas de R implementa la prueba wilcox.test en su paquete "stats".
  • La función R wilcoxonZ del paquete rcompanion calculará la estadística z para una prueba de Wilcoxon de dos muestras, pareada o de una muestra.
  • SAS implementa la prueba en su PROC NPAR1WAYprocedimiento.
  • Python tiene una implementación de esta prueba proporcionada por SciPy . [37]
  • SigmaStat (SPSS Inc., Chicago, Illinois)
  • SYSTAT (SPSS Inc., Chicago, Illinois)
  • Java tiene una implementación de esta prueba proporcionada por Apache Commons [38]
  • Julia tiene implementaciones de esta prueba a través de varios paquetes. En el paquete HypothesisTests.jl, se encuentra como pvalue(MannWhitneyUTest(X, Y)). [39]
  • JMP (SAS Institute Inc., Cary, Carolina del Norte)
  • S-Plus (MathSoft, Inc., Seattle, Washington)
  • ESTADÍSTICA (StatSoft, Inc., Tulsa, OK)
  • UNISTAT (Unistat Ltd, Londres)
  • SPSS (SPSS Inc., Chicago)
  • StatsDirect (StatsDirect Ltd, Manchester, Reino Unido) implementa todas las variantes comunes.
  • Stata (Stata Corporation, College Station, TX) implementa la prueba en su comando ranksum.
  • StatXact (Corporación de software Cytel, Cambridge, Massachusetts)
  • PSPP implementa la prueba en su función WILCOXON.
  • KNIME implementa la prueba en su nodo de prueba Wilcoxon–Mann–Whitney.

Historia

La estadística apareció en un artículo de 1914 [40] del alemán Gustav Deuchler (con un término faltante en la varianza).

En un solo artículo de 1945, Frank Wilcoxon propuso [41] tanto la prueba de rangos con signo de una muestra como la prueba de suma de rangos de dos muestras, en una prueba de significancia con una hipótesis nula puntual contra su alternativa complementaria (es decir, igual versus no igual). Sin embargo, solo tabuló algunos puntos para el caso de tamaño de muestra igual en ese artículo (aunque en un artículo posterior proporcionó tablas más grandes).

Un análisis exhaustivo de la estadística, que incluía una recurrencia que permitía el cálculo de probabilidades de cola para tamaños de muestra arbitrarios y tablas para tamaños de muestra de ocho o menos apareció en el artículo de Henry Mann y su estudiante Donald Ransom Whitney en 1947. [1] Este artículo discutió hipótesis alternativas, incluyendo un ordenamiento estocástico (donde las funciones de distribución acumulativa satisfacían la desigualdad puntual F X ( t ) < F Y ( t ) ). Este documento también calculó los primeros cuatro momentos y estableció la normalidad límite de la estadística bajo la hipótesis nula, estableciendo así que es asintóticamente libre de distribución.

Véase también

Notas

  1. ^ ab Mann, Henry B. ; Whitney, Donald R. (1947). "Sobre una prueba de si una de dos variables aleatorias es estocásticamente mayor que la otra". Anales de estadística matemática . 18 (1): 50–60. doi : 10.1214/aoms/1177730491 . MR  0022058. Zbl  0041.26103.
  2. ^ ab Fay, Michael P.; Proschan, Michael A. (2010). "¿Wilcoxon–Mann–Whitney o prueba t? Sobre supuestos para pruebas de hipótesis e interpretaciones múltiples de reglas de decisión". Encuestas estadísticas . 4 : 1–39. doi :10.1214/09-SS051. MR  2595125. PMC 2857732 . PMID  20414472. 
  3. ^ [1], Véase la Tabla 2.1 de Pratt (1964) "Robustez de algunos procedimientos para el problema de ubicación de dos muestras". Journal of the American Statistical Association. 59 (307): 655–680. Si las dos distribuciones son normales con la misma media pero diferentes varianzas, entonces Pr[ X  >  Y ] = Pr[ Y  <  X ] pero el tamaño de la prueba de Mann-Whitney puede ser mayor que el nivel nominal. Por lo tanto, no podemos definir la hipótesis nula como Pr[ X  >  Y ] = Pr[ Y  <  X ] y obtener una prueba válida.
  4. ^ Divine, George W.; Norton, H. James; Barón, Anna E.; Juarez-Colunga, Elizabeth (2018). "El procedimiento de Wilcoxon–Mann–Whitney falla como prueba de medianas". The American Statistician . 72 (3): 278–286. doi : 10.1080/00031305.2017.1305291 .
  5. ^ Conroy, Ronán (2012). "¿Qué hipótesis prueban realmente las pruebas "no paramétricas" de dos grupos?". Stata Journal . 12 (2): 182–190. doi : 10.1177/1536867X1201200202 . S2CID  118445807 . Consultado el 24 de mayo de 2021 .
  6. ^ Hart, Anna (2001). "La prueba de Mann-Whitney no es solo una prueba de medianas: las diferencias en la dispersión pueden ser importantes". BMJ . 323 (7309): 391–393. doi : 10.1136/bmj.323.7309.391 . PMC 1120984 . PMID  11509435. 
  7. ^ Universidad de Boston (SPH), 2017
  8. ^ Mason, SJ, Graham, NE (2002). "Áreas bajo las curvas de características operativas relativas (ROC) y niveles operativos relativos (ROL): significación estadística e interpretación". Quarterly Journal of the Royal Meteorological Society . 128 (584): 2145–2166. doi :10.1256/003590002320603584. ISSN  1477-870X.
  9. ^ Fawcett, Tom (2006); Una introducción al análisis ROC , Pattern Recognition Letters, 27, 861–874.
  10. ^ Hand, David J.; Till, Robert J. (2001). "Una generalización simple del área bajo la curva ROC para problemas de clasificación de clases múltiples". Aprendizaje automático . 45 (2): 171–186. doi : 10.1023/A:1010920819831 .
  11. ^ Zar, Jerrold H. (1998). Análisis bioestadístico . Nueva Jersey: Prentice Hall International, INC. p. 147. ISBN 978-0-13-082390-8.
  12. ^ Fritz, Catherine O.; Morris, Peter E.; Richler, Jennifer J. (2012). "Estimaciones del tamaño del efecto: uso actual, cálculos e interpretación". Revista de psicología experimental: general . 141 (1): 2–18. doi :10.1037/a0024338. ISSN  1939-2222. PMID  21823805.
  13. ^ Myles Hollander; Douglas A. Wolfe (1999). Métodos estadísticos no paramétricos (2.ª edición). Wiley-Interscience. ISBN 978-0471190455.
  14. ^ ab Siegal, Sidney (1956). Estadísticas no paramétricas para las ciencias del comportamiento . McGraw-Hill. pág. 121.{{cite book}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
  15. ^ Lehmann, Erich; D'Abrera, Howard (1975). No paramétricos: métodos estadísticos basados ​​en rangos . Holden-Day. pág. 20.{{cite book}}: CS1 maint: nombres numéricos: lista de autores ( enlace )
  16. ^ Wilkinson, Leland (1999). "Métodos estadísticos en revistas de psicología: directrices y explicaciones". American Psychologist . 54 (8): 594–604. doi :10.1037/0003-066X.54.8.594.
  17. ^ Nakagawa, Shinichi; Cuthill, Innes C (2007). "Tamaño del efecto, intervalo de confianza y significación estadística: una guía práctica para biólogos". Biological Reviews of the Cambridge Philosophical Society . 82 (4): 591–605. doi :10.1111/j.1469-185X.2007.00027.x. PMID  17944619. S2CID  615371.
  18. ^ ab Kerby, DS (2014). "La fórmula de diferencia simple: un enfoque para la enseñanza de la correlación no paramétrica". Psicología integral . 3 : 11.IT.3.1. doi : 10.2466/11.IT.3.1 . S2CID  120622013.
  19. ^ ab McGraw, KO; Wong, JJ (1992). "Una estadística común del tamaño del efecto del lenguaje". Psychological Bulletin . 111 (2): 361–365. doi :10.1037/0033-2909.111.2.361.
  20. ^ Grissom RJ (1994). "Análisis estadístico del estado categórico ordinal después de terapias". Revista de consultoría y psicología clínica . 62 (2): 281–284. doi :10.1037/0022-006X.62.2.281. PMID  8201065.
  21. ^ Herrnstein, Richard J.; Loveland, Donald H.; Cable, Cynthia (1976). "Conceptos naturales en palomas". Revista de psicología experimental: procesos de comportamiento animal . 2 (4): 285–302. doi :10.1037/0097-7403.2.4.285. PMID  978139.
  22. ^ Cureton, EE (1956). "Correlación de rangos biserial". Psychometrika . 21 (3): 287–290. doi :10.1007/BF02289138. S2CID  122500836.
  23. ^ Wendt, HW (1972). "Abordar un problema común en las ciencias sociales: un coeficiente de correlación biserial simplificado basado en la estadística U ". Revista Europea de Psicología Social . 2 (4): 463–465. doi :10.1002/ejsp.2420020412.
  24. ^ Motulsky, Harvey J.; Guía de estadísticas , San Diego, CA: GraphPad Software, 2007, pág. 123
  25. ^ Zimmerman, Donald W. (1 de enero de 1998). "Invalidación de pruebas estadísticas paramétricas y no paramétricas por violación concurrente de dos supuestos". Revista de educación experimental . 67 (1): 55–68. doi :10.1080/00220979809598344. ISSN  0022-0973.
  26. ^ Lehamnn, Erich L.; Elementos de la teoría de muestras grandes , Springer, 1999, pág. 176
  27. ^ Conover, William J.; Practical Nonparametric Statistics, John Wiley & Sons, 1980 (2.ª edición), págs. 225-226
  28. ^ Lumley, Thomas; Diehr, Paula ; Emerson, Scott; Chen, Lu (mayo de 2002). "La importancia del supuesto de normalidad en grandes conjuntos de datos de salud pública". Revisión anual de salud pública . 23 (1): 151–169. doi : 10.1146/annurev.publhealth.23.100901.140546 . ISSN  0163-7525. PMID  11910059.
  29. ^ Conover, William J.; Iman, Ronald L. (1981). "Transformaciones de rango como puente entre las estadísticas paramétricas y no paramétricas". The American Statistician . 35 (3): 124–129. doi :10.2307/2683975. JSTOR  2683975.
  30. ^ Vaart, AW van der (13 de octubre de 1998). Estadística asintótica. Cambridge University Press. doi :10.1017/cbo9780511802256. ISBN 978-0-511-80225-6.
  31. ^ Brunner, Edgar; Bathke, Arne C.; Konietschke, Frank (2018). Procedimientos de rango y pseudorango para observaciones independientes en diseños factoriales: uso de R y SAS. Springer Series in Statistics. Cham: Springer International Publishing. doi :10.1007/978-3-030-02914-2. ISBN 978-3-030-02912-8.
  32. ^ ab Karch, Julian D. (2021). "Los psicólogos deberían utilizar la prueba U de Brunner-Munzel en lugar de la de Mann-Whitney como procedimiento no paramétrico predeterminado". Avances en métodos y prácticas en la ciencia psicológica . 4 (2). doi : 10.1177/2515245921999602 . hdl : 1887/3209569 . ISSN  2515-2459.
  33. ^ Kasuya, Eiiti (2001). "Prueba U de Mann–Whitney cuando las varianzas son desiguales". Animal Behaviour . 61 (6): 1247–1249. doi :10.1006/anbe.2001.1691. S2CID  140209347.
  34. ^ Karch, Julian (2021). "Los psicólogos deberían utilizar la prueba U de Brunner-Munzel en lugar de la de Mann-Whitney como procedimiento no paramétrico predeterminado". Avances en métodos y prácticas en la ciencia psicológica . 4 (2). doi :10.1177/2515245921999602. hdl : 1887/3209569 . S2CID  235521799.
  35. ^ Harrell, Frank (20 de septiembre de 2020). "La violación de las probabilidades proporcionales no es fatal". {{cite journal}}: Requiere citar revista |journal=( ayuda )
  36. ^ Bergmann, Reinhard; Ludbrook, John; Spooren, Will PJM (2000). "Diferentes resultados de la prueba de Wilcoxon–Mann–Whitney a partir de diferentes paquetes estadísticos". The American Statistician . 54 (1): 72–77. doi :10.1080/00031305.2000.10474513. JSTOR  2685616. S2CID  120473946.
  37. ^ "scipy.stats.mannwhitneyu". Guía de referencia de SciPy v0.16.0 . La comunidad Scipy. 24 de julio de 2015 . Consultado el 11 de septiembre de 2015 . scipy.stats.mannwhitneyu(x, y, use_continuity=True): calcula la prueba de rangos de Mann–Whitney en las muestras x e y.
  38. ^ "MannWhitneyUTest (API Apache Commons Math 3.3)". commons.apache.org .
  39. ^ "JuliaStats/HypothesisTests.jl". GitHub . 30 de mayo de 2021.
  40. ^ Kruskal, William H. (septiembre de 1957). "Notas históricas sobre la prueba de dos muestras no pareadas de Wilcoxon". Revista de la Asociación Estadounidense de Estadística . 52 (279): 356–360. doi :10.2307/2280906. JSTOR  2280906.
  41. ^ Wilcoxon, Frank (1945). "Comparaciones individuales mediante métodos de clasificación". Boletín de biometría . 1 (6): 80–83. doi :10.2307/3001968. hdl : 10338.dmlcz/135688 . JSTOR  3001968.

Referencias

  • Hettmansperger, TP; McKean, JW (1998). Métodos estadísticos no paramétricos robustos . Biblioteca de Estadística de Kendall. Vol. 5 (primera edición, en lugar de la segunda edición de Taylor y Francis (2010). Londres; Nueva York: Edward Arnold; John Wiley and Sons, Inc. págs. xiv+467. ISBN 978-0-340-54937-7.Sr. 1604954  .
  • Corder, GW; Foreman, DI (2014). Estadísticas no paramétricas: un enfoque paso a paso . Wiley. ISBN 978-1118840313.
  • Hodges, JL; Lehmann, EL (1963). "Estimación de la ubicación basada en rangos". Anales de estadística matemática . 34 (2): 598–611. doi : 10.1214/aoms/1177704172 . JSTOR  2238406. MR  0152070. Zbl  0203.21105. PE  euclid.aoms/1177704172.
  • Kerby, DS (2014). "La fórmula de diferencia simple: un enfoque para la enseñanza de la correlación no paramétrica". Psicología integral . 3 : 11.IT.3.1. doi : 10.2466/11.IT.3.1 . S2CID  120622013.
  • Lehmann, Erich L. (2006). Nonparametrics: Statistical methods based on ranks (Analítica no paramétrica: métodos estadísticos basados ​​en rangos ). Con la colaboración especial de H. J. M. D'Abrera (reimpresión de la revisión de 1988 de la edición Holden-Day de 1975). Nueva York: Springer. pp. xvi+463. ISBN. 978-0-387-35212-1.Sr. 0395032  .
  • Oja, Hannu (2010). Métodos no paramétricos multivariados con  R : un enfoque basado en signos y rangos espaciales . Lecture Notes in Statistics. Vol. 199. Nueva York: Springer. pp. xiv+232. doi :10.1007/978-1-4419-0468-3. ISBN . 978-1-4419-0467-6.Señor 2598854  .
  • Sen, Pranab Kumar (diciembre de 1963). "Sobre la estimación de la potencia relativa en ensayos de dilución (directa) mediante métodos de distribución libre". Biometrics . 19 (4): 532–552. doi :10.2307/2527532. JSTOR  2527532. Zbl  0119.15604.
  • Tabla de valores críticos de U (pdf)
  • Calculadora interactiva para U y su significado
  • Breve guía del psicólogo experimental Karl L. Weunsch: Estimadores no paramétricos del tamaño del efecto (Copyright 2015 de Karl L. Weunsch)
Obtenido de "https://es.wikipedia.org/w/index.php?title=Prueba_U_de_Mann-Whitney&oldid=1257266963"