En las estadísticas frecuentistas , la potencia es una medida de la capacidad de un diseño experimental y una configuración de prueba de hipótesis para detectar un efecto particular si está realmente presente. En el uso típico, es una función de la prueba utilizada (incluido el nivel deseado de significación estadística ), la distribución asumida de la prueba (por ejemplo, el grado de variabilidad y el tamaño de la muestra ) y el tamaño del efecto de interés. Una alta potencia estadística está relacionada con una baja variabilidad, tamaños de muestra grandes, efectos grandes buscados y requisitos menos estrictos de significación estadística.
Más formalmente, en el caso de una prueba de hipótesis simple con dos hipótesis, la potencia de la prueba es la probabilidad de que la prueba rechace correctamente la hipótesis nula ( ) cuando la hipótesis alternativa ( ) es verdadera. Se denota comúnmente por , donde es la probabilidad de cometer un error de tipo II (un falso negativo ) condicional a que haya un efecto o asociación verdaderos.
Las pruebas estadísticas utilizan datos de muestras para evaluar o hacer inferencias sobre una población estadística . Por ejemplo, podemos medir los rendimientos de muestras de dos variedades de un cultivo y utilizar una prueba de dos muestras para evaluar si los valores medios de este rendimiento difieren entre variedades.
En el marco de una prueba de hipótesis frecuentista, esto se hace calculando una estadística de prueba (como una estadística t ) para el conjunto de datos, que tiene una distribución de probabilidad teórica conocida si no hay diferencia (la llamada hipótesis nula). Si el valor real calculado en la muestra es suficientemente improbable de surgir bajo la hipótesis nula, decimos que identificamos un efecto estadísticamente significativo.
El umbral de significación puede establecerse pequeño para garantizar que haya pocas posibilidades de detectar erróneamente un efecto inexistente. Sin embargo, no identificar un efecto significativo no implica que no lo haya habido. Si insistimos en tener cuidado para evitar los falsos positivos, podemos crear falsos negativos en su lugar. Puede ser simplemente demasiado esperar que podamos encontrar evidencia satisfactoriamente sólida de una diferencia muy sutil incluso si existe. El poder estadístico es un intento de cuantificar esta cuestión.
En el caso de la comparación de las dos variedades de cultivo, nos permite responder preguntas como:
Supongamos que estamos realizando una prueba de hipótesis. Definimos dos hipótesis : la hipótesis nula y la hipótesis alternativa. Si diseñamos la prueba de manera que α sea el nivel de significancia (es decir, la probabilidad de rechazar cuando en realidad es verdadera), entonces la potencia de la prueba es 1 - β , donde β es la probabilidad de no rechazar cuando la alternativa es verdadera.
Probabilidad de rechazo | Probabilidad de no rechazar | |
---|---|---|
Si es verdad | alfa | 1-α |
Si es verdad | 1-β (potencia) | β |
Para hacerlo más concreto, una prueba estadística típica se basaría en una estadística de prueba t calculada a partir de los datos muestreados, que tiene una distribución de probabilidad particular bajo . Un nivel de significancia deseado α definiría entonces una "región de rechazo" correspondiente (limitada por ciertos "valores críticos"), un conjunto de valores que es poco probable que t tome si fuera correcto. Si rechazamos a favor de solo cuando la muestra t tome esos valores, podríamos mantener la probabilidad de rechazar falsamente dentro de nuestro nivel de significancia deseado. Al mismo tiempo, si define su propia distribución de probabilidad para t (la diferencia entre las dos distribuciones es una función del tamaño del efecto), la potencia de la prueba sería la probabilidad, bajo , de que la muestra t caiga en nuestra región de rechazo definida y haga que se rechace correctamente.
El poder estadístico es uno menos la probabilidad de error de tipo II y también es la sensibilidad del procedimiento de prueba de hipótesis para detectar un efecto verdadero. Por lo general, existe un equilibrio entre exigir pruebas más estrictas (y, por lo tanto, regiones de rechazo más pequeñas) y tratar de tener una alta probabilidad de rechazar la hipótesis nula bajo la hipótesis alternativa. El poder estadístico también puede extenderse al caso en el que se prueban múltiples hipótesis basadas en un experimento o encuesta. Por lo tanto, también es común referirse al poder de un estudio , evaluando un proyecto científico en términos de su capacidad para responder a las preguntas de investigación que buscan responder.
La principal aplicación del poder estadístico es el "análisis de potencia", un cálculo de potencia que se realiza habitualmente antes de realizar un experimento utilizando datos de estudios piloto o una revisión de la literatura. Los análisis de potencia se pueden utilizar para calcular el tamaño mínimo de muestra necesario para que sea razonablemente probable detectar un efecto de un tamaño determinado (en otras palabras, producir un nivel aceptable de potencia). Por ejemplo: "¿Cuántas veces tengo que lanzar una moneda para concluir que está manipulada en una determinada cantidad?" [1] Si los recursos y, por lo tanto, los tamaños de muestra son fijos, los análisis de potencia también se pueden utilizar para calcular el tamaño mínimo del efecto que es probable que se detecte.
Las agencias de financiación, los comités de ética y los paneles de revisión de investigaciones solicitan con frecuencia que un investigador realice un análisis de potencia. Es probable que un estudio con potencia insuficiente no sea concluyente y no permita elegir entre hipótesis con el nivel de significación deseado, mientras que un estudio con potencia excesiva gastará mucho dinero en poder informar sobre efectos significativos incluso si son minúsculos y, por lo tanto, prácticamente insignificantes. Si se realiza una gran cantidad de estudios con potencia insuficiente y se publican resultados estadísticamente significativos , es más probable que los hallazgos publicados sean falsos positivos que resultados verdaderos, lo que contribuye a una crisis de replicación . Sin embargo, las demandas excesivas de potencia podrían estar relacionadas con el desperdicio de recursos y problemas éticos, por ejemplo, el uso de una gran cantidad de sujetos de prueba animales cuando un número menor hubiera sido suficiente. También podría inducir a los investigadores que intentan buscar financiación a exagerar los tamaños de los efectos esperados o evitar buscar efectos de interacción más sutiles que no se pueden detectar fácilmente. [2]
El análisis de potencia es principalmente una herramienta estadística frecuentista . En la estadística bayesiana no se realizan pruebas de hipótesis del tipo que se utiliza en el análisis de potencia clásico. En el marco bayesiano, uno actualiza sus creencias previas utilizando los datos obtenidos en un estudio determinado. En principio, un estudio que se consideraría poco potente desde la perspectiva de la prueba de hipótesis aún podría utilizarse en ese proceso de actualización. Sin embargo, la potencia sigue siendo una medida útil de cuánto se puede esperar que un tamaño de experimento determinado refine las creencias de uno. Es poco probable que un estudio con poca potencia conduzca a un gran cambio en las creencias.
Además, el concepto de potencia se utiliza para hacer comparaciones entre diferentes procedimientos de prueba estadística: por ejemplo, entre una prueba paramétrica y una prueba no paramétrica de la misma hipótesis. Las pruebas pueden tener el mismo tamaño y, por lo tanto, las mismas tasas de falsos positivos, pero diferente capacidad para detectar efectos verdaderos. La consideración de sus propiedades de potencia teórica es una razón clave para el uso común de las pruebas de razón de verosimilitud .
La regla general (aproximada) de Lehr [3] [4] dice que el tamaño de la muestra (para cada grupo) para el caso común de una prueba t de dos muestras bilateral con potencia del 80% ( ) y nivel de significancia debe ser: donde es una estimación de la varianza de la población y la diferencia a detectar en los valores medios de ambas muestras. Esta expresión se puede reorganizar, lo que implica, por ejemplo, que se obtiene una potencia del 80% cuando se busca una diferencia en las medias que excede aproximadamente 4 veces el error estándar de la media por grupo .
Para una prueba t de una muestra, se debe reemplazar 16 por 8. Otros valores proporcionan una aproximación adecuada cuando el nivel de potencia o significancia deseados son diferentes. [5]
Sin embargo, siempre se debe realizar un análisis de potencia completo para confirmar y refinar esta estimación.
La potencia estadística puede depender de varios factores. Algunos factores pueden ser específicos de una situación de prueba específica, pero en el uso normal, la potencia depende de los tres aspectos siguientes que pueden ser controlados por el profesional:
Para una prueba dada, el criterio de significancia determina el grado deseado de rigor, especificando cuán improbable es que la hipótesis nula de que no hay efecto sea rechazada si de hecho es verdadera. El umbral más comúnmente usado es una probabilidad de rechazo de 0,05, aunque a veces se usan valores más pequeños como 0,01 o 0,001. Este umbral entonces implica que la observación debe ser al menos tan improbable (quizás al sugerir una estimación suficientemente grande de la diferencia) para ser considerada evidencia suficientemente fuerte contra la hipótesis nula. Elegir un valor más pequeño para ajustar el umbral, de modo de reducir la posibilidad de un falso positivo, también reduciría la potencia, aumentando la posibilidad de un falso negativo. Algunas pruebas estadísticas producirán inherentemente una mejor potencia , aunque a menudo a costa de requerir suposiciones más sólidas.
La magnitud del efecto de interés define lo que se busca con la prueba. Puede ser el tamaño del efecto esperado si existe, como una hipótesis científica a la que el investigador ha llegado y desea probar. Alternativamente, en un contexto más práctico podría determinarse por el tamaño que debe tener el efecto para ser útil, por ejemplo, el que se requiere para que sea clínicamente significativo . Un tamaño del efecto puede ser un valor directo de la cantidad de interés (por ejemplo, una diferencia en la media de un tamaño particular), o puede ser una medida estandarizada que también tenga en cuenta la variabilidad en la población (como una diferencia en las medias expresada como un múltiplo de la desviación estándar). Si el investigador está buscando un efecto mayor, entonces debería ser más fácil encontrarlo con una configuración experimental o analítica dada, y por lo tanto la potencia es mayor.
La naturaleza de la muestra es la base de la información que se utiliza en la prueba. Esto suele implicar el tamaño de la muestra y la variabilidad de la misma, si no está implícita en la definición del tamaño del efecto. En términos más generales, la precisión con la que se miden los datos también puede ser un factor importante (como la fiabilidad estadística ), así como el diseño de un experimento o estudio observacional. En última instancia, estos factores conducen a una cantidad esperada de error de muestreo . Se podría obtener un error de muestreo menor con tamaños de muestra mayores de una población con menor variabilidad, con mediciones más precisas o con diseños experimentales más eficientes (por ejemplo, con el uso apropiado del bloqueo ), y esos errores más pequeños conducirían a una mayor potencia, aunque normalmente a un coste de recursos. La forma en que un mayor tamaño de muestra se traduce en una mayor potencia es una medida de la eficiencia de la prueba; por ejemplo, el tamaño de muestra necesario para una potencia determinada. [6]
El poder estadístico de una prueba de hipótesis tiene un impacto en la interpretación de sus resultados. No encontrar un resultado con un estudio más potente es una evidencia más fuerte contra el efecto existente que el mismo hallazgo con un estudio menos potente. Sin embargo, esto no es completamente concluyente. El efecto puede existir, pero ser menor que lo buscado, lo que significa que el estudio de hecho tiene un poder estadístico insuficiente y la muestra, por lo tanto, no puede distinguirlo del azar. [7] Muchos ensayos clínicos , por ejemplo, tienen un poder estadístico bajo para detectar diferencias en los efectos adversos de los tratamientos, ya que dichos efectos pueden afectar solo a unos pocos pacientes, incluso si esta diferencia puede ser importante . [8] Las conclusiones sobre la probabilidad de presencia real de un efecto también deben considerar más cosas que una sola prueba, especialmente porque el poder del mundo real rara vez se acerca a 1.
De hecho, aunque no existen estándares formales de potencia, muchos investigadores y organismos de financiación evalúan la potencia utilizando 0,80 (u 80%) como estándar de adecuación. Esta convención implica una compensación de cuatro a uno entre el riesgo β y el riesgo α , ya que la probabilidad de un error de tipo II β se establece en 1 - 0,8 = 0,2, mientras que α, la probabilidad de un error de tipo I, se establece comúnmente en 0,05. Algunas aplicaciones requieren niveles de potencia mucho más altos. Las pruebas médicas pueden diseñarse para minimizar el número de falsos negativos (errores de tipo II) producidos relajando el umbral de significación, lo que aumenta el riesgo de obtener un falso positivo (un error de tipo I). La razón es que es mejor decirle a un paciente sano "puede que hayamos encontrado algo; hagamos más pruebas", que decirle a un paciente enfermo "todo está bien". [9]
El análisis de potencia se centra en el rechazo correcto de una hipótesis nula. Sin embargo, preocupaciones alternativas pueden motivar un experimento y, por lo tanto, conducir a diferentes necesidades de tamaño de muestra. En muchos contextos, la cuestión no es tanto decidir entre hipótesis, sino más bien obtener una estimación del tamaño del efecto de la población con suficiente precisión. Por ejemplo, un análisis de potencia cuidadoso puede indicar que 55 pares de muestras distribuidas normalmente con una correlación de 0,5 serán suficientes para otorgar un 80% de potencia al rechazar una hipótesis nula cuya correlación no sea mayor que 0,2 (usando una prueba unilateral, α = 0,05). Pero el intervalo de confianza típico del 95% con esta muestra estaría alrededor de [0,27, 0,67]. Se requeriría un análisis alternativo, aunque relacionado, si deseamos poder medir la correlación con una precisión de +/- 0,1, lo que implica un tamaño de muestra diferente (en este caso, mayor). Alternativamente, múltiples estudios con poca potencia aún pueden ser útiles, si se combinan adecuadamente a través de un metanálisis .
Muchos análisis estadísticos implican la estimación de varias cantidades desconocidas. En casos simples, todas menos una de estas cantidades son parámetros molestos . En este contexto, la única potencia relevante pertenece a la única cantidad que se someterá a una inferencia estadística formal. En algunos contextos, en particular si los objetivos son más "exploratorios", puede haber varias cantidades de interés en el análisis. Por ejemplo, en un análisis de regresión múltiple podemos incluir varias covariables de interés potencial. En situaciones como esta, donde se están considerando varias hipótesis, es común que las potencias asociadas con las diferentes hipótesis difieran. Por ejemplo, en el análisis de regresión múltiple, la potencia para detectar un efecto de un tamaño determinado está relacionada con la varianza de la covariable. Dado que diferentes covariables tendrán diferentes varianzas, sus potencias también diferirán.
Surgen complicaciones adicionales cuando consideramos estas múltiples hipótesis juntas. Por ejemplo, si consideramos que un falso positivo es hacer un rechazo nulo erróneo en cualquiera de estas hipótesis, nuestra probabilidad de este "error de familia" será inflada si no se toman las medidas adecuadas. Tales medidas típicamente implican aplicar un umbral más alto de rigurosidad para rechazar una hipótesis (como con el método de Bonferroni ), y por lo tanto reducirían la potencia. Alternativamente, puede haber diferentes nociones de potencia conectadas con la forma en que se consideran las diferentes hipótesis. La "potencia completa" exige que se detecten todos los efectos verdaderos en todas las hipótesis, lo que es un requisito mucho más fuerte que la "potencia mínima" de ser capaz de encontrar al menos un efecto verdadero, un tipo de potencia que podría aumentar con un número creciente de hipótesis. [10]
El análisis de potencia puede realizarse antes ( análisis de potencia a priori o prospectivo) o después ( análisis de potencia post hoc o retrospectivo) de la recopilación de datos. El análisis de potencia a priori se lleva a cabo antes del estudio de investigación y se utiliza normalmente para estimar tamaños de muestra suficientes para lograr una potencia adecuada. El análisis post hoc de la "potencia observada" se lleva a cabo después de que se ha completado un estudio y utiliza el tamaño de muestra obtenido y el tamaño del efecto para determinar cuál fue la potencia en el estudio, suponiendo que el tamaño del efecto en la muestra es igual al tamaño del efecto en la población. Mientras que la utilidad del análisis de potencia prospectivo en el diseño experimental es universalmente aceptada, el análisis de potencia post hoc es fundamentalmente defectuoso. [11] [12] Caer en la tentación de utilizar el análisis estadístico de los datos recopilados para estimar la potencia dará como resultado valores poco informativos y engañosos. En particular, se ha demostrado que la "potencia observada" post hoc es una función uno a uno del valor p alcanzado. [11] Esto se ha ampliado para mostrar que todos los análisis de potencia post-hoc sufren lo que se llama la "paradoja del enfoque de potencia" (PAP), en la que se piensa que un estudio con un resultado nulo muestra más evidencia de que la hipótesis nula es realmente verdadera cuando el valor p es menor, ya que el poder aparente para detectar un efecto real sería mayor. [11] De hecho, se entiende correctamente que un valor p menor hace que la hipótesis nula sea relativamente menos probable de ser verdadera. [ cita requerida ]
El siguiente es un ejemplo que muestra cómo calcular la potencia para un experimento aleatorio: supongamos que el objetivo de un experimento es estudiar el efecto de un tratamiento sobre una determinada cantidad, por lo que compararemos sujetos de investigación midiendo la cantidad antes y después del tratamiento, analizando los datos utilizando una prueba t pareada unilateral , con un umbral de nivel de significancia de 0,05. Nos interesa poder detectar un cambio positivo de tamaño .
Primero planteamos el problema de acuerdo con nuestra prueba. Sea y denoten las medidas previas y posteriores al tratamiento en el sujeto , respectivamente. El posible efecto del tratamiento debería ser visible en las diferencias que se supone que son independientes e idénticamente normales en distribución, con valor medio y varianza desconocidos .
Aquí, es natural elegir nuestra hipótesis nula como que la diferencia de medias esperada es cero, es decir, para nuestra prueba unilateral, la hipótesis alternativa sería que hay un efecto positivo, correspondiente a La estadística de prueba en este caso se define como:
donde es la media bajo la nula, por lo que sustituimos en 0, n es el tamaño de la muestra (número de sujetos), es la media de la muestra de la diferencia
y es la desviación estándar de la muestra de la diferencia.
Podemos proceder de acuerdo con nuestro conocimiento de la teoría estadística, aunque en la práctica para un caso estándar como este existirá software para calcular respuestas más precisas.
Gracias a la teoría de la prueba t, sabemos que esta estadística de prueba bajo la hipótesis nula sigue una distribución t de Student con grados de libertad. Si deseamos rechazar la hipótesis nula en el nivel de significancia , debemos encontrar el valor crítico tal que la probabilidad de bajo la hipótesis nula sea igual a . Si n es grande, la distribución t converge a la distribución normal estándar (por lo que ya no involucra n ) y, por lo tanto, mediante el uso de la función cuantil correspondiente , obtenemos que la hipótesis nula debe rechazarse si
Ahora supongamos que la hipótesis alternativa es verdadera, por lo que . Entonces, escribiendo la potencia como una función del tamaño del efecto, , encontramos la probabilidad de estar por encima de .
nuevamente sigue una distribución t de Student bajo , convergiendo hacia una distribución normal estándar para n grande . La estimación también convergerá hacia su valor de población . Por lo tanto, la potencia se puede aproximar como
Según esta fórmula, la potencia aumenta con los valores del tamaño del efecto y el tamaño de la muestra n , y se reduce con el aumento de la variabilidad . En el caso trivial de tamaño del efecto cero, la potencia está en un mínimo ( ínfimo ) e igual al nivel de significación de la prueba en este ejemplo 0,05. Para tamaños de muestra finitos y variabilidad no cero, es el caso aquí, como es típico, que la potencia no se puede hacer igual a 1 excepto en el caso trivial donde la hipótesis nula siempre se rechaza.
Podemos invertir para obtener los tamaños de muestra requeridos:
Supongamos y creemos que está alrededor de 2, digamos, entonces requerimos para una potencia de , un tamaño de muestra
Como alternativa, podemos utilizar un método de simulación de Monte Carlo que funciona de manera más general. [13] Una vez más, volvemos al supuesto de la distribución de y la definición de . Supongamos que tenemos valores fijos del tamaño de la muestra, la variabilidad y el tamaño del efecto, y deseamos calcular la potencia. Podemos adoptar este proceso:
1. Generar una gran cantidad de conjuntos de acuerdo con la hipótesis nula,
2. Calcule la estadística de prueba resultante para cada conjunto.
3. Calcule el cuartil n de la simulación y utilícelo como una estimación de .
4. Ahora genere una gran cantidad de conjuntos de según la hipótesis alternativa, y calcule nuevamente las estadísticas de prueba correspondientes.
5. Observa la proporción de estas alternativas simuladas que son superiores a las calculadas en el paso 3 y, por lo tanto, se rechazan. Esta es la potencia.
Esto se puede hacer con una variedad de paquetes de software. Si se utiliza esta metodología con los valores anteriores, y se establece el tamaño de la muestra en 25, se obtiene una potencia estimada de alrededor de 0,78. La pequeña discrepancia con la sección anterior se debe principalmente a imprecisiones con la aproximación normal.
En el contexto frecuentista , se supone que los parámetros tienen un valor específico que es poco probable que sea verdadero. Esta cuestión se puede solucionar suponiendo que el parámetro tiene una distribución. La potencia resultante a veces se denomina potencia bayesiana, que se utiliza habitualmente en el diseño de ensayos clínicos .
Tanto el poder frecuentista como el poder bayesiano utilizan la significación estadística como criterio de éxito. Sin embargo, la significación estadística a menudo no es suficiente para definir el éxito. Para abordar esta cuestión, el concepto de poder se puede extender al concepto de probabilidad predictiva de éxito (PPOS). El criterio de éxito para PPOS no se limita a la significación estadística y se utiliza comúnmente en diseños de ensayos clínicos .
Existen numerosos programas gratuitos y/o de código abierto disponibles para realizar cálculos de potencia y tamaño de muestra. Entre ellos se incluyen: