La determinación o estimación del tamaño de la muestra es el acto de elegir el número de observaciones o réplicas que se incluirán en una muestra estadística . El tamaño de la muestra es una característica importante de cualquier estudio empírico en el que el objetivo sea hacer inferencias sobre una población a partir de una muestra. En la práctica, el tamaño de la muestra utilizado en un estudio suele determinarse en función del coste, el tiempo o la conveniencia de recopilar los datos, y la necesidad de que ofrezcan suficiente potencia estadística . En estudios complejos, se pueden asignar diferentes tamaños de muestra, como en encuestas estratificadas o diseños experimentales con múltiples grupos de tratamiento. En un censo , se buscan datos para toda una población, por lo que el tamaño de muestra previsto es igual a la población. En el diseño experimental , donde un estudio puede dividirse en diferentes grupos de tratamiento , puede haber diferentes tamaños de muestra para cada grupo.
Los tamaños de muestra se pueden elegir de varias maneras:
La determinación del tamaño de la muestra es un aspecto crucial de la metodología de investigación que desempeña un papel importante a la hora de garantizar la fiabilidad y validez de los resultados de un estudio. Para influir en la precisión de las estimaciones, la potencia de las pruebas estadísticas y la solidez general de los resultados de la investigación, es necesario elegir cuidadosamente el número de participantes o puntos de datos que se incluirán en un estudio.
Por ejemplo, si estamos realizando una encuesta para determinar el nivel de satisfacción promedio de los clientes con respecto a un nuevo producto, para determinar un tamaño de muestra adecuado, debemos considerar factores como el nivel de confianza deseado, el margen de error y la variabilidad en las respuestas. Podríamos decidir que queremos un nivel de confianza del 95 %, lo que significa que estamos 95 % seguros de que el nivel de satisfacción promedio real se encuentra dentro del rango calculado. También decidimos un margen de error de ±3 %, que indica el rango aceptable de diferencia entre nuestra estimación de muestra y el parámetro de población real. Además, podemos tener alguna idea de la variabilidad esperada en los niveles de satisfacción en función de datos o suposiciones anteriores.
Los tamaños de muestra más grandes generalmente conducen a una mayor precisión al estimar parámetros desconocidos. Por ejemplo, para determinar con precisión la prevalencia de infección por patógenos en una especie específica de pez, es preferible examinar una muestra de 200 peces en lugar de 100. Varios hechos fundamentales de la estadística matemática describen este fenómeno, incluida la ley de los grandes números y el teorema del límite central .
En algunas situaciones, el aumento de la precisión para muestras de mayor tamaño es mínimo o incluso inexistente. Esto puede deberse a la presencia de errores sistemáticos o una fuerte dependencia en los datos, o si los datos siguen una distribución de cola pesada, o porque los datos son fuertemente dependientes o están sesgados.
El tamaño de la muestra puede evaluarse en función de la calidad de las estimaciones resultantes, como se indica a continuación. Generalmente, se determina en función del costo, el tiempo o la conveniencia de la recopilación de datos y la necesidad de contar con suficiente poder estadístico. Por ejemplo, si se está estimando una proporción, se puede desear que el intervalo de confianza del 95% sea menor de 0,06 unidades de ancho. Alternativamente, el tamaño de la muestra puede evaluarse en función del poder de una prueba de hipótesis. Por ejemplo, si estamos comparando el apoyo a un determinado candidato político entre las mujeres con el apoyo a ese candidato entre los hombres, es posible que deseemos tener un poder del 80% para detectar una diferencia en los niveles de apoyo de 0,04 unidades.
Una situación relativamente sencilla es la estimación de una proporción . Se trata de un aspecto fundamental del análisis estadístico, en particular cuando se trata de medir la prevalencia de una característica específica dentro de una población. Por ejemplo, podríamos querer estimar la proporción de residentes de una comunidad que tienen al menos 65 años de edad.
El estimador de una proporción es , donde X es el número de instancias "positivas" (por ejemplo, el número de personas de las n personas muestreadas que tienen al menos 65 años). Cuando las observaciones son independientes , este estimador tiene una distribución binomial (escalada) (y también es la media muestral de los datos de una distribución de Bernoulli ). La varianza máxima de esta distribución es 0,25, lo que ocurre cuando el parámetro verdadero es p = 0,5. En aplicaciones prácticas, donde se desconoce el parámetro verdadero p , a menudo se emplea la varianza máxima para las evaluaciones del tamaño de la muestra. Si se conoce una estimación razonable para p, la cantidad se puede utilizar en lugar de 0,25.
A medida que el tamaño de la muestra n se hace lo suficientemente grande, la distribución de se aproximará estrechamente a una distribución normal . [1] Usando esto y el método de Wald para la distribución binomial , se obtiene un intervalo de confianza, donde Z representa la puntuación Z estándar para el nivel de confianza deseado (por ejemplo, 1,96 para un intervalo de confianza del 95 %), en la forma:
Para determinar un tamaño de muestra n adecuado para estimar proporciones, se puede resolver la ecuación siguiente, donde W representa el ancho deseado del intervalo de confianza. La fórmula de tamaño de muestra resultante se aplica a menudo con una estimación conservadora de p (p. ej., 0,5):
para n , obteniendo el tamaño de la muestra
, en el caso de utilizar .5 como la estimación más conservadora de la proporción. (Nota: W/2 = margen de error ).
En la siguiente figura se puede observar cómo cambian los tamaños de muestra para proporciones binomiales dados diferentes niveles de confianza y márgenes de error.
De lo contrario, la fórmula sería , lo que da como resultado . Por ejemplo, al estimar la proporción de la población estadounidense que apoya a un candidato presidencial con un intervalo de confianza del 95 % de 2 puntos porcentuales (0,02), se requiere un tamaño de muestra de (1,96) 2 / (0,02 2 ) = 9604 con un margen de error en este caso de 1 punto porcentual. Es razonable utilizar la estimación de 0,5 para p en este caso porque las contiendas presidenciales suelen estar cerca del 50/50, y también es prudente utilizar una estimación conservadora. El margen de error en este caso es de 1 punto porcentual (la mitad de 0,02).
En la práctica, la fórmula : se utiliza comúnmente para formar un intervalo de confianza del 95% para la proporción verdadera. La ecuación se puede resolver para n , proporcionando un tamaño de muestra mínimo necesario para cumplir con el margen de error deseado. Lo anterior se simplifica comúnmente: [2] [3] n = 4/ W 2 = 1/ B 2 donde B es el límite de error en la estimación, es decir, la estimación generalmente se da como dentro de ± B . Para B = 10% se requiere n = 100, para B = 5% se necesita n = 400, para B = 3% el requisito se aproxima a n = 1000, mientras que para B = 1% se requiere un tamaño de muestra de n = 10000. Estos números se citan a menudo en informes de noticias de encuestas de opinión y otras encuestas de muestra . Sin embargo, los resultados informados pueden no ser el valor exacto ya que los números se redondean preferiblemente. Sabiendo que el valor de n es el número mínimo de puntos de muestra necesarios para obtener el resultado deseado, el número de encuestados debe entonces estar en el mínimo o ser superior.
En términos simples, si estamos tratando de estimar el tiempo promedio que tarda la gente en viajar al trabajo en una ciudad, en lugar de encuestar a toda la población, se puede tomar una muestra aleatoria de 100 personas, registrar sus tiempos de viaje y luego calcular el tiempo de viaje medio (promedio) para esa muestra. Por ejemplo, la persona 1 tarda 25 minutos, la persona 2 tarda 30 minutos, ..., la persona 100 tarda 20 minutos. Sume todos los tiempos de viaje y divida por el número de personas en la muestra (100 en este caso). El resultado sería su estimación del tiempo de viaje medio para toda la población. Este método es práctico cuando no es posible medir a todos los miembros de la población y proporciona una aproximación razonable basada en una muestra representativa.
De manera matemáticamente precisa, al estimar la media poblacional utilizando una muestra independiente e idénticamente distribuida (iid) de tamaño n , donde cada valor de datos tiene una varianza σ 2 , el error estándar de la media de la muestra es:
Esta expresión describe cuantitativamente cómo la estimación se vuelve más precisa a medida que aumenta el tamaño de la muestra. El uso del teorema del límite central para justificar la aproximación de la media de la muestra con una distribución normal produce un intervalo de confianza de la forma
Para determinar el tamaño de muestra n requerido para un intervalo de confianza de ancho W, con W/2 como margen de error en cada lado de la media de la muestra, se utiliza la ecuación
.
Por ejemplo, si se estima el efecto de un medicamento sobre la presión arterial con un intervalo de confianza del 95 % de seis unidades de ancho, y la desviación estándar conocida de la presión arterial en la población es 15, el tamaño de muestra requerido sería , que se redondearía a 97, ya que los tamaños de muestra deben ser números enteros y deben cumplir o superar el valor mínimo calculado . Comprender estos cálculos es esencial para los investigadores que diseñan estudios para estimar con precisión las medias de la población dentro de un nivel de confianza deseado.
Uno de los desafíos más frecuentes que enfrentan los estadísticos gira en torno a la tarea de calcular el tamaño de muestra necesario para alcanzar una potencia estadística específica para una prueba, manteniendo al mismo tiempo una tasa de error de tipo I predeterminada α, que indica el nivel de significancia en la prueba de hipótesis. Esto produce una cierta potencia para una prueba, dada una variable predeterminada. Como se indica a continuación, esto se puede estimar mediante tablas predeterminadas para ciertos valores, mediante la ecuación de recursos de Mead o, de manera más general, mediante la función de distribución acumulativa :
[4] Poder | La d de Cohen | ||
---|---|---|---|
0,2 | 0,5 | 0,8 | |
0,25 | 84 | 14 | 6 |
0,50 | 193 | 32 | 13 |
0,60 | 246 | 40 | 16 |
0,70 | 310 | 50 | 20 |
0,80 | 393 | 64 | 26 |
0,90 | 526 | 85 | 34 |
0,95 | 651 | 105 | 42 |
0,99 | 920 | 148 | 58 |
La tabla que se muestra a la derecha se puede utilizar en una prueba t de dos muestras para estimar los tamaños de muestra de un grupo experimental y un grupo de control que son de igual tamaño, es decir, el número total de individuos en el ensayo es el doble del número dado, y el nivel de significancia deseado es 0,05. [4] Los parámetros utilizados son:
La ecuación de recursos de Mead se utiliza a menudo para estimar el tamaño de las muestras de animales de laboratorio , así como en muchos otros experimentos de laboratorio. Puede que no sea tan precisa como el uso de otros métodos para estimar el tamaño de la muestra, pero da una pista de cuál es el tamaño de muestra adecuado cuando parámetros como las desviaciones estándar esperadas o las diferencias esperadas en los valores entre grupos son desconocidos o muy difíciles de estimar. [5]
Todos los parámetros de la ecuación son de hecho los grados de libertad del número de sus conceptos y, por lo tanto, sus números se restan en 1 antes de insertarlos en la ecuación.
La ecuación es: [5]
dónde:
Por ejemplo, si se planea un estudio que utiliza animales de laboratorio con cuatro grupos de tratamiento ( T = 3), con ocho animales por grupo, lo que da un total de 32 animales ( N = 31), sin ninguna estratificación adicional ( B = 0), entonces E sería igual a 28, que está por encima del límite de corte de 20, lo que indica que el tamaño de la muestra puede ser demasiado grande y seis animales por grupo podrían ser más apropiados. [6]
Sean X i , i = 1, 2, ..., n observaciones independientes tomadas de una distribución normal con media desconocida μ y varianza conocida σ 2 . Consideremos dos hipótesis, una hipótesis nula :
y una hipótesis alternativa:
para alguna 'diferencia significativa más pequeña' μ * > 0. Este es el valor más pequeño para el cual nos interesa observar una diferencia. Ahora, para (1) rechazar H 0 con una probabilidad de al menos 1 − β cuando H a es verdadera (es decir, una potencia de 1 − β ), y (2) rechazar H 0 con probabilidad α cuando H 0 es verdadera, es necesario lo siguiente: Si z α es el punto porcentual α superior de la distribución normal estándar, entonces
y entonces
es una regla de decisión que satisface (2). (Esta es una prueba de una cola). En tal escenario, lograr esto con una probabilidad de al menos 1−β cuando la hipótesis alternativa H a es verdadera se vuelve imperativo. Aquí, el promedio de la muestra se origina a partir de una distribución normal con una media de μ * . Por lo tanto, el requisito se expresa como:
Mediante una manipulación cuidadosa, se puede demostrar que esto sucede (ver Ejemplo de potencia estadística ) cuando
donde es la función de distribución acumulativa normal .
Con técnicas de muestreo más complicadas, como el muestreo estratificado , la muestra a menudo se puede dividir en submuestras. Normalmente, si hay H submuestras de este tipo (de H estratos diferentes), cada una de ellas tendrá un tamaño de muestra n h , h = 1, 2, ..., H . Estos n h deben cumplir la regla de que n 1 + n 2 + ... + n H = n (es decir, que el tamaño total de la muestra está dado por la suma de los tamaños de las submuestras). La selección óptima de estos n h se puede realizar de varias formas, utilizando (por ejemplo) la asignación óptima de Neyman.
Existen muchas razones para utilizar el muestreo estratificado: [7] para disminuir las varianzas de las estimaciones de la muestra, para utilizar métodos parcialmente no aleatorios o para estudiar estratos individualmente. Un método útil, parcialmente no aleatorio, sería muestrear individuos donde sea fácil acceder a ellos, pero, donde no sea así, muestrear conglomerados para ahorrar costos de viaje. [8]
En general, para los estratos H , una media de muestra ponderada es
con
Los pesos, , con frecuencia, pero no siempre, representan las proporciones de los elementos de la población en los estratos, y . Para un tamaño de muestra fijo, es decir ,
que puede hacerse mínimo si la tasa de muestreo dentro de cada estrato se hace proporcional a la desviación estándar dentro de cada estrato: , donde y es una constante tal que .
Se alcanza una "asignación óptima" cuando las tasas de muestreo dentro de los estratos se hacen directamente proporcionales a las desviaciones estándar dentro de los estratos e inversamente proporcionales a la raíz cuadrada del costo de muestreo por elemento dentro de los estratos :
donde es una constante tal que , o, más generalmente, cuando
La investigación cualitativa aborda la determinación del tamaño de la muestra con una metodología distintiva que se aparta de los métodos cuantitativos. En lugar de basarse en fórmulas predeterminadas o cálculos estadísticos, implica un juicio subjetivo e iterativo a lo largo del proceso de investigación. En los estudios cualitativos, los investigadores suelen adoptar una postura subjetiva y toman decisiones a medida que se desarrolla el estudio. La determinación del tamaño de la muestra en los estudios cualitativos adopta un enfoque diferente. Por lo general, se trata de un juicio subjetivo que se toma a medida que avanza la investigación. [13] Un enfoque común es incluir continuamente participantes o materiales adicionales hasta que se alcanza un punto de "saturación". La saturación se produce cuando los nuevos participantes o datos dejan de proporcionar nuevas perspectivas, lo que indica que el estudio ha capturado adecuadamente la diversidad de perspectivas o experiencias dentro de la muestra elegida hasta que se alcanza la saturación . [14] El número necesario para alcanzar la saturación se ha investigado empíricamente. [15] [16] [17] [18]
A diferencia de la investigación cuantitativa, los estudios cualitativos se enfrentan a una escasez de orientación confiable con respecto a la estimación del tamaño de la muestra antes de comenzar la investigación. Imagine realizar entrevistas en profundidad con sobrevivientes de cáncer, los investigadores cualitativos pueden usar la saturación de datos para determinar el tamaño de muestra apropiado. Si, a lo largo de varias entrevistas, no aparecen temas o ideas nuevos, se ha alcanzado la saturación y más entrevistas podrían no agregar mucho a nuestro conocimiento de la experiencia del sobreviviente. Por lo tanto, en lugar de seguir una fórmula estadística preestablecida, el concepto de alcanzar la saturación sirve como una guía dinámica para determinar el tamaño de la muestra en la investigación cualitativa. Hay una escasez de orientación confiable sobre la estimación de los tamaños de muestra antes de comenzar la investigación, con una variedad de sugerencias dadas. [16] [19] [20] [21] En un esfuerzo por introducir cierta estructura en el proceso de determinación del tamaño de la muestra en la investigación cualitativa, se ha propuesto una herramienta análoga a los cálculos de potencia cuantitativos. Esta herramienta, basada en la distribución binomial negativa , está especialmente diseñada para el análisis temático . [22] [21]