En estadística , se incurre en errores de muestreo cuando las características estadísticas de una población se estiman a partir de un subconjunto, o muestra , de esa población. Dado que la muestra no incluye a todos los miembros de la población, las estadísticas de la muestra (a menudo conocidas como estimadores ), como las medias y los cuartiles, generalmente difieren de las estadísticas de toda la población (conocidas como parámetros ). La diferencia entre la estadística de la muestra y el parámetro de la población se considera el error de muestreo . [1] Por ejemplo, si se mide la altura de mil individuos de una población de un millón, la altura promedio de los mil normalmente no es la misma que la altura promedio de todo el millón de personas del país.
Dado que el muestreo casi siempre se realiza para estimar parámetros poblacionales que son desconocidos, por definición no será posible medir con exactitud los errores de muestreo; sin embargo, a menudo se pueden estimar, ya sea mediante métodos generales como el bootstrap , o mediante métodos específicos que incorporan algunas suposiciones (o conjeturas) respecto de la verdadera distribución poblacional y sus parámetros.
El error de muestreo es el error causado por observar una muestra en lugar de toda la población. [1] El error de muestreo es la diferencia entre una estadística de muestra utilizada para estimar un parámetro de población y el valor real pero desconocido del parámetro. [2]
En estadística , una muestra verdaderamente aleatoria significa seleccionar individuos de una población con una probabilidad equivalente ; en otras palabras, escoger individuos de un grupo sin sesgo. Si no se hace esto correctamente, se producirá un sesgo de muestreo , que puede aumentar drásticamente el error de muestreo de manera sistemática . Por ejemplo, intentar medir la altura promedio de toda la población humana de la Tierra, pero medir una muestra de un solo país, podría dar como resultado una gran sobreestimación o subestimación. En realidad, obtener una muestra no sesgada puede ser difícil ya que muchos parámetros (en este ejemplo, país, edad, género, etc.) pueden sesgar fuertemente el estimador y se debe asegurar que ninguno de estos factores influya en el proceso de selección.
Incluso en una muestra perfecta e imparcial, el error de muestreo seguirá existiendo debido al componente estadístico restante; considere que medir solo a dos o tres individuos y tomar el promedio produciría un resultado muy variable cada vez. El tamaño probable del error de muestreo generalmente se puede reducir tomando una muestra más grande. [3]
En realidad, el costo de aumentar el tamaño de una muestra puede ser prohibitivo. Dado que el error de muestra a menudo se puede estimar de antemano como una función del tamaño de la muestra, se utilizan diversos métodos de determinación del tamaño de la muestra para sopesar la precisión prevista de un estimador frente al costo previsto de tomar una muestra más grande.
Como se ha comentado, una estadística de muestra, como un promedio o un porcentaje, generalmente estará sujeta a variaciones de muestra a muestra. [1] Al comparar muchas muestras o dividir una muestra más grande en muestras más pequeñas (posiblemente con superposición), la dispersión de las estadísticas de muestra resultantes se puede utilizar para estimar el error estándar de la muestra.
El término "error de muestreo" también se ha utilizado en un sentido relacionado pero fundamentalmente diferente en el campo de la genética ; por ejemplo, en el efecto cuello de botella o efecto fundador , cuando los desastres naturales o las migraciones reducen drásticamente el tamaño de una población, lo que da como resultado una población más pequeña que puede o no representar fielmente a la original. Esta es una fuente de deriva genética , ya que ciertos alelos se vuelven más o menos comunes), y se ha denominado "error de muestreo", [4] a pesar de no ser un "error" en el sentido estadístico.