El sesgo estadístico , en el campo matemático de la estadística , es una tendencia sistemática en la que los métodos utilizados para recopilar datos y generar estadísticas presentan una representación inexacta, sesgada o sesgada de la realidad. El sesgo estadístico existe en numerosas etapas del proceso de recopilación y análisis de datos, incluidos: la fuente de los datos, los métodos utilizados para recopilar los datos, el estimador elegido y los métodos utilizados para analizar los datos. Los analistas de datos pueden tomar varias medidas en cada etapa del proceso para reducir el impacto del sesgo estadístico en su trabajo. Comprender la fuente del sesgo estadístico puede ayudar a evaluar si los resultados observados se acercan a la realidad. Se ha argumentado que los problemas de sesgo estadístico están estrechamente vinculados a los problemas de validez estadística . [1]
El sesgo estadístico puede tener implicaciones significativas en el mundo real, ya que los datos se utilizan para fundamentar la toma de decisiones en una amplia variedad de procesos de la sociedad. Los datos se utilizan para fundamentar la elaboración de leyes, la regulación de la industria, las tácticas de marketing y distribución corporativas y las políticas institucionales en las organizaciones y los lugares de trabajo. Por lo tanto, puede haber implicaciones significativas si el sesgo estadístico no se tiene en cuenta y se controla. Por ejemplo, si una empresa farmacéutica desea explorar el efecto de un medicamento en el resfriado común, pero la muestra de datos solo incluye hombres, cualquier conclusión que se haga a partir de esos datos estará sesgada hacia cómo el medicamento afecta a los hombres en lugar de a las personas en general. Eso significa que la información estaría incompleta y no sería útil para decidir si el medicamento está listo para su lanzamiento al público en general. En este escenario, el sesgo se puede abordar ampliando la muestra. Este error de muestreo es solo una de las formas en que los datos pueden estar sesgados.
El sesgo se puede diferenciar de otros errores estadísticos, como la precisión (falla/insuficiencia del instrumento), la falta de datos o los errores en la transcripción (errores tipográficos). El sesgo implica que la selección de datos puede haber estado sesgada por los criterios de recopilación. También surgen otras formas de sesgo de origen humano en la recopilación de datos, como el sesgo de respuesta , en el que los participantes dan respuestas inexactas a una pregunta. El sesgo no excluye la existencia de otros errores. Uno puede tener una muestra mal diseñada, un dispositivo de medición inexacto y errores tipográficos en el registro de datos simultáneamente. Lo ideal es que todos los factores estén controlados y contabilizados.
También es útil reconocer que el término “error” se refiere específicamente al resultado más que al proceso ( errores de rechazo o aceptación de la hipótesis que se está probando ), o al fenómeno de los errores aleatorios . [2] Se recomiendan los términos falla o equivocación para diferenciar los errores de procedimiento de estos términos específicamente definidos basados en resultados.
Sesgo de un estimador
El sesgo estadístico es una característica de una técnica estadística o de sus resultados por la cual el valor esperado de los resultados difiere del verdadero parámetro cuantitativo subyacente que se está estimando . El sesgo de un estimador de un parámetro no debe confundirse con su grado de precisión, ya que el grado de precisión es una medida del error de muestreo. El sesgo se define de la siguiente manera: sea una estadística utilizada para estimar un parámetro y sea el valor esperado de . Entonces,
se denomina sesgo de la estadística (con respecto a ). Si , entonces se dice que es un estimador insesgado de ; de lo contrario, se dice que es un estimador sesgado de .
El sesgo de una estadística siempre es relativo al parámetro que se utiliza para estimar, pero el parámetro a menudo se omite cuando del contexto queda claro qué se está estimando.
Tipos
El sesgo estadístico surge de todas las etapas del análisis de datos. Las siguientes fuentes de sesgo se enumerarán en cada etapa por separado.
El sesgo de espectro surge de la evaluación de pruebas diagnósticas en muestras de pacientes sesgadas, lo que lleva a una sobrestimación de la sensibilidad y especificidad de la prueba. Por ejemplo, una alta prevalencia de una enfermedad en una población de estudio aumenta los valores predictivos positivos, lo que provocará un sesgo entre los valores de predicción y los reales. [4]
El sesgo de selección de observadores ocurre cuando la evidencia presentada ha sido filtrada previamente por los observadores, lo que se denomina principio antrópico . Los datos recopilados no solo se filtran por el diseño del experimento, sino también por la condición previa necesaria de que debe haber alguien realizando un estudio. [5] Un ejemplo es el impacto de la Tierra en el pasado. El evento de impacto puede causar la extinción de animales inteligentes, o no había animales inteligentes en ese momento. Por lo tanto, algunos eventos de impacto no se han observado, pero pueden haber ocurrido en el pasado. [6]
El sesgo de voluntariado ocurre cuando los voluntarios tienen características intrínsecamente diferentes de la población objetivo del estudio. [7] Las investigaciones han demostrado que los voluntarios tienden a provenir de familias con un nivel socioeconómico más alto. [8] Además, otro estudio muestra que las mujeres tienen más probabilidades de ofrecerse como voluntarias para los estudios que los hombres. [9]
El sesgo de financiación puede llevar a la selección de resultados, muestras de prueba o procedimientos de prueba que favorezcan al patrocinador financiero de un estudio. [10]
El sesgo de deserción surge debido a la pérdida de participantes, por ejemplo, pérdida de seguimiento durante un estudio. [11]
El sesgo de recuerdo surge debido a diferencias en la precisión o integridad de los recuerdos de los participantes de eventos pasados; por ejemplo, los pacientes no pueden recordar exactamente cuántos cigarrillos fumaron la semana pasada, lo que lleva a una sobreestimación o subestimación.
Prueba de hipótesis
Los errores de tipo I y tipo II en las pruebas de hipótesis estadísticas conducen a resultados erróneos. [12] El error de tipo I ocurre cuando la hipótesis nula es correcta pero se rechaza. Por ejemplo, supongamos que la hipótesis nula es que si el límite de velocidad promedio de conducción varía de 75 a 85 km/h, no se considera exceso de velocidad. Por otro lado, si la velocidad promedio no está en ese rango, se considera exceso de velocidad. Si alguien recibe una multa por conducir a una velocidad promedio de 7 km/h, el tomador de decisiones ha cometido un error de tipo I. En otras palabras, la velocidad promedio de conducción cumple con la hipótesis nula pero se rechaza. Por el contrario, el error de tipo II ocurre cuando la hipótesis nula no es correcta pero se acepta.
El sesgo en las pruebas de hipótesis ocurre cuando la potencia (el complemento de la tasa de error de tipo II) en alguna alternativa es menor que el máximo de la tasa de error de tipo I (que suele ser el nivel de significancia, ). De manera equivalente, si ninguna tasa de rechazo en ninguna alternativa es menor que la tasa de rechazo en cualquier punto del conjunto de hipótesis nulas, se dice que la prueba es imparcial. [13]
Selección de estimador
El sesgo de un estimador es la diferencia entre el valor esperado del estimador y el valor verdadero del parámetro que se está estimando. Aunque teóricamente es preferible un estimador insesgado a un estimador sesgado, en la práctica, se utilizan con frecuencia estimadores sesgados con sesgos pequeños. Un estimador sesgado puede ser más útil por varias razones. En primer lugar, un estimador insesgado puede no existir sin suposiciones adicionales. En segundo lugar, a veces un estimador insesgado es difícil de calcular. En tercer lugar, un estimador sesgado puede tener un valor menor de error cuadrático medio.
Un estimador sesgado es mejor que cualquier estimador insesgado que surja de la distribución de Poisson . [14] [15] El valor de un estimador sesgado es siempre positivo y su error cuadrático medio es menor que el del insesgado, lo que hace que el estimador sesgado sea más preciso.
El sesgo de variable omitida es el sesgo que aparece en las estimaciones de parámetros en el análisis de regresión cuando la especificación asumida omite una variable independiente que debería estar en el modelo.
Métodos de análisis
El sesgo de detección se produce cuando es más probable que se observe un fenómeno en un grupo particular de sujetos de estudio. Por ejemplo, la sindemia que involucra obesidad y diabetes puede significar que los médicos tengan más probabilidades de buscar diabetes en pacientes obesos que en pacientes delgados, lo que lleva a una inflación de la diabetes entre los pacientes obesos debido a esfuerzos de detección sesgados.
En la medición educativa , el sesgo se define como "errores sistemáticos en el contenido de las pruebas, la administración de las pruebas y/o los procedimientos de calificación que pueden causar que algunos examinados obtengan puntajes más bajos o más altos que los que su verdadera capacidad merecería". [16] La fuente del sesgo es irrelevante para el rasgo que la prueba pretende medir.
El sesgo del observador surge cuando el investigador influye inconscientemente en el experimento debido a un sesgo cognitivo en el que el juicio puede alterar cómo se lleva a cabo un experimento o cómo se registran los resultados.
Interpretación
El sesgo de notificación implica un sesgo en la disponibilidad de datos, de modo que es más probable que se notifiquen observaciones de un determinado tipo.
Abordar el sesgo estadístico
Según el tipo de sesgo presente, los investigadores y analistas pueden tomar distintas medidas para reducirlo en un conjunto de datos. Todos los tipos de sesgo mencionados anteriormente tienen medidas correspondientes que se pueden tomar para reducir o eliminar sus efectos.
El sesgo debe tenerse en cuenta en cada paso del proceso de recolección de datos, comenzando con parámetros de investigación claramente definidos y teniendo en cuenta al equipo que llevará a cabo la investigación. [2] El sesgo del observador puede reducirse implementando una técnica de ciego o doble ciego . Evitar el p-hacking es esencial para el proceso de recolección precisa de datos. Una forma de verificar el sesgo en los resultados después es volver a ejecutar los análisis con diferentes variables independientes para observar si un fenómeno dado todavía ocurre en las variables dependientes. [17] El uso cuidadoso del lenguaje en los informes puede reducir las frases engañosas, como la discusión de un resultado que "se acerca" a la significación estadística en comparación con el logro real de la misma. [2]
^ Cole, Nancy S. (octubre de 1981). "Sesgo en las pruebas". American Psychologist . 36 (10): 1067–1077. doi :10.1037/0003-066X.36.10.1067. ISSN 1935-990X.
^ abc Popovic, Aleksandar; Huecker, Martin R. (23 de junio de 2023). "Sesgo en el estudio". Stat Pearls . PMID 34662027.
^ Mulherin, Stephanie A.; Miller, William C. (1 de octubre de 2002). "¿Sesgo de espectro o efecto de espectro? Variación de subgrupos en la evaluación de pruebas diagnósticas". Anales de Medicina Interna . 137 (7): 598–602. doi :10.7326/0003-4819-137-7-200210010-00011. ISSN 1539-3704. PMID 12353947. S2CID 35752032.
^ Bostrom, Nick (31 de mayo de 2013). Sesgo antrópico: efectos de la selección de observaciones en la ciencia y la filosofía. Nueva York: Routledge. doi :10.4324/9780203953464. ISBN978-0-203-95346-4.
^ Ćirković, Milan M.; Sandberg, Anders; Bostrom, Nick (2010). "Sombra antrópica: efectos de selección de la observación y riesgos de extinción humana". Análisis de riesgos . 30 (10): 1495–1506. doi :10.1111/j.1539-6924.2010.01460.x. ISSN 1539-6924. PMID 20626690. S2CID 6485564.
^ Tripepi, Giovanni; Jager, Kitty J.; Dekker, Friedo W.; Zoccali, Carmine (2010). "Sesgo de selección y sesgo de información en la investigación clínica". Nephron Clinical Practice . 115 (2): c94–c99. doi : 10.1159/000312871 . ISSN 1660-2110. PMID 20407272. S2CID 18856450.
^ "Sesgo voluntario". Catálogo de sesgos . 2017-11-17 . Consultado el 2021-12-18 .
^ Alex, Evans (2020). "¿Por qué las mujeres hacen más trabajo voluntario que los hombres?" . Consultado el 22 de diciembre de 2021 .
^ Krimsky, Sheldon (1 de julio de 2013). "¿Los conflictos de intereses financieros influyen en la investigación?: Una investigación sobre la hipótesis del "efecto de financiación"". Ciencia, tecnología y valores humanos . 38 (4): 566–587. doi :10.1177/0162243912456271. ISSN 0162-2439. S2CID 42598982.
^ Higgins, Julian PT ; Green, Sally (marzo de 2011). "8. Introducción a las fuentes de sesgo en los ensayos clínicos". En Higgins, Julian PT; et al. (eds.). Manual Cochrane para revisiones sistemáticas de intervenciones (versión 5.1). La Colaboración Cochrane.
^ Neyman, Jerzy ; Pearson, Egon S. (1936). "Contribuciones a la teoría de la prueba de hipótesis estadísticas". Memorias de investigación estadística . 1 : 1–37.
^ Casella, George; Berger, Roger L. (2002), Inferencia estadística, 2.ª edición, pág. 387