Experimento que utiliza la aleatoriedad en algún aspecto, generalmente para ayudar a eliminar el sesgo.
En ciencia , los experimentos aleatorios son los que permiten la mayor fiabilidad y validez de las estimaciones estadísticas de los efectos del tratamiento. La inferencia basada en la aleatorización es especialmente importante en el diseño experimental y en el muestreo por encuestas .
Descripción general
En la teoría estadística del diseño de experimentos , la aleatorización implica la asignación aleatoria de las unidades experimentales entre los grupos de tratamiento . Por ejemplo, si un experimento compara un fármaco nuevo con un fármaco estándar, los pacientes deberían ser asignados al fármaco nuevo o al fármaco estándar de control mediante aleatorización.
La experimentación aleatoria no es aleatoria. La aleatorización reduce el sesgo al igualar otros factores que no se han tenido en cuenta explícitamente en el diseño experimental (de acuerdo con la ley de los grandes números ). La aleatorización también produce diseños ignorables , que son valiosos en la inferencia estadística basada en modelos , especialmente la bayesiana o basada en la probabilidad . En el diseño de experimentos, el diseño más simple para comparar tratamientos es el "diseño completamente aleatorio". Puede haber alguna "restricción a la aleatorización" con el bloqueo y los experimentos que tienen factores difíciles de cambiar; pueden ocurrir restricciones adicionales a la aleatorización cuando una aleatorización completa no es factible o cuando es deseable reducir la varianza de los estimadores de efectos seleccionados.
La aleatorización de los tratamientos en los ensayos clínicos plantea problemas éticos. En algunos casos, la aleatorización reduce las opciones terapéuticas tanto para el médico como para el paciente, por lo que requiere un equilibrio clínico en cuanto a los tratamientos.
Experimentos controlados aleatorios en línea
Los sitios web pueden ejecutar experimentos controlados aleatorios [2] para crear un ciclo de retroalimentación. [3] Las diferencias clave entre la experimentación fuera de línea y los experimentos en línea incluyen: [3] [4]
Registro: las interacciones del usuario se pueden registrar de forma confiable.
Número de usuarios: sitios grandes, como Amazon, Bing/Microsoft y Google, realizan experimentos, cada uno con más de un millón de usuarios.
Número de experimentos simultáneos: los sitios grandes ejecutan decenas de experimentos superpuestos o simultáneos. [5]
Capacidad para aumentar los experimentos desde porcentajes bajos a porcentajes más altos.
La velocidad y el rendimiento tienen un impacto significativo en las métricas clave. [3] [6]
Capacidad de utilizar el período previo al experimento como una prueba A/A para reducir la varianza. [7]
Historia
En el Antiguo Testamento, en el libro de Daniel, parece que se sugirió un experimento controlado. El rey Nabucodonosor propuso que algunos israelitas comieran «una cantidad diaria de comida y vino de la mesa del rey». Daniel prefería una dieta vegetariana, pero al funcionario le preocupaba que el rey «te viera con peor aspecto que los demás jóvenes de tu edad. El rey me cortaría la cabeza por tu culpa». Daniel propuso entonces el siguiente experimento controlado: «Haz una prueba con tus siervos durante diez días. No nos des más que legumbres para comer y agua para beber. Luego compara nuestra apariencia con la de los jóvenes que comen la comida real, y trata a tus siervos conforme a lo que veas» (Daniel 1, 12-13). [8] [9]
Los experimentos aleatorios se institucionalizaron en psicología y educación a fines del siglo XIX, luego de la invención de los experimentos aleatorios por CS Peirce . [10] [11] [12] [13]
Fuera de la psicología y la educación, los experimentos aleatorios fueron popularizados por RA Fisher en su libro Métodos estadísticos para investigadores , que también introdujo principios adicionales de diseño experimental.
Interpretación estadística
Esta sección necesita ser ampliada . Puedes ayudar agregándole algo. ( Septiembre 2012 )
El modelo causal de Rubin proporciona una forma común de describir un experimento aleatorio. Si bien el modelo causal de Rubin proporciona un marco para definir los parámetros causales (es decir, los efectos de un tratamiento aleatorio sobre un resultado), el análisis de experimentos puede adoptar varias formas. El modelo supone que existen dos resultados potenciales para cada unidad del estudio: el resultado si la unidad recibe el tratamiento y el resultado si la unidad no recibe el tratamiento. La diferencia entre estos dos resultados potenciales se conoce como el efecto del tratamiento, que es el efecto causal del tratamiento sobre el resultado. Lo más común es que los experimentos aleatorios se analicen mediante ANOVA , la prueba t de Student , el análisis de regresión o una prueba estadística similar . El modelo también tiene en cuenta los posibles factores de confusión, que son factores que podrían afectar tanto al tratamiento como al resultado. Al controlar estos factores de confusión, el modelo ayuda a garantizar que cualquier efecto del tratamiento observado sea verdaderamente causal y no simplemente el resultado de otros factores que están correlacionados tanto con el tratamiento como con el resultado.
El modelo causal de Rubin es un marco útil para comprender cómo estimar el efecto causal del tratamiento, incluso cuando existen variables de confusión que pueden afectar el resultado. Este modelo especifica que el efecto causal del tratamiento es la diferencia entre los resultados que se habrían observado para cada individuo si hubiera recibido el tratamiento y si no lo hubiera recibido. En la práctica, no es posible observar ambos resultados potenciales para el mismo individuo, por lo que se utilizan métodos estadísticos para estimar el efecto causal utilizando datos del experimento.
Evidencia empírica de que la aleatorización hace la diferencia
Empíricamente, ha sido difícil detectar diferencias entre estudios aleatorizados y no aleatorizados, [14] [ necesita actualización ] y entre ensayos adecuadamente e inadecuadamente aleatorizados. [15] [16]
Explicación de la aleatorización mediante gráficos acíclicos dirigidos (DAG)
La aleatorización es la piedra angular de muchas afirmaciones científicas. Aleatorizar significa que podemos eliminar los factores de confusión. Digamos que estudiamos el efecto de A sobre B. Sin embargo, hay muchos factores no observables U que potencialmente afectan a B y confunden nuestra estimación del resultado. Para explicar este tipo de cuestiones, los estadísticos o los econometristas utilizan actualmente gráficos acíclicos dirigidos . [ necesita actualización ]
^ Schulz KF, Altman DG, Moher D; para el Grupo CONSORT (2010). "Declaración CONSORT 2010: directrices actualizadas para la presentación de informes de ensayos aleatorios de grupos paralelos". BMJ . 340 : c332. doi :10.1136/bmj.c332. PMC 2844940 . PMID 20332509.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Kohavi, Ron; Longbotham, Roger (2015). "Experimentos controlados en línea y pruebas A/B" (PDF) . En Sammut, Claude; Webb, Geoff (eds.). Enciclopedia de aprendizaje automático y minería de datos . Springer. pp. por aparecer.
^ abc Kohavi, Ron; Longbotham, Roger; Sommerfield, Dan; Henne, Randal M. (2009). "Experimentos controlados en la web: encuesta y guía práctica". Minería de datos y descubrimiento de conocimiento . 18 (1): 140–181. doi : 10.1007/s10618-008-0114-1 . ISSN 1384-5810.
^ Kohavi, Ron; Deng, Alex; Frasca, Brian; Longbotham, Roger; Walker, Toby; Xu Ya (2012). "Experimentos controlados en línea confiables: cinco resultados desconcertantes explicados". Actas de la 18.ª Conferencia ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos .
^ Kohavi, Ron; Deng Alex; Frasca Brian; Walker Toby; Xu Ya; Nils Pohlmann (2013). "Experimentos controlados en línea a gran escala". Actas de la 19.ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos . Vol. 19. Chicago, Illinois, EE. UU.: ACM. págs. 1168–1176. doi :10.1145/2487575.2488217. ISBN .9781450321747.S2CID13224883 .
^ Kohavi, Ron; Deng Alex; Longbotham Roger; Xu Ya (2014). "Siete reglas básicas para los experimentadores de sitios web". Actas de la 20.ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos . Vol. 20. Nueva York, Nueva York, EE. UU.: ACM. págs. 1857–1866. doi :10.1145/2623330.2623341. ISBN9781450329569. Número de identificación del sujeto 207214362.
^ Deng, Alex; Xu, Ya; Kohavi, Ron; Walker, Toby (2013). "Mejora de la sensibilidad de los experimentos controlados en línea mediante el uso de datos previos al experimento". WSDM 2013: Sexta Conferencia Internacional de la ACM sobre Búsqueda Web y Minería de Datos .
^ Neuhauser, D; Díaz, M (2004). "Daniel: usando la Biblia para enseñar métodos de mejora de la calidad". Calidad y seguridad en la atención de salud . 13 (2): 153–155. doi :10.1136/qshc.2003.009480. PMC 1743807 . PMID 15069225.
^ Angrist, Joshua; Pischke Jörn-Steffen (2014). Dominar las métricas: el camino de la causa al efecto . Princeton University Press. pág. 31.
↑ Charles Sanders Peirce y Joseph Jastrow (1885). "Sobre pequeñas diferencias en la sensación". Memorias de la Academia Nacional de Ciencias . 3 : 73–83.http://psychclassics.yorku.ca/Peirce/small-diffs.htm
^ Hacking, Ian (septiembre de 1988). "Telepatía: orígenes de la aleatorización en el diseño experimental". Isis . 79 (3): 427–451. doi :10.1086/354775. JSTOR 234674. MR 1013489. S2CID 52201011.
^ Stephen M. Stigler (noviembre de 1992). "Una visión histórica de los conceptos estadísticos en psicología e investigación educativa". Revista estadounidense de educación . 101 (1): 60–70. doi :10.1086/444032. S2CID 143685203.
^ Trudy Dehue (diciembre de 1997). "Decepción, eficiencia y grupos aleatorios: psicología y el origen gradual del diseño de grupos aleatorios" (PDF) . Isis . 88 (4): 653–673. doi :10.1086/383850. PMID 9519574. S2CID 23526321.
^ Anglemyer A, Horvath HT, Bero L (abril de 2014). "Resultados de la atención sanitaria evaluados con diseños de estudios observacionales en comparación con los evaluados en ensayos aleatorizados". Cochrane Database Syst Rev. 2014 ( 4): MR000034. doi :10.1002/14651858.MR000034.pub2. PMC 8191367. PMID 24782322 .
^ Odgaard-Jensen J, Vist G, et al. (abril de 2011). "Aleatorización para protegerse contra el sesgo de selección en ensayos clínicos de atención médica". Cochrane Database Syst Rev. 2015 ( 4): MR000012. doi :10.1002 / 14651858.MR000012.pub3. PMC 7150228. PMID 21491415.
^ Howick J, Mebius A (2014). "En busca de justificación para la paradoja de la imprevisibilidad". Trials . 15 : 480. doi : 10.1186/1745-6215-15-480 . PMC 4295227 . PMID 25490908.
Caliński, Tadeusz y Kageyama, Sanpei (2000). Diseños de bloques: un enfoque de aleatorización, Volumen I: Análisis . Apuntes de clase sobre estadística. Vol. 150. Nueva York: Springer-Verlag. ISBN978-0-387-98578-7.
Caliński, Tadeusz y Kageyama, Sanpei (2003). Diseños de bloques: un enfoque de aleatorización, Volumen II: Diseño . Apuntes de clase en estadística. Vol. 170. Nueva York: Springer-Verlag. ISBN978-0-387-95470-7.
Hacking, Ian (septiembre de 1988). "Telepatía: orígenes de la aleatorización en el diseño experimental". Isis . 79 (3): 427–451. doi :10.1086/354775. JSTOR 234674. MR 1013489. S2CID 52201011.
Hinkelmann, Klaus; Kempthorne, Oscar (2008). Diseño y análisis de experimentos, volumen I: Introducción al diseño experimental (segunda edición). Wiley. ISBN978-0-471-72756-9.Señor 2363107 .
Kempthorne, Oscar (1992). "Experimentos de intervención, aleatorización e inferencia". En Malay Ghosh y Pramod K. Pathak (ed.). Cuestiones actuales en inferencia estadística: ensayos en honor a D. Basu . Apuntes de clase del Instituto de Estadística Matemática - Serie de monografías. Hayward, CA: Instituto de Estadística Matemática. págs. 13–31. doi :10.1214/lnms/1215458836. ISBN978-0-940600-24-9.Señor 1194407 .