La crisis de replicación [a] es una crisis metodológica en curso en la que los resultados de muchos estudios científicos son difíciles o imposibles de reproducir . Debido a que la reproducibilidad de los resultados empíricos es una parte esencial del método científico [2] , tales fallas socavan la credibilidad de las teorías que se basan en ellos y potencialmente ponen en tela de juicio partes sustanciales del conocimiento científico.
La crisis de replicación se discute frecuentemente en relación con la psicología y la medicina , donde se han realizado esfuerzos considerables para volver a investigar los resultados clásicos, para determinar si son confiables y, si resultan no serlo, las razones del fracaso. [3] [4] Los datos indican firmemente que otras ciencias naturales y sociales también se ven afectadas. [5]
La expresión crisis de replicación se acuñó a principios de la década de 2010 [6] como parte de una creciente conciencia del problema. Las consideraciones sobre las causas y los remedios han dado lugar a una nueva disciplina científica, la metaciencia [7] , que utiliza métodos de investigación empírica para examinar la práctica de la investigación empírica. [8]
Las consideraciones sobre reproducibilidad se pueden clasificar en dos categorías. La reproducibilidad en sentido estricto se refiere a reexaminar y validar el análisis de un conjunto determinado de datos. La replicación se refiere a repetir el experimento o estudio para obtener datos nuevos e independientes con el objetivo de llegar a las mismas conclusiones o a conclusiones similares.
Se ha dicho que la replicación es "la piedra angular de la ciencia". [9] [10] El científico de salud ambiental Stefan Schmidt comenzó una revisión de 2009 con esta descripción de la replicación:
La replicación es una de las cuestiones centrales de cualquier ciencia empírica. Confirmar resultados o hipótesis mediante un procedimiento de repetición es la base de cualquier concepción científica. Un experimento de replicación para demostrar que los mismos hallazgos pueden obtenerse en cualquier otro lugar por cualquier otro investigador se concibe como una operacionalización de la objetividad. Es la prueba de que el experimento refleja un conocimiento que puede separarse de las circunstancias específicas (como el tiempo, el lugar o las personas) en las que se obtuvo. [11]
Pero existe un consenso limitado sobre cómo definir la replicación y los conceptos potencialmente relacionados. [12] [13] [11] Se han identificado varios tipos de replicación:
La reproducibilidad también se puede distinguir de la replicación , ya que se refiere a reproducir los mismos resultados utilizando el mismo conjunto de datos. La reproducibilidad de este tipo es la razón por la que muchos investigadores ponen sus datos a disposición de otros para su prueba. [15]
La crisis de replicación no significa necesariamente que estos campos no sean científicos. [16] [17] [18] Más bien, este proceso es parte del proceso científico en el que se podan las ideas antiguas o aquellas que no resisten un escrutinio cuidadoso, [19] [20] aunque este proceso de poda no siempre es efectivo. [21] [22]
En general, se considera que una hipótesis está respaldada cuando los resultados coinciden con el patrón predicho y se determina que ese patrón de resultados es estadísticamente significativo . Los resultados se consideran significativos siempre que la frecuencia relativa del patrón observado caiga por debajo de un valor elegido arbitrariamente (es decir, el nivel de significancia ) al asumir que la hipótesis nula es verdadera. Esto generalmente responde a la pregunta de qué tan improbables serían los resultados si no existiera diferencia a nivel de la población estadística . Si la probabilidad asociada con la estadística de prueba excede el valor crítico elegido , los resultados se consideran estadísticamente significativos. [23] La probabilidad correspondiente de exceder el valor crítico se representa como p < 0,05, donde p (normalmente denominado " valor p ") es el nivel de probabilidad. Esto debería dar como resultado que el 5% de las hipótesis respaldadas sean falsos positivos (una hipótesis incorrecta que se considera correcta por error), suponiendo que los estudios cumplan con todos los supuestos estadísticos. Algunos campos utilizan valores p más pequeños, como p < 0,01 (1 % de probabilidad de un falso positivo) o p < 0,001 (0,1 % de probabilidad de un falso positivo). Pero una probabilidad menor de un falso positivo a menudo requiere tamaños de muestra mayores o una mayor probabilidad de un falso negativo (que una hipótesis correcta se considere incorrecta por error) . Aunque la prueba del valor p es el método más utilizado, no es el único método.
This section may contain an excessive amount of intricate detail that may interest only a particular audience.(July 2024) |
Ciertos términos comúnmente utilizados en los debates sobre la crisis de replicación tienen significados técnicamente precisos, que se presentan aquí. [1]
En el caso más común, la prueba de hipótesis nula , hay dos hipótesis: una hipótesis nula y una hipótesis alternativa . La hipótesis nula suele tener la forma "X e Y son estadísticamente independientes ". Por ejemplo, la hipótesis nula podría ser "tomar el fármaco X no cambia la tasa de recuperación de la enfermedad Y en un año", y la hipótesis alternativa es que sí cambia.
Como probar la independencia estadística completa es difícil, la hipótesis nula completa a menudo se reduce a una hipótesis nula simplificada "el tamaño del efecto es 0", donde " tamaño del efecto " es un número real que es 0 si la hipótesis nula completa es verdadera, y cuanto mayor sea el tamaño del efecto, más falsa será la hipótesis nula. [24] Por ejemplo, si X es binario, entonces el tamaño del efecto podría definirse como el cambio en la expectativa de Y ante un cambio de X: Nótese que el tamaño del efecto como se definió anteriormente podría ser cero incluso si X e Y no son independientes, como cuando . Dado que diferentes definiciones de "tamaño del efecto" capturan diferentes formas en que X e Y son dependientes, existen muchas definiciones diferentes de tamaño del efecto.
En la práctica, los tamaños del efecto no se pueden observar directamente, sino que deben medirse mediante estimadores estadísticos . Por ejemplo, la definición anterior de tamaño del efecto a menudo se mide mediante el estimador d de Cohen . El mismo tamaño del efecto puede tener múltiples estimadores, ya que tienen compensaciones entre eficiencia , sesgo , varianza , etc. Esto aumenta aún más el número de posibles cantidades estadísticas que se pueden calcular en un solo conjunto de datos. Cuando se utiliza un estimador para un tamaño del efecto para pruebas estadísticas, se denomina estadístico de prueba .
Una prueba de hipótesis nula es un procedimiento de decisión que toma algunos datos y da como resultado o . Si da como resultado , generalmente se indica como "hay un efecto estadísticamente significativo" o "se rechaza la hipótesis nula".
A menudo, la prueba estadística es una prueba de umbral (unilateral) , que se estructura de la siguiente manera:
Una prueba de umbral bilateral es similar, pero con dos umbrales, de modo que da como resultado si uno o
Hay 4 resultados posibles de una prueba de hipótesis nula: falso negativo, verdadero negativo, falso positivo, verdadero positivo. Un falso negativo significa que es cierto, pero el resultado de la prueba es ; un verdadero negativo significa que es cierto y el resultado de la prueba es , etc.
Probabilidad de rechazo | Probabilidad de no rechazar | |
---|---|---|
Si es verdad | alfa | 1-α |
Si es verdad | 1-β (potencia) | β |
El nivel de significancia , tasa de falsos positivos o nivel alfa es la probabilidad de encontrar que la alternativa es verdadera cuando la hipótesis nula es verdadera:por ejemplo, cuando la prueba es una prueba de umbral unilateral, entoncesdondesignifica "los datos se toman de".
La potencia estadística , tasa de verdaderos positivos, es la probabilidad de encontrar que la alternativa es verdadera cuando la hipótesis alternativa es verdadera:dondetambién se denomina tasa de falsos negativos. Por ejemplo, cuando la prueba es una prueba de umbral unilateral, entonces.
Dada una prueba estadística y un conjunto de datos , el valor p correspondiente es la probabilidad de que la estadística de prueba sea al menos tan extrema, condicional a . Por ejemplo, para una prueba de umbral unilateral, si la hipótesis nula es verdadera, entonces el valor p se distribuye uniformemente en . De lo contrario, normalmente alcanza su punto máximo en y es aproximadamente exponencial, aunque la forma precisa de la distribución del valor p depende de cuál sea la hipótesis alternativa. [25] [26]
Dado que el valor p se distribuye de manera uniforme en caso de que se cumpla la hipótesis nula, se puede construir una prueba estadística con cualquier nivel de significación simplemente calculando el valor p y luego obteniendo como resultado si . Esto suele expresarse como "la hipótesis nula se rechaza en el nivel de significación ", o " ", como "fumar está correlacionado con el cáncer (p < 0,001)".
El inicio de la crisis de replicación se puede rastrear hasta una serie de eventos a principios de la década de 2010. El filósofo de la ciencia y epistemólogo social Felipe Romero identificó cuatro eventos que pueden considerarse precursores de la crisis actual: [27]
Esta serie de acontecimientos generó un gran escepticismo sobre la validez de las investigaciones existentes en vista de los fallos metodológicos generalizados y de la imposibilidad de reproducir los resultados. Esto llevó a destacados académicos a declarar una "crisis de confianza" en la psicología y en otros campos [42] , y la situación resultante llegó a conocerse como la "crisis de la replicación".
Aunque el comienzo de la crisis de la replicabilidad se remonta a principios de la década de 2010, algunos autores señalan que las preocupaciones sobre la replicabilidad y las prácticas de investigación en las ciencias sociales se habían expresado mucho antes. Romero señala que los autores expresaron inquietudes sobre la falta de réplicas directas en la investigación psicológica a fines de la década de 1960 y principios de la de 1970. [43] [44] También escribe que ciertos estudios de la década de 1990 ya informaban que los editores y revisores de revistas generalmente tienen prejuicios contra la publicación de estudios de replicación. [45] [46]
En las ciencias sociales, se ha atribuido al blog Data Colada (cuyos tres autores acuñaron el término " p-hacking " en un artículo de 2014) el mérito de haber contribuido al inicio de la crisis de replicación. [47] [48] [49]
La profesora de la Universidad de Virginia y psicóloga cognitiva Barbara A. Spellman ha escrito que muchas críticas a las prácticas de investigación y preocupaciones sobre la replicabilidad de la investigación no son nuevas. [50] Ella informa que entre finales de los años 1950 y los años 1990, los académicos ya estaban expresando preocupaciones sobre una posible crisis de replicación, [51] una tasa sospechosamente alta de hallazgos positivos, [52] prácticas de investigación cuestionables (QRPs), [53] los efectos del sesgo de publicación, [54] problemas con el poder estadístico, [55] [56] y malos estándares de presentación de informes. [51]
Spellman también identifica las razones por las que la reiteración de estas críticas y preocupaciones en los últimos años condujo a una crisis en toda regla y a desafíos al status quo. En primer lugar, las mejoras tecnológicas facilitaron la realización y difusión de estudios de replicación y el análisis de grandes franjas de literatura en busca de problemas sistémicos. En segundo lugar, el creciente tamaño y diversidad de la comunidad de investigación hizo que el trabajo de los miembros establecidos fuera examinado con mayor facilidad por otros miembros de la comunidad que no estaban familiarizados con ellos. Según Spellman, estos factores, junto con recursos cada vez más limitados e incentivos desalineados para realizar trabajo científico, llevaron a una crisis en la psicología y otros campos. [50]
Según Andrew Gelman , [57] los trabajos de Paul Meehl, Jacob Cohen y Tversky y Kahneman en los años 1960 y 1970 fueron advertencias tempranas de una crisis de replicación. Al analizar los orígenes del problema, el propio Kahneman señaló precedentes históricos de fracasos en la replicación de la percepción subliminal y la reducción de la disonancia . [58]
Se ha señalado repetidamente desde 1962 [55] que la mayoría de los estudios psicológicos tienen un poder bajo (tasa de verdaderos positivos), pero el poder bajo persistió durante 50 años, lo que indica un problema estructural y persistente en la investigación psicológica. [59] [60]
Varios factores se han combinado para poner a la psicología en el centro de la conversación. [61] [62] Algunas áreas de la psicología que alguna vez se consideraron sólidas, como la preparación social y el agotamiento del ego , [63] han sido objeto de un mayor escrutinio debido a réplicas fallidas. [64] Gran parte de la atención se ha centrado en la psicología social , [65] aunque también se han implicado otras áreas de la psicología como la psicología clínica , [66] [67] [68] la psicología del desarrollo , [69] [70] [71] y la investigación educativa . [72] [73] [74] [75] [76]
En agosto de 2015, se publicó el primer estudio empírico abierto sobre reproducibilidad en psicología, llamado The Reproducibility Project: Psychology . Coordinados por el psicólogo Brian Nosek , los investigadores rehicieron 100 estudios en ciencia psicológica de tres revistas de psicología de alto rango ( Journal of Personality and Social Psychology , Journal of Experimental Psychology: Learning, Memory, and Cognition y Psychological Science ). 97 de los estudios originales tuvieron efectos significativos, pero de esos 97, solo el 36% de las réplicas arrojaron hallazgos significativos ( valor p por debajo de 0,05). [12] El tamaño medio del efecto en las réplicas fue aproximadamente la mitad de la magnitud de los efectos informados en los estudios originales. El mismo artículo examinó las tasas de reproducibilidad y los tamaños del efecto por revista y disciplina. Las tasas de replicación del estudio fueron del 23% para el Journal of Personality and Social Psychology , del 48% para el Journal of Experimental Psychology: Learning, Memory, and Cognition y del 38% para Psychological Science . Los estudios en el campo de la psicología cognitiva tuvieron una tasa de replicación más alta (50%) que los estudios en el campo de la psicología social (25%). [77]
Del 64% de los casos en que no se realizaron réplicas, solo el 25% refutaron el resultado original (con significación estadística). El 49% restante no fue concluyente, es decir, no apoyó ni contradijo el resultado original. Esto se debe a que muchas réplicas no tenían suficiente potencia, ya que la muestra era 2,5 veces más pequeña que la original. [78]
Un estudio publicado en 2018 en Nature Human Behaviour replicó 21 artículos de ciencias sociales y del comportamiento de Nature y Science , y descubrió que solo alrededor del 62 % podía reproducir con éxito los resultados originales. [79] [80]
De manera similar, en un estudio realizado bajo los auspicios del Centro para la Ciencia Abierta , un equipo de 186 investigadores de 60 laboratorios diferentes (que representan 36 nacionalidades diferentes de seis continentes diferentes) llevaron a cabo réplicas de 28 hallazgos clásicos y contemporáneos en psicología. [81] [82] El estudio se centró no solo en si los hallazgos de los artículos originales se replicaban, sino también en el grado en que los hallazgos variaban en función de las variaciones en las muestras y los contextos. En general, el 50% de los 28 hallazgos no se replicaron a pesar de los tamaños masivos de muestra. Pero si un hallazgo se replicó, entonces se replicó en la mayoría de las muestras. Si un hallazgo no se replicó, entonces no se replicó con poca variación entre muestras y contextos. Esta evidencia es inconsistente con una explicación propuesta de que las fallas en la replicación en psicología probablemente se deben a cambios en la muestra entre el estudio original y el de replicación. [82]
Los resultados de un estudio de 2022 sugieren que muchos estudios anteriores sobre el fenotipo cerebral ("estudios de asociación de todo el cerebro" (BWAS)) produjeron conclusiones no válidas, ya que la replicación de dichos estudios requiere muestras de miles de personas debido a los pequeños tamaños del efecto . [83] [84]
De 49 estudios médicos realizados entre 1990 y 2003 con más de 1000 citas, el 92% concluyó que las terapias estudiadas eran eficaces. De estos estudios, el 16% fueron contradichos por estudios posteriores, el 16% había encontrado efectos más fuertes que los estudios posteriores, el 44% fueron replicados y el 24% no fue cuestionado en gran medida. [85] Un análisis de 2011 realizado por investigadores de la empresa farmacéutica Bayer concluyó que, como máximo, una cuarta parte de los hallazgos internos de Bayer replicaban los resultados originales. [86] Pero el análisis de los resultados de Bayer concluyó que los resultados que sí se replicaban a menudo podían usarse con éxito para aplicaciones clínicas. [87]
En un artículo de 2012, C. Glenn Begley , consultor de biotecnología que trabaja en Amgen , y Lee Ellis, investigador médico de la Universidad de Texas, descubrieron que solo el 11% de 53 estudios preclínicos sobre el cáncer tenían réplicas que podían confirmar las conclusiones de los estudios originales. [38] A fines de 2021, The Reproducibility Project: Cancer Biology examinó 53 artículos destacados sobre el cáncer publicados entre 2010 y 2012 y mostró que entre los estudios que proporcionaron información suficiente para ser rehechos, los tamaños del efecto fueron un 85% más pequeños en promedio que los hallazgos originales. [88] [89] Una encuesta a investigadores del cáncer encontró que la mitad de ellos no habían podido reproducir un resultado publicado. [90] Otro informe estimó que casi la mitad de los ensayos controlados aleatorios contenían datos defectuosos (basado en el análisis de datos de participantes individuales anónimos (IPD) de más de 150 ensayos). [91]
La economía se ha quedado atrás de otras ciencias sociales y la psicología en sus intentos de evaluar las tasas de replicación y aumentar el número de estudios que intentan la replicación. [13] Un estudio de 2016 en la revista Science replicó 18 estudios experimentales publicados en dos revistas económicas líderes, The American Economic Review y Quarterly Journal of Economics , entre 2011 y 2014. Encontró que alrededor del 39% no logró reproducir los resultados originales. [92] [93] [94] Alrededor del 20% de los estudios publicados en The American Economic Review son contradichos por otros estudios a pesar de basarse en los mismos conjuntos de datos o en conjuntos de datos similares. [95] Un estudio de hallazgos empíricos en el Strategic Management Journal encontró que alrededor del 30% de 27 artículos reexaminados mostraron resultados estadísticamente insignificantes para hallazgos previamente significativos, mientras que alrededor del 4% mostró resultados estadísticamente significativos para hallazgos previamente insignificantes. [96]
Un estudio de 2019 en Scientific Data estimó con un 95% de confianza que, de 1.989 artículos sobre recursos hídricos y gestión publicados en 2017, los resultados del estudio podrían reproducirse solo entre el 0,6% y el 6,8%, en gran medida porque los artículos no proporcionaban suficiente información para permitir su replicación. [97]
Una encuesta realizada en 2016 por Nature a 1.576 investigadores que respondieron un breve cuestionario en línea sobre reproducibilidad encontró que más del 70% de los investigadores han intentado y fracasado en reproducir los resultados de experimentos de otro científico (incluido el 87% de los químicos , el 77% de los biólogos , el 69% de los físicos e ingenieros , el 67% de los investigadores médicos , el 64% de los científicos de la tierra y el medio ambiente y el 62% de todos los demás), y más de la mitad no han podido reproducir sus propios experimentos. Pero menos del 20% había sido contactado por otro investigador incapaz de reproducir su trabajo. La encuesta encontró que menos del 31% de los investigadores cree que el hecho de no poder reproducir los resultados significa que el resultado original probablemente sea incorrecto, aunque el 52% está de acuerdo en que existe una crisis de replicación significativa. La mayoría de los investigadores dijeron que todavía confían en la literatura publicada. [5] [98] En 2010, Fanelli (2010) [99] descubrió que el 91,5% de los estudios de psiquiatría/psicología confirmaron los efectos que buscaban, y concluyó que las probabilidades de que esto sucediera (un resultado positivo) eran alrededor de cinco veces mayores que en campos como la astronomía o las geociencias . Fanelli argumentó que esto se debe a que los investigadores en ciencias "más blandas" tienen menos restricciones a sus sesgos conscientes e inconscientes.
Un análisis temprano de la revisión por pares a ciegas de los resultados , que se ve menos afectada por el sesgo de publicación, ha estimado que el 61% de los estudios a ciegas de los resultados en biomedicina y psicología han conducido a resultados nulos , en contraste con un estimado del 5% al 20% en investigaciones anteriores. [100]
En 2021, un estudio realizado por la Universidad de California en San Diego descubrió que los artículos que no se pueden replicar tienen más probabilidades de ser citados. [101] Las publicaciones no replicables suelen ser citadas más incluso después de que se publique un estudio de replicación. [102]
Se han propuesto muchas causas para la crisis de replicación.
La crisis de replicación puede ser desencadenada por la "generación de nuevos datos y publicaciones científicas a un ritmo sin precedentes" que conduce a la "desesperación por publicar o perecer" y al incumplimiento de las buenas prácticas científicas. [103]
Las predicciones de una crisis inminente en el mecanismo de control de calidad de la ciencia se remontan a varias décadas atrás. Derek de Solla Price —considerado el padre de la cienciometría , el estudio cuantitativo de la ciencia— predijo en 1963 que la ciencia podría llegar a la "senilidad" como resultado de su propio crecimiento exponencial. [104] Algunas publicaciones actuales parecen reivindicar esta profecía del "desbordamiento", lamentando la decadencia tanto de la atención como de la calidad. [105] [106]
El historiador Philip Mirowski sostiene que el declive de la calidad científica puede estar relacionado con su mercantilización, especialmente impulsada por la decisión de las grandes corporaciones, motivada por las ganancias, de externalizar su investigación a universidades y organizaciones de investigación por contrato . [107]
La teoría de los sistemas sociales , tal como se expone en la obra del sociólogo alemán Niklas Luhmann , inspira un diagnóstico similar. Esta teoría sostiene que cada sistema, como la economía, la ciencia, la religión y los medios de comunicación, se comunica utilizando su propio código: verdadero y falso para la ciencia, ganancias y pérdidas para la economía, noticias y no noticias para los medios de comunicación, etc. [108] [109] Según algunos sociólogos, la mediatización [110] , la mercantilización [107] y la politización [110] [111] de la ciencia , como resultado del acoplamiento estructural entre sistemas, han llevado a una confusión de los códigos originales del sistema.
Una de las principales causas de la baja reproducibilidad es el sesgo de publicación que surge del hecho de que rara vez se publican resultados estadísticamente no significativos y réplicas aparentemente poco originales. Solo una proporción muy pequeña de revistas académicas de psicología y neurociencias acogieron explícitamente el envío de estudios de replicación en su objetivo y alcance o en las instrucciones a los autores. [112] [113] Esto no fomenta la presentación de informes sobre estudios de replicación, o incluso los intentos de realizarlos. Entre los 1.576 investigadores encuestados por Nature en 2016, solo una minoría había intentado alguna vez publicar una réplica, y varios encuestados que habían publicado réplicas fallidas señalaron que los editores y revisores exigieron que restaran importancia a las comparaciones con los estudios originales. [5] [98] Un análisis de 4.270 estudios empíricos en 18 revistas de negocios de 1970 a 1991 informó que menos del 10% de los artículos de contabilidad, economía y finanzas y el 5% de los artículos de gestión y marketing eran estudios de replicación. [92] [114] El sesgo de publicación se ve aumentado por la presión de publicar y el propio sesgo de confirmación del autor , [b] y es un riesgo inherente en el campo, que requiere un cierto grado de escepticismo por parte de los lectores. [41]
El sesgo de publicación conduce a lo que el psicólogo Robert Rosenthal llama el " efecto del cajón de archivos ". El efecto del cajón de archivos es la idea de que, como consecuencia del sesgo de publicación, un número significativo de resultados negativos [c] no se publican. Según el filósofo de la ciencia Felipe Romero, esto tiende a producir "literatura engañosa y estudios metaanalíticos sesgados", [27] y cuando se considera el sesgo de publicación junto con el hecho de que una mayoría de hipótesis probadas podrían ser falsas a priori , es plausible que una proporción considerable de los hallazgos de investigación puedan ser falsos positivos, como lo demostró el metacientífico John Ioannidis [1] . A su vez, una alta proporción de falsos positivos en la literatura publicada puede explicar por qué muchos hallazgos no son reproducibles. [27]
Otro sesgo de publicación es que los estudios que no rechazan la hipótesis nula se examinan de forma asimétrica. Por ejemplo, es probable que se los rechace por ser difíciles de interpretar o por tener un error de tipo II. Los estudios que rechazan la hipótesis nula no es probable que se rechacen por esas razones. [116]
En los medios populares, hay otro elemento de sesgo de publicación: el deseo de hacer accesible la investigación al público condujo a una simplificación excesiva y exageración de los hallazgos, creando expectativas poco realistas y amplificando el impacto de las no replicaciones. En contraste, los resultados nulos y los fracasos en la replicación tienden a no ser informados. Esta explicación puede aplicarse a la crisis de replicación de la postura de poder . [117]
Incluso las revistas de alto impacto tienen una fracción significativa de errores matemáticos en su uso de las estadísticas. Por ejemplo, el 11% de los resultados estadísticos publicados en Nature y BMJ en 2001 son "incongruentes", lo que significa que el valor p informado es matemáticamente diferente de lo que debería ser si se hubiera calculado correctamente a partir de la estadística de prueba informada. Estos errores probablemente se debieron a errores de composición tipográfica, redondeo y transcripción. [118]
Entre 157 artículos de neurociencia publicados en cinco revistas de primer nivel que intentan demostrar que dos efectos experimentales son diferentes, 78 probaron erróneamente si un efecto es significativo mientras que el otro no, y 79 probaron correctamente si su diferencia es significativamente diferente de 0. [119]
Las consecuencias para la replicabilidad del sesgo de publicación se ven exacerbadas por la cultura académica de “publicar o morir”. Como explicó el metacientífico Daniele Fanelli, la cultura de “publicar o morir” es un aspecto sociológico de la academia en el que los científicos trabajan en un entorno con una presión muy alta para que su trabajo se publique en revistas reconocidas. Esto es consecuencia de que el entorno laboral académico sea hipercompetitivo y de que los parámetros bibliométricos (por ejemplo, el número de publicaciones) se utilicen cada vez más para evaluar las carreras científicas. [120] Según Fanelli, esto empuja a los científicos a emplear una serie de estrategias destinadas a hacer que los resultados sean “publicables”. En el contexto del sesgo de publicación, esto puede significar adoptar comportamientos destinados a hacer que los resultados sean positivos o estadísticamente significativos, a menudo a expensas de su validez (ver QRP, sección 4.3). [120]
Según el fundador del Centro para la Ciencia Abierta, Brian Nosek, y sus colegas, la cultura de “publicar o morir” creó una situación en la que los objetivos y valores de los científicos individuales (por ejemplo, la posibilidad de publicación) no están alineados con los objetivos generales de la ciencia (por ejemplo, la búsqueda de la verdad científica). Esto es perjudicial para la validez de los hallazgos publicados. [121]
El filósofo Brian D. Earp y el psicólogo Jim AC Everett sostienen que, aunque la replicación es lo mejor para los académicos e investigadores como grupo, las características de la cultura psicológica académica desalientan la replicación por parte de investigadores individuales. Argumentan que realizar replicaciones puede consumir mucho tiempo y quitar recursos a proyectos que reflejan el pensamiento original del investigador. Son más difíciles de publicar, en gran medida porque no son originales, e incluso cuando se pueden publicar es poco probable que se consideren contribuciones importantes al campo. Las replicaciones "traen menos reconocimiento y recompensa, incluido el dinero de las subvenciones, a sus autores". [122]
En su libro de 1971 El conocimiento científico y sus problemas sociales , el filósofo e historiador de la ciencia Jerome R. Ravetz predijo que la ciencia —en su progresión desde la “pequeña” ciencia compuesta por comunidades aisladas de investigadores hasta la “gran” ciencia o “tecnociencia”— sufriría grandes problemas en su sistema interno de control de calidad. Reconoció que la estructura de incentivos para los científicos modernos podría volverse disfuncional, creando incentivos perversos para publicar cualquier hallazgo, por dudoso que sea. Según Ravetz, la calidad en la ciencia se mantiene solo cuando hay una comunidad de académicos, vinculados por un conjunto de normas y estándares compartidos, que están dispuestos y son capaces de exigirse mutuamente responsabilidades.
Ciertas prácticas de publicación también dificultan la realización de réplicas y el seguimiento de la gravedad de la crisis de reproducibilidad, ya que los artículos a menudo vienen con descripciones insuficientes para que otros académicos reproduzcan el estudio. El Proyecto de Reproducibilidad: Biología del Cáncer mostró que de 193 experimentos de 53 artículos principales sobre el cáncer publicados entre 2010 y 2012, solo 50 experimentos de 23 artículos tienen autores que proporcionaron suficiente información para que los investigadores rehicieran los estudios, a veces con modificaciones. Ninguno de los 193 artículos examinados tenía sus protocolos experimentales completamente descritos y replicar el 70% de los experimentos requirió solicitar reactivos clave. [88] [89] El estudio mencionado anteriormente de los hallazgos empíricos en el Strategic Management Journal encontró que el 70% de 88 artículos no se pudieron replicar debido a la falta de información suficiente para los datos o los procedimientos. [92] [96] En recursos hídricos y gestión , la mayoría de los 1.987 artículos publicados en 2017 no fueron replicables debido a la falta de información disponible compartida en línea. [97] En estudios de potenciales relacionados con eventos , solo se informaron dos tercios de la información necesaria para replicar un estudio en una muestra de 150 estudios, lo que destaca que existen lagunas sustanciales en los informes. [123]
Según la tesis de Duhem-Quine , los resultados científicos se interpretan tanto a partir de una teoría sustantiva como de una teoría de instrumentos. Por ejemplo, las observaciones astronómicas dependen tanto de la teoría de los objetos astronómicos como de la teoría de los telescopios. Se podría acumular una gran cantidad de investigación no replicable si existe un sesgo del tipo siguiente: ante un resultado nulo, un científico prefiere tratar los datos como si dijeran que el instrumento es insuficiente; ante un resultado no nulo, un científico prefiere aceptar el instrumento como bueno y tratar los datos como si dijeran algo sobre la teoría sustantiva. [124]
Smaldino y McElreath [60] propusieron un modelo simple para la evolución cultural de la práctica científica. Cada laboratorio decide aleatoriamente producir una investigación novedosa o una investigación replicable, con diferentes niveles fijos de tasa de falsos positivos, tasa de verdaderos positivos, tasa de replicación y productividad (sus "rasgos"). Un laboratorio puede utilizar más "esfuerzo", haciendo que la curva ROC sea más convexa pero disminuyendo la productividad. Un laboratorio acumula una puntuación a lo largo de su vida que aumenta con las publicaciones y disminuye cuando otro laboratorio no logra replicar sus resultados. A intervalos regulares, un laboratorio aleatorio "muere" y otro "reproduce" un laboratorio hijo con un rasgo similar al de su padre. Los laboratorios con puntuaciones más altas tienen más probabilidades de reproducirse. Bajo ciertas configuraciones de parámetros, la población de laboratorios converge a la máxima productividad incluso al precio de tasas de falsos positivos muy altas.
Las prácticas de investigación cuestionables (QRP) son comportamientos intencionales que aprovechan el área gris del comportamiento científico aceptable o explotan los grados de libertad del investigador (DF del investigador), lo que puede contribuir a la irreproducibilidad de los resultados al aumentar la probabilidad de resultados falsos positivos. [125] [126] [41] Las DF del investigador se observan en la formulación de hipótesis , el diseño de experimentos , la recopilación y el análisis de datos y la presentación de informes de investigación . [126] Algunos ejemplos de QRP son el dragado de datos , [126] [127] [40] [d] el informe selectivo , [125] [126] [127] [40] [e] y HARKing (elaboración de hipótesis después de conocer los resultados). [126] [127] [40] [f] En medicina, los estudios irreproducibles tienen seis características en común. Estos incluyen que los investigadores no fueron cegados a los brazos experimentales versus los de control, la imposibilidad de repetir los experimentos, la falta de controles positivos y negativos , la falta de informe de todos los datos, el uso inadecuado de pruebas estadísticas y el uso de reactivos que no fueron validados adecuadamente. [129]
Las QRP no incluyen violaciones más explícitas de la integridad científica, como la falsificación de datos. [125] [126] La investigación fraudulenta ocurre, como en el caso del fraude científico del psicólogo social Diederik Stapel , [130] [14] el psicólogo cognitivo Marc Hauser y el psicólogo social Lawrence Sanna, [14] pero parece ser poco común. [14]
Según el profesor de la IU Ernest O'Boyle y el psicólogo Martin Götz, alrededor del 50% de los investigadores encuestados en varios estudios admitieron haber utilizado HARKing. [131] En una encuesta a 2.000 psicólogos realizada por el científico conductual Leslie K. John y sus colegas, alrededor del 94% de los psicólogos admitieron haber empleado al menos un QRP. Más específicamente, el 63% admitió no informar todas las medidas dependientes de un estudio, el 28% informar todas las condiciones de un estudio y el 46% informar selectivamente los estudios que produjeron el patrón deseado de resultados. Además, el 56% admitió haber recopilado más datos después de haber inspeccionado los datos ya recopilados, y el 16% haber dejado de recopilar datos porque el resultado deseado ya era visible. [40] Según la estimación del investigador en biotecnología J. Leslie Glick en 1992, entre el 10% y el 20% de los estudios de investigación y desarrollo implicaban QRP o fraude directo. [132] La metodología utilizada para estimar los QRP ha sido cuestionada, y estudios más recientes sugirieron tasas de prevalencia más bajas en promedio. [133]
Un metaanálisis de 2009 concluyó que el 2% de los científicos de todos los campos admitieron haber falsificado estudios al menos una vez y el 14% admitió conocer a alguien que lo había hecho. Según un estudio, los investigadores médicos denunciaron esa mala conducta con más frecuencia que otros. [134]
Según el profesor de la Universidad Deakin Tom Stanley y sus colegas, una razón plausible por la que los estudios no logran replicarse es el bajo poder estadístico . Esto sucede por tres razones. En primer lugar, es poco probable que un estudio de replicación con bajo poder tenga éxito ya que, por definición, tiene una baja probabilidad de detectar un efecto verdadero. En segundo lugar, si el estudio original tiene bajo poder, producirá estimaciones sesgadas del tamaño del efecto . Al realizar un análisis de poder a priori para el estudio de replicación, esto dará como resultado una subestimación del tamaño de muestra requerido. En tercer lugar, si el estudio original tiene bajo poder, las probabilidades posteriores al estudio de un hallazgo estadísticamente significativo que refleje un efecto verdadero son bastante bajas. Por lo tanto, es probable que un intento de replicación del estudio original fracase. [15]
Matemáticamente, la probabilidad de replicar una publicación anterior que rechazó una hipótesis nula a favor de una alternativa , suponiendo que la significancia es menor que la potencia. Por lo tanto, una potencia baja implica una probabilidad baja de replicación, independientemente de cómo se diseñó la publicación anterior y de cuál hipótesis sea realmente verdadera. [78]
Stanley y sus colegas calcularon el poder estadístico promedio de la literatura psicológica analizando datos de 200 metanálisis . Encontraron que, en promedio, los estudios de psicología tienen entre un 33,1% y un 36,4% de poder estadístico. Estos valores son bastante bajos en comparación con el 80% considerado como poder estadístico adecuado para un experimento. En los 200 metanálisis, la mediana de estudios con poder estadístico adecuado estuvo entre el 7,7% y el 9,1%, lo que implica que un resultado positivo se replicaría con una probabilidad menor al 10%, independientemente de si el resultado positivo era un verdadero positivo o un falso positivo. [15]
El poder estadístico de los estudios de neurociencia es bastante bajo. El poder estadístico estimado de la investigación fMRI está entre .08 y .31, [135] y el de los estudios de potenciales relacionados con eventos se estimó en .72‒.98 para tamaños de efecto grandes, .35‒.73 para efectos medianos y .10‒.18 para efectos pequeños. [123]
En un estudio publicado en Nature , la psicóloga Katherine Button y sus colegas llevaron a cabo un estudio similar con 49 metanálisis en neurociencia, estimando un poder estadístico medio del 21%. [136] El metacientífico John Ioannidis y sus colegas calcularon una estimación del poder promedio para la investigación económica empírica, encontrando un poder medio del 18% basado en la literatura basada en 6.700 estudios. [137] A la luz de estos resultados, es plausible que una razón importante para los fracasos generalizados en la replicación en varios campos científicos podría ser un poder estadístico muy bajo en promedio.
La misma prueba estadística con el mismo nivel de significancia tendrá menor poder estadístico si el tamaño del efecto es pequeño bajo la hipótesis alternativa. Los rasgos hereditarios complejos suelen estar correlacionados con una gran cantidad de genes, cada uno de ellos con un tamaño de efecto pequeño, por lo que un alto poder requiere un gran tamaño de muestra. En particular, muchos resultados de la literatura sobre genes candidatos adolecieron de tamaños de efecto y tamaños de muestra pequeños y no se replicarían. Más datos de estudios de asociación de todo el genoma (GWAS) se acercan a resolver este problema. [138] [139] Como ejemplo numérico, la mayoría de los genes asociados con el riesgo de esquizofrenia tienen un tamaño de efecto bajo (riesgo relativo genotípico, GRR). Un estudio estadístico con 1000 casos y 1000 controles tiene un poder del 0,03 % para un gen con GRR = 1,15, que ya es grande para la esquizofrenia. En contraste, el GWAS más grande hasta la fecha tiene un poder de ~100 % para él. [140]
Incluso cuando el estudio se replica, la replicación suele tener un tamaño del efecto menor. Los estudios con poca potencia estadística tienen un sesgo de tamaño del efecto grande. [141]
En estudios que estiman estadísticamente un factor de regresión, como en , cuando el conjunto de datos es grande, el ruido tiende a provocar que se subestime el factor de regresión, pero cuando el conjunto de datos es pequeño, el ruido tiende a provocar que se sobreestime el factor de regresión. [142]
Los metanálisis tienen sus propios problemas y disputas metodológicas, lo que lleva al rechazo del método metaanalítico por parte de investigadores cuya teoría es cuestionada por el metanálisis. [116]
Rosenthal propuso el "número a prueba de fallos" (FSN, por sus siglas en inglés) [54] para evitar el sesgo de publicación en contra de los resultados nulos. Se define de la siguiente manera: supongamos que la hipótesis nula es verdadera; ¿cuántas publicaciones serían necesarias para que el resultado actual sea indistinguible de la hipótesis nula?
El argumento de Rosenthal es que ciertos tamaños de efecto son lo suficientemente grandes como para que, incluso si existe un sesgo de publicación total en contra de los resultados nulos (el "problema del cajón de archivos"), la cantidad de resultados nulos no publicados sería tan grande que no podría eclipsar el tamaño del efecto. Por lo tanto, el tamaño del efecto debe ser estadísticamente significativo incluso después de tener en cuenta los resultados nulos no publicados.
Una objeción al FSN es que se calcula como si los resultados no publicados fueran muestras imparciales de la hipótesis nula. Pero si el problema del cajón de archivos es cierto, entonces los resultados no publicados tendrían tamaños de efecto concentrados alrededor de 0. Por lo tanto, serían necesarios menos resultados nulos no publicados para intercambiar el tamaño del efecto, y por lo tanto el FSN es una sobrestimación. [116]
Otro problema con el metanálisis es que los malos estudios son "contagiosos" en el sentido de que un mal estudio podría causar que todo el metanálisis sobreestime la significación estadística. [78]
Se pueden aplicar diversos métodos estadísticos para hacer que el valor p parezca menor de lo que es en realidad. Esto no tiene por qué ser malintencionado, ya que un análisis de datos moderadamente flexible, habitual en la investigación, puede aumentar la tasa de falsos positivos a más del 60 %. [41]
Por ejemplo, si uno recoge algunos datos, les aplica varias pruebas de significancia diferentes y publica solo aquella que tiene un valor p menor que 0,05, entonces el valor p total para "al menos una prueba de significancia alcanza p < 0,05" puede ser mucho mayor que 0,05, porque incluso si la hipótesis nula fuera verdadera, la probabilidad de que una de muchas pruebas de significancia sea extrema no es en sí misma extrema.
Por lo general, un estudio estadístico consta de varios pasos, con varias opciones en cada uno de ellos, como durante la recopilación de datos, el rechazo de valores atípicos, la elección de la estadística de prueba, la elección de una prueba de una o dos colas, etc. Estas opciones en el " jardín de caminos que se bifurcan " se multiplican, creando muchos "grados de libertad para el investigador". El efecto es similar al problema del cajón de archivos, ya que los caminos que no se toman no se publican. [143]
Consideremos una ilustración sencilla. Supongamos que la hipótesis nula es verdadera y que tenemos 20 pruebas de significación posibles para aplicar al conjunto de datos. Supongamos también que los resultados de las pruebas de significación son independientes. Por definición de "significación", cada prueba tiene una probabilidad de 0,05 de pasar con un nivel de significación de 0,05. La probabilidad de que al menos 1 de 20 sea significativa es, por supuesto de independencia, . [144]
Otra posibilidad es el problema de las comparaciones múltiples . En 2009, se observó dos veces que los estudios de fMRI tenían una cantidad sospechosa de resultados positivos con grandes tamaños de efecto, más de lo que se esperaría dado que los estudios tienen baja potencia (un ejemplo [145] tenía solo 13 sujetos). Señaló que más de la mitad de los estudios probarían la correlación entre un fenómeno y vóxeles de fMRI individuales, y solo informarían sobre los vóxeles que excedieran los umbrales elegidos. [146]
La detención opcional es una práctica en la que se recopilan datos hasta que se alcanza algún criterio de detención. Aunque es un procedimiento válido, se usa mal con facilidad. El problema es que el valor p de una prueba estadística detenida opcionalmente es mayor de lo que parece. Intuitivamente, esto se debe a que se supone que el valor p es la suma de todos los eventos al menos tan raros como lo observado. Con la detención opcional, hay eventos incluso más raros que son difíciles de tener en cuenta, es decir, no desencadenar la regla de detención opcional y recopilar incluso más datos antes de detenerse. Ignorar estos eventos conduce a un valor p demasiado bajo. De hecho, si la hipótesis nula es verdadera, se puede alcanzar cualquier nivel de significancia si se permite seguir recopilando datos y detenerse cuando se obtiene el valor p deseado (calculado como si siempre se hubiera planeado recopilar exactamente esta cantidad de datos). [147] Para un ejemplo concreto de prueba de una moneda justa, consulte p -value#optional stopping .
En términos más sucintos, el cálculo adecuado del valor p requiere tener en cuenta los contrafácticos, es decir, lo que el experimentador podría haber hecho en reacción a los datos que podrían haber sido. Tener en cuenta lo que podría haber sido es difícil incluso para los investigadores honestos. [147] Una ventaja del prerregistro es tener en cuenta todos los contrafácticos, lo que permite calcular correctamente el valor p. [148]
El problema de la interrupción temprana no se limita a la mala conducta de los investigadores. A menudo existe presión para detener el estudio antes de tiempo si el costo de la recolección de datos es alto. Algunas juntas de ética animal incluso exigen la interrupción temprana si el estudio obtiene un resultado significativo a mitad de camino. [144]
Estas prácticas están muy extendidas en psicología. En una encuesta de 2012, el 56% de los psicólogos admitió haber abandonado el estudio antes de tiempo, el 46% haber informado solo de los análisis que "funcionaban" y el 38% haber realizado exclusiones a posteriori , es decir, eliminar algunos datos después de que ya se hubiera realizado el análisis sobre ellos antes de volver a analizar los datos restantes (a menudo con la premisa de "eliminar los valores atípicos"). [40]
Como también informaron Stanley y sus colegas, otra razón por la que los estudios podrían no replicarse es la alta heterogeneidad de los efectos que se van a replicar. En el metanálisis, la "heterogeneidad" se refiere a la varianza en los hallazgos de la investigación que resulta de que no haya un único tamaño de efecto verdadero. En cambio, los hallazgos en tales casos se ven mejor como una distribución de efectos verdaderos. [15] La heterogeneidad estadística se calcula utilizando la estadística I-cuadrado, [149] definida como "la proporción (o porcentaje) de variación observada entre los tamaños de efecto informados que no se puede explicar por los errores estándar calculados asociados con estos tamaños de efecto informados". [15] Esta variación puede deberse a diferencias en los métodos experimentales, poblaciones, cohortes y métodos estadísticos entre los estudios de replicación. La heterogeneidad plantea un desafío a los estudios que intentan replicar tamaños de efecto encontrados previamente . Cuando la heterogeneidad es alta, las replicaciones posteriores tienen una alta probabilidad de encontrar un tamaño de efecto radicalmente diferente al del estudio original. [g]
Es importante destacar que también se encuentran niveles significativos de heterogeneidad en réplicas directas/exactas de un estudio. Stanley y sus colegas discuten esto al informar sobre un estudio realizado por el científico cuantitativo del comportamiento Richard Klein y sus colegas, donde los autores intentaron replicar 15 efectos psicológicos en 36 sitios diferentes en Europa y los EE. UU. En el estudio, Klein y sus colegas encontraron cantidades significativas de heterogeneidad en 8 de los 16 efectos (I-cuadrado = 23% a 91%). Es importante destacar que, si bien los sitios de replicación diferían intencionalmente en una variedad de características, tales diferencias podrían explicar muy poca heterogeneidad. Según Stanley y sus colegas, esto sugirió que la heterogeneidad podría haber sido una característica genuina de los fenómenos que se estaban investigando. Por ejemplo, los fenómenos podrían estar influenciados por los llamados "moderadores ocultos", factores relevantes que anteriormente no se entendían como importantes en la producción de un cierto efecto.
En su análisis de 200 metanálisis de efectos psicológicos, Stanley y sus colegas encontraron un porcentaje medio de heterogeneidad de I-cuadrado = 74%. Según los autores, este nivel de heterogeneidad puede considerarse "enorme". Es tres veces mayor que la varianza de muestreo aleatorio de los tamaños del efecto medidos en su estudio. Si se considera junto con el error de muestreo , la heterogeneidad produce una desviación estándar de un estudio al siguiente incluso mayor que el tamaño medio del efecto de los 200 metanálisis que investigaron. [h] Los autores concluyen que si la replicación se define por un estudio posterior que encuentra un tamaño del efecto suficientemente similar al original, el éxito de la replicación no es probable incluso si las replicaciones tienen tamaños de muestra muy grandes. Es importante destacar que esto ocurre incluso si las replicaciones son directas o exactas, ya que la heterogeneidad, no obstante, sigue siendo relativamente alta en estos casos.
En economía, la crisis de replicación también puede verse exacerbada porque los resultados econométricos son frágiles: [150] el uso de procedimientos de estimación o técnicas de preprocesamiento de datos diferentes pero plausibles puede llevar a resultados contradictorios. [151] [152] [153]
El profesor de la Universidad de Nueva York Jay Van Bavel y sus colegas sostienen que otra razón por la que los hallazgos son difíciles de replicar es la sensibilidad al contexto de ciertos efectos psicológicos. Desde este punto de vista, los fracasos en la replicación podrían explicarse por diferencias contextuales entre el experimento original y la réplica, a menudo llamadas " moderadores ocultos ". [154] Van Bavel y sus colegas probaron la influencia de la sensibilidad al contexto al volver a analizar los datos del ampliamente citado Proyecto de Reproducibilidad llevado a cabo por la Open Science Collaboration. [12] Recodificaron los efectos según su sensibilidad a los factores contextuales y luego probaron la relación entre la sensibilidad al contexto y el éxito de la replicación en varios modelos de regresión .
Se encontró que la sensibilidad al contexto se correlacionaba negativamente con el éxito de la replicación, de modo que las calificaciones más altas de sensibilidad al contexto se asociaban con menores probabilidades de replicar un efecto. [i] Es importante destacar que la sensibilidad al contexto se correlacionó significativamente con el éxito de la replicación incluso cuando se ajustaban otros factores considerados importantes para reproducir los resultados (por ejemplo, el tamaño del efecto y el tamaño de la muestra del original, el poder estadístico de la replicación, la similitud metodológica entre el original y la replicación). [j] A la luz de los resultados, los autores concluyeron que intentar una replicación en un momento, lugar o con una muestra diferente puede alterar significativamente los resultados de un experimento. Por lo tanto, la sensibilidad al contexto puede ser una razón por la que ciertos efectos no se replican en psicología. [154]
En el marco de la probabilidad bayesiana, por el teorema de Bayes , rechazar la hipótesis nula con un nivel de significancia del 5% no significa que la probabilidad posterior para la hipótesis alternativa sea del 95%, y la probabilidad posterior también es diferente de la probabilidad de replicación. [155] [156] Considérese un caso simplificado donde solo hay dos hipótesis. Sea la probabilidad previa de la hipótesis nula , y la alternativa . Para un estudio estadístico dado, sea su tasa de falsos positivos (nivel de significancia) , y su tasa de verdaderos positivos (potencia) . Para fines ilustrativos, sea el nivel de significancia 0,05 y la potencia 0,45 (potencia insuficiente).
Ahora bien, según el teorema de Bayes, condicionado a que el hallazgo del estudio estadístico sea verdadero, la probabilidad posterior de que realmente sea verdadera no es , sino
y la probabilidad de replicar el estudio estadístico es que también es diferente de . En particular, para un nivel fijo de significancia, la probabilidad de replicación aumenta con la potencia y la probabilidad previa para . Si la probabilidad previa para es pequeña, entonces se requeriría una alta potencia para la replicación.
Por ejemplo, si la probabilidad previa de la hipótesis nula es , y el estudio encontró un resultado positivo, entonces la probabilidad posterior para es , y la probabilidad de replicación es .
Algunos sostienen que la prueba de hipótesis nula es en sí misma inapropiada, especialmente en "ciencias blandas" como la psicología social. [157] [158]
Como han observado repetidamente los estadísticos, [159] en sistemas complejos, como la psicología social, "la hipótesis nula siempre es falsa", o "todo está correlacionado". Si es así, entonces si no se rechaza la hipótesis nula, eso no demuestra que la hipótesis nula sea verdadera, sino simplemente que fue un falso negativo, generalmente debido a una potencia baja. [160] La potencia baja es especialmente frecuente en áreas temáticas donde los tamaños del efecto son pequeños y los datos son costosos de adquirir, como la psicología social. [157] [161]
Además, cuando se rechaza la hipótesis nula, puede que no sea evidencia a favor de la hipótesis alternativa sustancial. En las ciencias blandas, muchas hipótesis pueden predecir una correlación entre dos variables. Por lo tanto, la evidencia en contra de la hipótesis nula "no hay correlación" no es evidencia a favor de una de las muchas hipótesis alternativas que predicen igualmente bien "hay una correlación". Fisher desarrolló la NHST para agronomía, donde rechazar la hipótesis nula suele ser una buena prueba de la hipótesis alternativa, ya que no hay muchas de ellas. Rechazar la hipótesis "el fertilizante no ayuda" es evidencia a favor de "el fertilizante ayuda". Pero en psicología, hay muchas hipótesis alternativas para cada hipótesis nula. [161] [162]
En particular, cuando los estudios estadísticos sobre la percepción extrasensorial rechazan la hipótesis nula con un valor p extremadamente bajo (como en el caso de Daryl Bem ), esto no implica la hipótesis alternativa de que "existe la percepción extrasensorial". Es mucho más probable que haya habido una pequeña señal (no de percepción extrasensorial) en la configuración del experimento que se haya medido con precisión. [163]
Paul Meehl señaló que las pruebas de hipótesis estadísticas se utilizan de manera diferente en la psicología "blanda" (personalidad, social, etc.) que en la física. En física, una teoría hace una predicción cuantitativa y se prueba comprobando si la predicción cae dentro del intervalo medido estadísticamente. En la psicología blanda, una teoría hace una predicción direccional y se prueba comprobando si la hipótesis nula se rechaza en la dirección correcta. En consecuencia, la técnica experimental mejorada hace que las teorías tengan más probabilidades de ser refutadas en física, pero menos probabilidades de ser refutadas en la psicología blanda, ya que la hipótesis nula siempre es falsa ya que dos variables cualesquiera están correlacionadas por un "factor de error" de aproximadamente 0,30. El efecto neto es una acumulación de teorías que permanecen sin ser refutadas , pero sin evidencia empírica para preferir una sobre las otras. [23] [162]
Según el filósofo Alexander Bird , una posible razón para las bajas tasas de replicabilidad en ciertos campos científicos es que la mayoría de las hipótesis probadas son falsas a priori . [164] Desde este punto de vista, las bajas tasas de replicabilidad podrían ser consistentes con la ciencia de calidad. En relación con esto, la expectativa de que la mayoría de los hallazgos deberían replicarse sería errónea y, según Bird, una forma de falacia de tasa base. El argumento de Bird funciona de la siguiente manera. Suponiendo una situación ideal de una prueba de significancia, por la cual la probabilidad de rechazar incorrectamente la hipótesis nula es del 5% (es decir, error de tipo I ) y la probabilidad de rechazar correctamente la hipótesis nula es del 80% (es decir, potencia ), en un contexto donde una alta proporción de hipótesis probadas son falsas, es concebible que el número de falsos positivos sea alto en comparación con el de verdaderos positivos. [164] Por ejemplo, en una situación donde solo el 10% de las hipótesis probadas son realmente verdaderas, se puede calcular que hasta el 36% de los resultados serán falsos positivos. [k]
La afirmación de que la falsedad de la mayoría de las hipótesis probadas puede explicar las bajas tasas de replicabilidad es aún más relevante si se considera que la potencia media de las pruebas estadísticas en ciertos campos puede ser mucho menor que el 80%. Por ejemplo, la proporción de falsos positivos aumenta a un valor entre el 55,2% y el 57,6% cuando se calcula con las estimaciones de una potencia media entre el 34,1% y el 36,4% para los estudios de psicología, como proporcionan Stanley y sus colegas en su análisis de 200 metanálisis en el campo. [15] Una alta proporción de falsos positivos daría lugar entonces a que muchos hallazgos de investigación no fueran replicables.
Bird señala que la afirmación de que la mayoría de las hipótesis comprobadas son falsas a priori en ciertos campos científicos podría ser plausible dados factores como la complejidad de los fenómenos investigados, el hecho de que las teorías rara vez son indiscutibles, la "distancia inferencial" entre teorías e hipótesis y la facilidad con la que se pueden generar hipótesis. En este sentido, los campos que Bird toma como ejemplos son la medicina clínica, la epidemiología genética y molecular y la psicología social. Esta situación es radicalmente diferente en campos en los que las teorías tienen una base empírica destacada y las hipótesis se pueden derivar fácilmente de las teorías (por ejemplo, la física experimental). [164]
Cuando los efectos se presentan erróneamente como relevantes en la literatura, la falta de detección mediante la replicación conducirá a la canonización de esos hechos falsos. [165]
Un estudio de 2021 descubrió que los artículos en revistas líderes de interés general, psicología y economía con hallazgos que no se pudieron replicar tienden a ser citados más a lo largo del tiempo que los artículos de investigación reproducibles, probablemente porque estos resultados son sorprendentes o interesantes. La tendencia no se ve afectada por la publicación de reproducciones fallidas, después de lo cual solo el 12% de los artículos que citan la investigación original mencionarán la replicación fallida. [166] [167] Además, los expertos pueden predecir qué estudios serán replicables, lo que llevó a los autores del estudio de 2021, Marta Serra-García y Uri Gneezy , a concluir que los expertos aplican estándares más bajos a los resultados interesantes al decidir si publicarlos. [167]
En la comunidad científica se han expresado inquietudes de que el público en general puede considerar que la ciencia es menos creíble debido a las replicaciones fallidas. [168] La investigación que respalda esta preocupación es escasa, pero una encuesta representativa a nivel nacional en Alemania mostró que más del 75% de los alemanes no han oído hablar de fallas de replicación en la ciencia. [169] El estudio también encontró que la mayoría de los alemanes tienen percepciones positivas de los esfuerzos de replicación: solo el 18% piensa que la no replicabilidad muestra que no se puede confiar en la ciencia, mientras que el 65% piensa que la investigación de replicación muestra que la ciencia aplica control de calidad, y el 80% está de acuerdo en que los errores y las correcciones son parte de la ciencia. [169]
Con la crisis de replicación de la psicología ganando atención, la psicóloga de la Universidad de Princeton Susan Fiske generó controversia por hablar en contra de los críticos de la psicología por lo que ella llamó acoso y socavamiento de la ciencia. [170] [171] [172] [173] Ella llamó a estos "adversarios" no identificados nombres como "terroristas metodológicos" y "policías de datos autoproclamadas", diciendo que las críticas a la psicología deberían expresarse solo en privado o contactando a las revistas. [170] El estadístico y politólogo de la Universidad de Columbia Andrew Gelman respondió a Fiske, diciendo que se había encontrado dispuesta a tolerar el "paradigma muerto" de las estadísticas defectuosas y se había negado a retractarse de publicaciones incluso cuando se señalaron errores. [170] Añadió que su mandato como editora había sido abismal y que se descubrió que varios artículos publicados que editó se basaban en estadísticas extremadamente débiles; uno de los artículos publicados del propio Fiske tenía un error estadístico importante y conclusiones "imposibles". [170]
Algunos investigadores en psicología indican que la crisis de replicación es la base para una "revolución de la credibilidad", en la que los cambios en los estándares por los que se evalúa la ciencia psicológica pueden incluir el énfasis en la transparencia y la apertura, el registro previo de proyectos de investigación y la replicación de la investigación con estándares más altos de evidencia para mejorar la solidez de las afirmaciones científicas. [174] Estos cambios pueden disminuir la productividad de los investigadores individuales, pero este efecto podría evitarse mediante el intercambio de datos y una mayor colaboración. [174] Una revolución de la credibilidad podría ser buena para el entorno de investigación. [175]
La atención prestada a la crisis de replicación ha llevado a que se renueven los esfuerzos en psicología para volver a probar hallazgos importantes. [41] [176] Una edición especial de 2013 de la revista Social Psychology se centró en estudios de replicación. [13]
Se ha propuesto la estandarización y la transparencia de los métodos estadísticos y experimentales utilizados. [177] La documentación cuidadosa de la configuración experimental se considera crucial para la replicabilidad de los experimentos y es posible que varias variables no estén documentadas ni estandarizadas, como las dietas de los animales en los estudios con animales. [178]
Un artículo de 2016 escrito por John Ioannidis elaboró el tema "Por qué la mayoría de la investigación clínica no es útil". [179] Ioannidis describe lo que él considera algunos de los problemas y pide reformas, caracterizando ciertos puntos para que la investigación médica vuelva a ser útil; un ejemplo que menciona es la necesidad de que la medicina esté centrada en el paciente (por ejemplo, en la forma del Instituto de Investigación de Resultados Centrados en el Paciente ) en lugar de la práctica actual de ocuparse principalmente de "las necesidades de los médicos, investigadores o patrocinadores".
La metaciencia es el uso de la metodología científica para estudiar la ciencia misma. Busca aumentar la calidad de la investigación científica al tiempo que reduce el desperdicio. También se la conoce como "investigación sobre la investigación" y "la ciencia de la ciencia", ya que utiliza métodos de investigación para estudiar cómo se lleva a cabo la investigación y dónde se pueden hacer mejoras. La metaciencia se ocupa de todos los campos de investigación y se la ha llamado "una vista aérea de la ciencia". [180] En palabras de Ioannidis, "La ciencia es lo mejor que le ha pasado a los seres humanos... pero podemos hacerla mejor". [181]
Se siguen realizando metainvestigaciones para identificar las raíces de la crisis y abordarlas. Entre los métodos para abordar la crisis se encuentran el registro previo de estudios científicos y ensayos clínicos , así como la fundación de organizaciones como CONSORT y la Red EQUATOR , que emiten directrices para la metodología y la presentación de informes. Se siguen realizando esfuerzos para reformar el sistema de incentivos académicos, mejorar el proceso de revisión por pares , reducir el uso indebido de las estadísticas , combatir el sesgo en la literatura científica y aumentar la calidad y la eficiencia generales del proceso científico.
Algunos autores han sostenido que la comunicación insuficiente de los métodos experimentales es un factor importante que contribuye a la crisis de reproducibilidad y que una mejor divulgación del diseño experimental y de los análisis estadísticos mejoraría la situación. Estos autores tienden a abogar por un cambio cultural amplio en la comunidad científica en cuanto a cómo se consideran las estadísticas y por una presión más coercitiva por parte de las revistas científicas y los organismos de financiación. [182] Pero se han planteado inquietudes sobre la posibilidad de que las normas de transparencia y replicación se apliquen incorrectamente tanto a los estudios cualitativos como a los cuantitativos. [183]
Las revistas de negocios y gestión que han introducido políticas editoriales sobre accesibilidad, replicación y transparencia de los datos incluyen Strategic Management Journal , Journal of International Business Studies y Management and Organization Review . [92]
En respuesta a las preocupaciones en psicología sobre el sesgo de publicación y la filtración de datos , más de 140 revistas de psicología han adoptado la revisión por pares sin tener en cuenta los resultados. En este enfoque, los estudios se aceptan no sobre la base de sus hallazgos y después de que se completen los estudios, sino antes de que se realicen y sobre la base del rigor metodológico de sus diseños experimentales y las justificaciones teóricas para sus técnicas de análisis estadístico antes de que se realice la recopilación o el análisis de datos. [184] Los primeros análisis de este procedimiento han estimado que el 61% de los estudios sin tener en cuenta los resultados han conducido a resultados nulos , en contraste con un estimado del 5% al 20% en investigaciones anteriores. [100] Además, las colaboraciones a gran escala entre investigadores que trabajan en múltiples laboratorios en diferentes países que regularmente hacen que sus datos estén disponibles abiertamente para que diferentes investigadores los evalúen se han vuelto mucho más comunes en psicología. [185]
La publicación científica ha comenzado a utilizar informes previos al registro para abordar la crisis de replicación. [186] [187] El formato de informe registrado requiere que los autores envíen una descripción de los métodos y análisis del estudio antes de la recopilación de datos. Una vez que el método y el plan de análisis se examinan mediante una revisión por pares, la publicación de los hallazgos está garantizada provisionalmente, en función de si los autores siguen el protocolo propuesto. Un objetivo de los informes registrados es evitar el sesgo de publicación hacia hallazgos significativos que pueden llevar a la implementación de prácticas de investigación cuestionables. Otro es alentar la publicación de estudios con métodos rigurosos.
La revista Psychological Science ha fomentado el registro previo de estudios y la notificación de los tamaños del efecto y los intervalos de confianza. [188] El editor en jefe también señaló que el personal editorial solicitará la replicación de estudios con hallazgos sorprendentes a partir de exámenes que utilicen tamaños de muestra pequeños antes de permitir la publicación de los manuscritos.
Se ha sugerido que se necesita "una forma sencilla de comprobar con qué frecuencia se han repetido los estudios y si se confirman o no los hallazgos originales". [166] Las categorizaciones y calificaciones de reproducibilidad a nivel de estudio o de resultados, así como la adición de enlaces y la calificación de las confirmaciones de terceros, podrían ser realizadas por los revisores pares, la revista científica o los lectores en combinación con nuevas plataformas o herramientas digitales.
Muchas publicaciones exigen un valor p de p < 0,05 para afirmar que existe significación estadística . El artículo "Redefine statistical meaning" [189], firmado por un gran número de científicos y matemáticos, propone que en "los campos en los que el umbral para definir la significación estadística de los nuevos descubrimientos es p < 0,05, proponemos un cambio a p < 0,005. Este simple paso mejoraría inmediatamente la reproducibilidad de la investigación científica en muchos campos". Su fundamento es que "una de las principales causas de la no reproducibilidad (es que los) estándares estadísticos de evidencia para afirmar nuevos descubrimientos en muchos campos de la ciencia son simplemente demasiado bajos. Asociar hallazgos 'estadísticamente significativos' con p < 0,05 da como resultado una alta tasa de falsos positivos incluso en ausencia de otros problemas experimentales, de procedimiento y de presentación de informes". [189]
Este llamamiento fue posteriormente criticado por otro gran grupo, que argumentó que "redefinir" el umbral no solucionaría los problemas actuales, sino que daría lugar a otros nuevos y que, al final, todos los umbrales debían justificarse caso por caso en lugar de seguir convenciones generales. [190]
Aunque los estadísticos son unánimes en que el uso de " p < 0,05" como estándar de significación proporciona evidencia más débil de lo que generalmente se cree, existe una falta de unanimidad sobre lo que se debe hacer al respecto. Algunos han defendido que los métodos bayesianos deberían reemplazar los valores p . Esto no ha sucedido a gran escala, en parte porque es complicado y en parte porque muchos usuarios desconfían de la especificación de distribuciones previas en ausencia de datos duros. El farmacólogo David Colquhoun sugirió una versión simplificada del argumento bayesiano, basada en probar una hipótesis nula puntual . [191] [192] Los problemas lógicos de la inferencia inductiva se discutieron en "El problema con los valores p" (2016). [193]
Los riesgos de confiar en los valores p surgen en parte porque incluso una observación de p = 0,001 no es necesariamente una evidencia sólida contra la hipótesis nula. [192] A pesar del hecho de que la razón de verosimilitud a favor de la hipótesis alternativa sobre la nula es cercana a 100, si la hipótesis fuera inverosímil, con una probabilidad previa de un efecto real de 0,1, incluso la observación de p = 0,001 tendría un riesgo de falso positivo del 8 por ciento. Aún así, no alcanzaría el nivel del 5 por ciento.
Se recomendó que no se utilizaran los términos "significativo" y "no significativo". [192] Los valores p y los intervalos de confianza deberían seguir especificándose, pero deberían ir acompañados de una indicación del riesgo de falso positivo. Se sugirió que la mejor manera de hacerlo es calcular la probabilidad previa que sería necesario creer para lograr un riesgo de falso positivo de un cierto nivel, como el 5%. Los cálculos se pueden realizar con varios programas informáticos. [192] [194] Este enfoque bayesiano inverso, que el físico Robert Matthews sugirió en 2001, [195] es una forma de evitar el problema de que la probabilidad previa rara vez se conoce.
Para mejorar la calidad de las réplicas, a menudo se necesitan tamaños de muestra más grandes que los utilizados en el estudio original. [196] Se necesitan tamaños de muestra más grandes porque las estimaciones de los tamaños del efecto en el trabajo publicado a menudo se exageran debido al sesgo de publicación y la gran variabilidad de muestreo asociada con tamaños de muestra pequeños en un estudio original. [197] [198] [199] Además, el uso de umbrales de significancia generalmente conduce a efectos inflados, porque particularmente con tamaños de muestra pequeños, solo los efectos más grandes se volverán significativos. [158]
Un problema estadístico común es el sobreajuste , es decir, cuando los investigadores ajustan un modelo de regresión sobre una gran cantidad de variables pero una pequeña cantidad de puntos de datos. Por ejemplo, un estudio fMRI típico de emoción, personalidad y cognición social tiene menos de 100 sujetos, pero cada sujeto tiene 10,000 vóxeles. El estudio se ajustaría a un modelo de regresión lineal dispersa que usa los vóxeles para predecir una variable de interés, como el estrés auto-reportado. Pero el estudio luego informaría sobre el valor p del modelo en los mismos datos a los que se ajustó. El enfoque estándar en estadística, donde los datos se dividen en un conjunto de entrenamiento y uno de validación , es resistido porque los sujetos de prueba son costosos de adquirir. [146] [200]
Una posible solución es la validación cruzada , que permite validar el modelo y al mismo tiempo utilizar todo el conjunto de datos para ajustarlo. [201]
En julio de 2016, la Organización de Investigación Científica de los Países Bajos puso a disposición 3 millones de euros para estudios de replicación. La financiación se destina a la replicación basada en el reanálisis de datos existentes y a la replicación mediante la recopilación y el análisis de nuevos datos. La financiación está disponible en las áreas de ciencias sociales, investigación sanitaria e innovación en el ámbito de la atención sanitaria. [202]
En 2013, la Fundación Laura y John Arnold financió el lanzamiento del Centro para la Ciencia Abierta con una subvención de 5,25 millones de dólares. En 2017, proporcionó 10 millones de dólares adicionales en financiación. [203] También financió el lanzamiento del Centro de Innovación en Meta-Investigación en Stanford, en la Universidad de Stanford, dirigido por Ioannidis y el científico médico Steven Goodman, para estudiar formas de mejorar la investigación científica. [203] También proporcionó financiación para la iniciativa AllTrials , dirigida en parte por el científico médico Ben Goldacre . [203]
Basándose en los cursos de métodos experimentales del MIT, Stanford y la Universidad de Washington , se ha sugerido que los cursos de métodos en psicología y otros campos deberían hacer hincapié en los intentos de replicación en lugar de los estudios originales. [204] [205] [206] Este enfoque ayudaría a los estudiantes a aprender la metodología científica y proporcionar numerosas réplicas independientes de hallazgos científicos significativos que pondrían a prueba la replicabilidad de los hallazgos científicos. Algunos han recomendado que se exija a los estudiantes de posgrado que publiquen un intento de replicación de alta calidad sobre un tema relacionado con su investigación doctoral antes de graduarse. [207]
Existe la preocupación de que los intentos de replicación han ido en aumento. [208] [209] [210] Como resultado, esto puede conducir a un desperdicio de investigación. [211] A su vez, esto ha llevado a la necesidad de rastrear sistemáticamente los intentos de replicación. Como resultado, se han creado varias bases de datos (por ejemplo, [212] [213] ). Las bases de datos han creado una Base de Datos de Replicación que incluye psicología y terapia del habla y el lenguaje, entre otras disciplinas, para promover la investigación basada en la teoría y optimizar el uso de los recursos académicos e institucionales, al tiempo que se promueve la confianza en la ciencia. [214]
Algunas instituciones exigen a los estudiantes de grado que presenten una tesis de último año que consista en un trabajo de investigación original. Daniel Quintana, psicólogo de la Universidad de Oslo en Noruega, ha recomendado que se incentive a los estudiantes a realizar estudios de replicación en proyectos de tesis, además de que se les enseñe sobre ciencia abierta . [215]
Los investigadores demostraron una forma de prueba semiautomatizada para la reproducibilidad: se extrajeron declaraciones sobre resultados experimentales de artículos de investigación sobre cáncer de expresión genética no semánticos de 2022 y posteriormente se reprodujeron a través del científico robot " Eve ". [216] [217] Los problemas de este enfoque incluyen que puede no ser factible para muchas áreas de investigación y que es posible que no se extraigan suficientes datos experimentales de algunos o muchos artículos, incluso si están disponibles.
El psicólogo Daniel Kahneman argumentó que, en psicología, los autores originales deberían participar en el esfuerzo de replicación porque los métodos publicados a menudo son demasiado vagos. [218] [219] Otros, como el psicólogo Andrew Wilson, no están de acuerdo y argumentan que los autores originales deberían escribir los métodos en detalle. [218] Una investigación de las tasas de replicación en psicología en 2012 indicó tasas de éxito de replicación más altas en los estudios de replicación cuando había superposición de autores con los autores originales de un estudio [220] (tasas de replicación exitosas del 91,7% en estudios con superposición de autores en comparación con tasas de replicación exitosas del 64,6% sin superposición de autores).
La crisis de replicación ha llevado a la formación y desarrollo de varias comunidades colaborativas a gran escala para poner en común sus recursos con el fin de abordar una única cuestión en distintas culturas, países y disciplinas. [221] El foco está en la replicación, para asegurar que el efecto se generalice más allá de una cultura específica e investigar si el efecto es replicable y genuino. [222] Esto permite revisiones internas interdisciplinarias, perspectivas múltiples, protocolos uniformes en todos los laboratorios y el reclutamiento de muestras más grandes y diversas. [222] Los investigadores pueden colaborar coordinando la recopilación de datos o financiando la recopilación de datos por parte de investigadores que pueden no tener acceso a los fondos, lo que permite tamaños de muestra más grandes y aumenta la solidez de las conclusiones.
El psicólogo Marcus R. Munafò y el epidemiólogo George Davey Smith sostienen, en un artículo publicado en Nature , que la investigación debería hacer hincapié en la triangulación , no solo en la replicación, para protegerse contra ideas erróneas. Afirman que,
La replicación por sí sola nos llevará hasta cierto punto (y) podría empeorar las cosas... [La triangulación] es el uso estratégico de múltiples enfoques para abordar una cuestión. Cada enfoque tiene sus propias suposiciones, fortalezas y debilidades no relacionadas. Los resultados que coinciden en diferentes metodologías tienen menos probabilidades de ser artefactos ... Tal vez una razón por la que la replicación ha captado tanto interés es la idea, a menudo repetida, de que la falsación está en el corazón de la empresa científica. Esta idea fue popularizada por la máxima de Karl Popper de los años 50 de que las teorías nunca pueden probarse, solo falsificarse. Sin embargo, un énfasis excesivo en la repetición de experimentos podría proporcionar una sensación infundada de certeza sobre los hallazgos que dependen de un único enfoque... los filósofos de la ciencia han avanzado desde Popper. Mejores descripciones de cómo trabajan realmente los científicos incluyen lo que el epistemólogo Peter Lipton llamó en 1991 "inferencia a la mejor explicación". [223]
El modelo estadístico y científico dominante de causalidad es el modelo lineal. [224] El modelo lineal supone que las variables mentales son propiedades estables e independientes entre sí. En otras palabras, no se espera que estas variables se influyan entre sí. En cambio, el modelo supone que las variables tendrán un efecto lineal e independiente sobre los resultados observables. [224]
Los científicos sociales Sebastian Wallot y Damian Kelty-Stephen sostienen que el modelo lineal no siempre es apropiado. [224] Una alternativa es el modelo de sistema complejo que supone que las variables mentales son interdependientes. No se supone que estas variables sean estables, sino que interactuarán y se adaptarán a cada contexto específico. [224] Argumentan que el modelo de sistema complejo suele ser más apropiado en psicología, y que el uso del modelo lineal cuando el modelo de sistema complejo es más apropiado dará lugar a réplicas fallidas. [224]
...la psicología puede estar esperando réplicas en las mismas mediciones y bajo las mismas condiciones en las que un creciente cuerpo de evidencia psicológica desalienta explícitamente la predicción de réplicas. Los fracasos en la replicación pueden estar claramente incluidos en el fracaso potencialmente incompleto, pero de gran alcance, del comportamiento humano para ajustarse al estándar de independencia... [224]
La replicación es fundamental para que el progreso científico confirme los hallazgos originales. Sin embargo, la replicación por sí sola no es suficiente para resolver la crisis de replicación. Los esfuerzos de replicación no deben buscar solo apoyar o cuestionar los hallazgos originales, sino también reemplazarlos con teorías revisadas, más sólidas y con mayor poder explicativo. Por lo tanto, este enfoque implica podar las teorías existentes, comparar todas las teorías alternativas y hacer que los esfuerzos de replicación sean más generativos y participen en la construcción de teorías. [225] [226] Sin embargo, la replicación por sí sola no es suficiente, es importante evaluar el grado en que los resultados se generalizan a través de contextos geográficos, históricos y sociales, lo que es importante para varios campos científicos, especialmente para los profesionales y los responsables de las políticas, para realizar análisis que orienten decisiones estratégicas importantes. Los hallazgos reproducibles y replicables fueron el mejor predictor de la generalización más allá de los contextos históricos y geográficos, lo que indica que para las ciencias sociales, los resultados de un período de tiempo y un lugar determinados pueden impulsar de manera significativa lo que está universalmente presente en los individuos. [227]
Los datos abiertos, el software de código abierto y el hardware de código abierto son fundamentales para permitir la reproducibilidad en el sentido de la validación del análisis de datos original. El uso de software propietario, la falta de publicación de software de análisis y la falta de datos abiertos impiden la replicación de estudios. A menos que el software utilizado en la investigación sea de código abierto, es imposible reproducir resultados con diferentes configuraciones de software y hardware. [228] El CERN tiene proyectos de datos abiertos y preservación de análisis del CERN para almacenar datos, toda la información relevante y todo el software y las herramientas necesarias para preservar un análisis en los grandes experimentos del LHC . Además de todo el software y los datos, los activos de análisis preservados incluyen metadatos que permiten comprender el flujo de trabajo del análisis, el software relacionado, las incertidumbres sistemáticas, los procedimientos estadísticos y las formas significativas de buscar el análisis, así como referencias a publicaciones y material de respaldo. [229] El software del CERN es de código abierto y está disponible para su uso fuera de la física de partículas y se proporciona cierta orientación a otros campos sobre los enfoques y estrategias generales utilizados para la ciencia abierta en la física de partículas contemporánea. [230]
Los repositorios en línea donde los datos, protocolos y hallazgos pueden ser almacenados y evaluados por el público buscan mejorar la integridad y reproducibilidad de la investigación. Ejemplos de tales repositorios incluyen Open Science Framework , Registry of Research Data Repositories y Psychfiledrawer.org. Sitios como Open Science Framework ofrecen insignias por usar prácticas de ciencia abierta en un esfuerzo por incentivar a los científicos. Sin embargo, ha habido preocupaciones de que aquellos que tienen más probabilidades de proporcionar sus datos y código para análisis son los investigadores que probablemente sean los más sofisticados. [231] Ioannidis sugirió que "puede surgir la paradoja de que los investigadores más meticulosos y sofisticados y conocedores de métodos y cuidadosos pueden volverse más susceptibles a las críticas y ataques a la reputación por parte de reanalizadores que buscan errores, sin importar cuán insignificantes sean estos errores". [231]
{{cite encyclopedia}}
: CS1 maint: year (link)Práctica inapropiada de buscar en archivos grandes de información para intentar confirmar una hipótesis o creencia preconcebida sin un diseño adecuado que controle posibles factores de confusión o hipótesis alternativas. El dragado de datos puede implicar la selección de qué partes de un gran conjunto de datos se conservarán para obtener resultados específicos deseados.
{{cite encyclopedia}}
: CS1 maint: year (link)El uso de valores p durante casi un siglo [desde 1925] para determinar la significación estadística de los resultados experimentales ha contribuido a una ilusión de certeza y [a] crisis de reproducibilidad en muchos campos científicos . Hay una creciente determinación de reformar el análisis estadístico... Algunos [investigadores] sugieren cambiar los métodos estadísticos, mientras que otros eliminarían un umbral para definir resultados "significativos".