Archivo de datos de investigación

Almacenamiento a largo plazo de datos de investigación

El archivo de datos de investigación es el almacenamiento a largo plazo de datos de investigación académica , incluidas las ciencias naturales, las ciencias sociales y las ciencias de la vida. Las distintas revistas académicas tienen diferentes políticas con respecto a la cantidad de datos y métodos que los investigadores deben almacenar en un archivo público, y lo que realmente se archiva varía ampliamente entre las diferentes disciplinas. De manera similar, las principales instituciones que otorgan subvenciones tienen diferentes actitudes hacia el archivo público de datos. En general, la tradición de la ciencia ha sido que las publicaciones contengan suficiente información para permitir que los colegas investigadores repliquen y, por lo tanto, prueben la investigación. En los últimos años, este enfoque se ha vuelto cada vez más complicado, ya que la investigación en algunas áreas depende de grandes conjuntos de datos que no se pueden replicar fácilmente de forma independiente.

El archivo de datos es más importante en algunos campos que en otros. En algunos, todos los datos necesarios para replicar el trabajo ya están disponibles en el artículo de la revista. En el desarrollo de fármacos , se genera una gran cantidad de datos que deben archivarse para que los investigadores puedan verificar que los informes que publican las compañías farmacéuticas reflejen con precisión los datos.

El requisito de archivar datos es un desarrollo reciente en la historia de la ciencia . Fue posible gracias a los avances en la tecnología de la información que permiten almacenar y acceder a grandes cantidades de datos desde ubicaciones centrales. Por ejemplo, la American Geophysical Union (AGU) adoptó su primera política sobre archivado de datos en 1993, unos tres años después del comienzo de la WWW . [1] Esta política exige que los conjuntos de datos citados en los artículos de la AGU se archiven en un centro de datos reconocido; permite la creación de "artículos de datos"; y establece el papel de la AGU en el mantenimiento de los archivos de datos. Pero no exige que los autores de los artículos archiven sus datos.

Antes de que existiera un archivo de datos organizado, los investigadores que querían evaluar o replicar un artículo tenían que solicitar información sobre los datos y los métodos al autor. La comunidad académica espera que los autores compartan datos complementarios . Este proceso se reconoció como una pérdida de tiempo y energía y obtuvo resultados mixtos. La información podía perderse o corromperse con el paso de los años. En algunos casos, los autores simplemente se niegan a proporcionar la información.

La necesidad de archivar datos y de realizar la debida diligencia aumenta considerablemente cuando la investigación aborda cuestiones de salud o la formulación de políticas públicas. [2] [3]

Políticas seleccionadas por revistas

Biotrópica

Biotropica exige, como condición para la publicación, que los datos que respaldan los resultados del artículo y los metadatos que los describen se archiven en un archivo público apropiado como Dryad, Figshare, GenBank, TreeBASE o NCBI. Los autores pueden optar por hacer que los datos estén disponibles públicamente tan pronto como se publique el artículo o, si la tecnología del archivo lo permite, prohibir el acceso a los datos hasta tres años después de la publicación del artículo. Se incluirá una declaración que describa la disponibilidad de los datos en el manuscrito, como se describe en las instrucciones para los autores. El Editor en jefe puede otorgar excepciones al archivo requerido de datos a discreción para estudios que incluyan información confidencial (por ejemplo, la ubicación de especies en peligro de extinción). Nuestro editorial que explica la motivación de esta política se puede encontrar aquí. Una lista más completa de repositorios de datos está disponible aquí. Promoción de una cultura de colaboración con los investigadores que recopilan y archivan datos: los datos recopilados por biólogos tropicales suelen ser a largo plazo, complejos y costosos de recopilar. El Consejo de Redacción de Biotropica recomienda encarecidamente a los autores que reutilicen conjuntos de datos archivados que incluyan como colaboradores plenamente comprometidos a los científicos que los recopilaron originalmente. Creemos que esto mejorará en gran medida la calidad y el impacto de la investigación resultante al aprovechar los profundos conocimientos de los recopiladores de datos sobre la historia natural del sistema de estudio, reducir el riesgo de errores en análisis novedosos y estimular la colaboración y la capacitación interdisciplinarias e interculturales por las que la ATBC y Biotropica son ampliamente reconocidas.

NB: Biotropica es una de las dos únicas revistas que paga las tarifas a los autores que depositan datos en Dryad.

El naturalista americano

The American Naturalist exige que los autores depositen los datos asociados a los artículos aceptados en un archivo público. En el caso de los datos de secuencias genéticas y árboles filogenéticos, se requiere el depósito en GenBank o TreeBASE , respectivamente. Existen muchos archivos posibles que pueden ser adecuados para un conjunto de datos en particular, incluido el repositorio Dryad para datos de biología ecológica y evolutiva. Todos los números de acceso de GenBank, TreeBASE y Dryad deben incluirse en los manuscritos aceptados antes de que pasen a producción. Si los datos se depositan en otro lugar, proporcione un enlace. Si los datos se seleccionan de la literatura publicada, deposite los datos recopilados en Dryad para la comodidad de sus lectores. Cualquier impedimento para compartir datos debe notificarse a los editores en el momento del envío para que se puedan realizar los arreglos apropiados. [4]

Revista de la herencia

Los datos primarios que sustentan las conclusiones de un artículo son fundamentales para la verificabilidad y la transparencia de la labor científica, y deben conservarse en forma utilizable durante décadas en el futuro. Por este motivo, Journal of Heredity exige que las secuencias de nucleótidos o aminoácidos recientemente notificadas y las coordenadas estructurales se envíen a bases de datos públicas adecuadas (por ejemplo, GenBank; EMBL Nucleotide Sequence Database; DNA Database of Japan; Protein Data Bank ; y Swiss-Prot ). Los números de acceso deben incluirse en la versión final del manuscrito. Para otras formas de datos (por ejemplo, genotipos de microsatélites, mapas de ligamiento, imágenes), la revista respalda los principios de la Política de archivado de datos conjuntos (JDAP) al alentar a todos los autores a archivar conjuntos de datos primarios en un archivo público adecuado, como Dryad, TreeBASE o Knowledge Network for Biocomplexity. Se anima a los autores a que hagan públicos los datos en el momento de la publicación o, si la tecnología del archivo lo permite, opten por prohibir el acceso a los datos durante un período de hasta un año después de la publicación. La Asociación Genética Estadounidense también reconoce la enorme inversión que realizan los investigadores individuales en la generación y conservación de grandes conjuntos de datos. En consecuencia, recomendamos que se respete esta inversión en los análisis secundarios o metaanálisis con un espíritu de colaboración cortés.

—oxfordjournals.org  [5 ]

Ecología molecular

Molecular Ecology espera que los datos que respaldan los resultados del artículo se archiven en un archivo público apropiado, como GenBank, Gene Expression Omnibus , TreeBASE, Dryad, Knowledge Network for Biocomplexity, su propio repositorio institucional o de patrocinadores, o como información complementaria en el sitio web de Molecular Ecology. Los datos son productos importantes de la empresa científica y deben conservarse y utilizarse durante décadas en el futuro. Los autores pueden optar por tener los datos disponibles públicamente en el momento de la publicación o, si la tecnología del archivo lo permite, pueden optar por prohibir el acceso a los datos durante un período de hasta un año después de la publicación. Se pueden conceder excepciones a discreción del editor, especialmente para información confidencial como datos de sujetos humanos o la ubicación de especies en peligro de extinción.

—Wiley  [6 ]

Naturaleza

Este material debe estar alojado en un sitio web independiente acreditado (el autor debe proporcionar la URL y los números de acceso) o enviarse a la revista Nature en el momento del envío, ya sea subiéndolo a través del servicio de envío en línea de la revista o, si los archivos son demasiado grandes o tienen un formato inadecuado para este fin, en CD/DVD (cinco copias). Este material no puede alojarse únicamente en el sitio web personal o institucional de un autor. [7] Nature exige que el revisor determine si se han archivado todos los datos y métodos complementarios. La política aconseja a los revisores que consideren varias preguntas, entre ellas: "¿Se debe pedir a los autores que proporcionen métodos o datos complementarios para acompañar el artículo en línea? (Estos datos pueden incluir el código fuente de los estudios de modelado, protocolos experimentales detallados o derivaciones matemáticas).

—  Naturaleza [8]

Ciencia

Science apoya los esfuerzos de las bases de datos que agregan datos publicados para el uso de la comunidad científica. Por lo tanto, antes de la publicación, los grandes conjuntos de datos (incluidos datos de microarrays, secuencias de proteínas o ADN y coordenadas atómicas o mapas de microscopía electrónica para estructuras macromoleculares) deben depositarse en una base de datos aprobada y se debe proporcionar un número de acceso para su inclusión en el artículo publicado. [9] "Materiales y métodos": Science ahora solicita que, en general, los autores coloquen la mayor parte de su descripción de materiales y métodos en línea como material de apoyo, proporcionando solo la descripción de métodos en el manuscrito impreso que sea necesaria para seguir la lógica del texto. (Obviamente, esta restricción no se aplicará si el artículo es fundamentalmente un estudio de un nuevo método o técnica).

—  Ciencia [10]

Sociedad real

Para permitir que otros verifiquen y desarrollen el trabajo publicado en las revistas de la Royal Society , una condición de publicación es que los autores pongan a disposición los datos, el código y los materiales de investigación que respaldan los resultados del artículo.

Los conjuntos de datos y el código deben depositarse en un repositorio apropiado, reconocido y de acceso público. Cuando no exista un repositorio específico para los datos, los autores deben depositar sus conjuntos de datos en un repositorio general como Dryad (repositorio) o Figshare .

—  Sociedad Real [11]

Revista de ciencia arqueológica

La Revista de Ciencias Arqueológicas tiene una política de divulgación de datos desde al menos 2013. Su política establece que "todos los datos relacionados con el artículo deben estar disponibles en archivos complementarios o depositados en repositorios externos y vinculados dentro del artículo. La política recomienda que los datos se depositen en un repositorio como el Servicio de Datos Arqueológicos , el Registro Arqueológico Digital o PANGAEA . Un estudio de 2018 encontró una tasa de disponibilidad de datos del 53%, lo que refleja una aplicación débil de esta política o una comprensión incompleta entre los editores, revisores y autores de cómo interpretar e implementar esta política. [12]

Políticas de los organismos de financiación

En Estados Unidos, la Fundación Nacional de Ciencias (NSF) ha endurecido los requisitos sobre el archivo de datos. Los investigadores que buscan financiación de la NSF ahora deben presentar un plan de gestión de datos como complemento de dos páginas a la solicitud de subvención. [13]

La iniciativa Datanet de la NSF ha dado como resultado la financiación del proyecto Data Observation Network for Earth ( DataONE ), que proporcionará un archivo de datos científicos para los datos ecológicos y ambientales producidos por científicos de todo el mundo. El objetivo declarado de DataONE es preservar y proporcionar acceso a datos multidisciplinarios, multinacionales y de múltiples escalas. La comunidad de usuarios de DataONE incluye científicos, administradores de ecosistemas, formuladores de políticas, estudiantes, educadores y el público en general.

La DFG alemana exige que los datos de investigación se archiven en la propia institución del investigador o en una infraestructura nacional adecuada durante al menos 10 años. [14]

El Centro Británico de Curación Digital mantiene una visión general de las políticas de datos de los financiadores. [15]

Biblioteca de datos

Repositorio de datos y un repositorio de archivos

Los datos de investigación se archivan en bibliotecas de datos o archivos de datos . Una biblioteca de datos , archivo de datos o repositorio de datos es una colección de conjuntos de datos numéricos y/o geoespaciales para uso secundario en investigación. Una biblioteca de datos normalmente es parte de una institución más grande (académica, corporativa, científica, médica, gubernamental, etc.) establecida para archivar datos de investigación y servir a los usuarios de datos de esa organización. La biblioteca de datos tiende a albergar colecciones de datos locales y proporciona acceso a ellas a través de varios medios ( CD - / DVD -ROM o servidor central para descarga). Una biblioteca de datos también puede mantener suscripciones a recursos de datos con licencia para que sus usuarios accedan a la información. El que una biblioteca de datos también se considere un archivo de datos puede depender de la extensión de las existencias únicas en la colección, si se ofrecen servicios de conservación a largo plazo y si sirve a una comunidad más amplia (como lo hacen los archivos de datos nacionales). La mayoría de las bibliotecas de datos públicas están incluidas en el Registro de Repositorios de Datos de Investigación .

Importancia y servicios

En agosto de 2001, la Asociación de Bibliotecas de Investigación (ARL) publicó un informe [16] que presentaba los resultados de una encuesta realizada a instituciones miembros de la ARL involucradas en la recopilación y prestación de servicios para recursos de datos numéricos.

Servicio de biblioteca que brinda apoyo a nivel institucional para el uso de conjuntos de datos numéricos y de otro tipo en la investigación. Entre las actividades de apoyo que suelen estar disponibles se encuentran:

  • Asistencia de referencia: localización de conjuntos de datos numéricos o geoespaciales que contienen variables mensurables sobre un tema o grupo de temas en particular, en respuesta a una consulta del usuario.
  • Instrucción para el usuario: brindar capacitación práctica a grupos de usuarios sobre cómo localizar recursos de datos sobre temas específicos, cómo descargar datos y leerlos en hojas de cálculo, paquetes estadísticos, de bases de datos o SIG, y cómo interpretar libros de códigos y otra documentación.
  • Asistencia técnica: incluye facilitar los procedimientos de registro, solucionar problemas con el conjunto de datos (como errores en la documentación), reformatear los datos para que sean compatibles con el usuario y ayudar con la metodología estadística.
  • Desarrollo y gestión de colecciones: adquirir, mantener y gestionar una colección de archivos de datos utilizados para análisis secundarios por la comunidad de usuarios local; comprar suscripciones a datos institucionales; actuar como representante del sitio ante proveedores de datos y archivos de datos nacionales para la institución.
  • Servicios de preservación y compartición de datos: actúan en función de una estrategia de preservación de los conjuntos de datos de la colección, como la actualización de los medios y la migración de formatos de archivo; descargan y mantienen registros de las versiones actualizadas desde un repositorio central; también ayudan a los usuarios a preparar los datos originales para su uso secundario por parte de otros, ya sea para depositarlos en un repositorio central o institucional, o para formas menos formales de compartir datos. Esto también puede implicar marcar los datos en un estándar XML adecuado, como la Iniciativa de Documentación de Datos, o agregar otros metadatos para facilitar el descubrimiento en línea.

Ejemplos de bibliotecas de datos

Ciencias naturales

La siguiente lista hace referencia a archivos de datos científicos.

Ciencias sociales

En las ciencias sociales, las bibliotecas de datos se denominan archivos de datos. [17] Los archivos de datos son instituciones profesionales para la adquisición, preparación, conservación y difusión de datos sociales y de comportamiento. Los archivos de datos en las ciencias sociales evolucionaron en la década de 1950 y se han percibido como un movimiento internacional:

En 1964, el Consejo Internacional de Ciencias Sociales (CICS) había patrocinado una segunda conferencia sobre Archivos de Datos de Ciencias Sociales y contaba con un Comité permanente sobre Datos de Ciencias Sociales, dos iniciativas que estimularon el movimiento de los archivos de datos. A principios del siglo XXI, la mayoría de los países desarrollados y algunos países en desarrollo habían organizado archivos de datos nacionales formales y que funcionaban bien. Además, los campus universitarios suelen tener "bibliotecas de datos" que ponen los datos a disposición de sus profesores, personal y estudiantes; la mayoría de ellas tienen una responsabilidad mínima en materia de archivos, ya que dependen de una institución nacional para esa función (Rockwell, 2001, pág. 3227). [18]

  • re3data.org es un registro global de repositorio de datos de investigación que indexa archivos de datos de todas las disciplinas: http://www.re3data.org
  • Los miembros de CESSDA son archivos de datos y otras organizaciones que archivan datos de ciencias sociales y proporcionan datos para uso secundario: https://www.cessda.eu/About/Consortium
  • Consorcio de Archivos de Datos de Ciencias Sociales Europeas: http://www.cessda.org/
  • Archivo de datos de ciencias sociales de Finlandia (FSD): http://www.fsd.uta.fi/
  • Archivos de datos daneses: http://www.sa.dk/content/us/about_us Archivado el 29 de diciembre de 2014 en Wayback Machine ; página específica (solo en danés): https://web.archive.org/web/20150318230743/http://www.sa.dk/dda/default.htm
  • Consorcio Interuniversitario de Investigación Política y Social: http://www.icpsr.umich.edu/
  • Centro Roper para la Investigación de la Opinión Pública: https://ropercenter.cornell.edu/
  • Archivo de datos de ciencias sociales: http://dataarchives.ss.ucla.edu/
  • Centro de Ciencias Sociales de Cornell: https://socialsciences.cornell.edu/ciser-data-and-reproduction-archive

Véase también

Referencias

  1. ^ "Política sobre referencias de datos y archivo de datos para publicaciones de la AGU" [1]
  2. ^ "El caso de la debida diligencia cuando se utiliza la investigación empírica en la formulación de políticas", por Bruce McCullough y Ross McKitrick. [2]
  3. ^ "Data Sharing and Replication" (Intercambio de datos y replicación), un sitio web de Gary King Archivado el 28 de marzo de 2007 en Wayback Machine
  4. ^ Datos y materiales de apoyo
  5. ^ Política de archivo de datos
  6. ^ Política sobre el archivo de datos
  7. ^ "Disponibilidad de datos y materiales: la política de la revista Nature
  8. ^ "Guía de políticas de publicación de las revistas Nature" (PDF) . 14 de marzo de 2007.
  9. ^ "Revista de Políticas Generales de la Ciencia"
  10. ^ “Preparación del material de apoyo en línea”
  11. ^ "Intercambio y extracción de datos"
  12. ^ Marwick, Ben; Birch, Suzanne E. Pilaar (5 de abril de 2018). "Un estándar para la citación académica de datos arqueológicos como incentivo para compartir datos". Avances en la práctica arqueológica . 6 (2): 125–143. doi : 10.1017/aap.2018.3 .
  13. ^ "La NSF pedirá a todos los solicitantes de subvenciones un plan de gestión de datos"
  14. ^ "Directrices de la DFG para el manejo de datos de investigación"
  15. ^ "Descripción general de las políticas de datos de los financiadores | Centro de curación digital"
  16. ^ SPEC Kit 263: Productos y servicios de datos numéricos
  17. ^ White, Howard D. (1977). Datos de ciencias sociales legibles por máquina. Drexel Library Quarterly 13 (enero de 1977): 1-110.
  18. ^ Rockwell, RC (2001). Archivos de datos: Internacional. IN: Smelser, NJ y Baltes, PB (eds.) Enciclopedia internacional de las ciencias sociales y del comportamiento (vol. 5, págs. 3225-3230). Ámsterdam: Elsevier

Notas

  • Registro de Repositorios de Datos de Investigación re3data.org [4]
  • Lista de verificación estadística requerida por la naturaleza [5]
  • Políticas de las Actas de la Academia Nacional de Ciencias (EE.UU.) [6]
  • El Comité Nacional de Estados Unidos para CODATA [7]
  • El papel de los archivos de datos y códigos de programas en el futuro de la investigación económica [8]
  • Intercambio y replicación de datos – Sitio web de Gary King [9]
  • El caso de la diligencia debida cuando se utiliza la investigación empírica en la formulación de políticas, por McCullough y McKitrick [10]
  • Reflexiones sobre la publicación en revistas arbitradas por Chuck Doswell [11]
  • “Cómo fomentar el comportamiento correcto”. Artículo de opinión publicado en Nature , marzo de 2002.[12]
  • Sistema de datos astrofísicos de la NASA [13]
  • Principios de Panton para los datos abiertos en la ciencia, en Citizendium [14]
  • Consorcio Interuniversitario de Investigación Política y Social [15]

Lectura adicional

  • Clubb, J., Austin, E., y Geda, C. "'Compartir datos de investigación en las ciencias sociales.'" En Sharing Research Data , S. Fienberg, M. Martin y M. Straf, Eds. National Academy Press, Washington, DC, 1985, 39-88.
  • Geraci, D., Humphrey, C. y Jacobs, J. Fundamentos de datos . Asociación Canadiense de Bibliotecas, Ottawa, ON, 2005.
  • Heim, Kathleen M. "Necesidades de información científica social para datos numéricos: la evolución de la infraestructura de archivos de datos internacionales". Collection Management 9 (primavera de 1987): 1-53.
  • Martinez, Luis & Macdonald, Stuart, "'Apoyo a los usuarios de datos locales en la comunidad académica del Reino Unido'". Ariadne , número 44, julio de 2005.
  • Consulte la Bibliografía de trabajos seleccionados de IASSIST archivada el 3 de marzo de 2016 en Wayback Machine para encontrar artículos que trazan la historia de las bibliotecas de datos y su relación con la profesión de archivista, desde las décadas de 1960 y 1970 hasta 1996.
  • Consulte los artículos trimestrales de IASSIST desde 1993 hasta el presente, centrados en bibliotecas de datos, archivos de datos, soporte de datos y tecnología de la información para las ciencias sociales.
  • Repositorio de aprendizaje automático de la Universidad de California en Irvine

Asociaciones

  • IASSIST (Asociación Internacional de Información y Tecnologías de Servicios de Ciencias Sociales)
  • DISC-UK (Comité de especialistas en información de datos del Reino Unido)
  • APDU (Asociación de Usuarios de Datos Públicos – EE.UU.)
  • CAPDU (Asociación Canadiense de Usuarios de Datos Públicos)
Retrieved from "https://en.wikipedia.org/w/index.php?title=Research_data_archiving&oldid=1225005708#Data_library"