Parte de una serie sobre |
Epistemología |
---|
En el uso común , datos ( / ˈd eɪ t ə / , también en EE. UU.: /ˈd æ t ə / ) es una colección de valores discretos o continuos que transmiten información , describiendo la cantidad , calidad , hecho , estadísticas , otras unidades básicas de significado o simplemente secuencias de símbolos que pueden interpretarse formalmente . Un dato es un valor individual en una colección de datos. Los datos generalmente se organizan en estructuras como tablas que brindan contexto y significado adicionales, y pueden usarse como datos en estructuras más grandes. Los datos pueden usarse como variables en un proceso computacional . [1] [2] Los datos pueden representar ideas abstractas o mediciones concretas. [3] Los datos se usan comúnmente en la investigación científica , la economía y prácticamente cualquier otra forma de actividad organizacional humana. Los ejemplos de conjuntos de datos incluyen índices de precios (como el índice de precios al consumidor ), tasas de desempleo , tasas de alfabetización y datos censales . En este contexto, los datos representan los hechos y cifras sin procesar de los que se puede extraer información útil.
Los datos se recopilan mediante técnicas como la medición , la observación , la consulta o el análisis , y normalmente se representan como números o caracteres que pueden procesarse posteriormente . Los datos de campo son datos que se recopilan en un entorno in situ no controlado. Los datos experimentales son datos que se generan en el curso de un experimento científico controlado. Los datos se analizan mediante técnicas como el cálculo , el razonamiento , la discusión, la presentación , la visualización u otras formas de análisis posterior. Antes del análisis, los datos brutos (o datos sin procesar) normalmente se limpian: se eliminan los valores atípicos y se corrigen los errores obvios de entrada de datos o del instrumento.
Los datos pueden considerarse las unidades más pequeñas de información factual que pueden utilizarse como base para el cálculo, el razonamiento o la discusión. Los datos pueden abarcar desde ideas abstractas hasta mediciones concretas, incluidas, entre otras, las estadísticas . Los datos conectados temáticamente presentados en algún contexto relevante pueden considerarse información . Las piezas de información conectadas contextualmente pueden describirse como conocimientos o información de datos . El conjunto de conocimientos e inteligencia que se acumulan con el tiempo como resultado de la síntesis de datos en información puede describirse como conocimiento . Los datos han sido descritos como "el nuevo petróleo de la economía digital ". [4] [5] Los datos, como concepto general , se refieren al hecho de que cierta información o conocimiento existente se representa o codifica en alguna forma adecuada para un mejor uso o procesamiento .
Los avances en las tecnologías informáticas han dado lugar al surgimiento del big data , que suele referirse a cantidades muy grandes de datos, normalmente a escala de petabytes. Con los métodos de análisis de datos y la informática tradicionales, trabajar con conjuntos de datos tan grandes (y en aumento) resulta difícil, incluso imposible. (En teoría, una cantidad infinita de datos produciría una cantidad infinita de información, lo que haría imposible extraer información o inteligencia). En respuesta, el campo relativamente nuevo de la ciencia de datos utiliza métodos de aprendizaje automático (y otros métodos de inteligencia artificial [IA]) que permiten aplicaciones eficientes de métodos analíticos a los big data.
La palabra latina data es el plural de datum , "(cosa) dada", y el participio pasado neutro de dare , "dar". [6] El primer uso en inglés de la palabra "data" data data data de la década de 1640. La palabra "data" se utilizó por primera vez para significar "información informática transmisible y almacenable" en 1946. La expresión "procesamiento de datos" se utilizó por primera vez en 1954. [6]
Cuando "datos" se utiliza de forma más general como sinónimo de "información", se trata como un sustantivo colectivo en forma singular. Este uso es común en el lenguaje cotidiano y en campos técnicos y científicos como el desarrollo de software y la informática . Un ejemplo de este uso es el término " big data ". Cuando se utiliza de forma más específica para referirse al procesamiento y análisis de conjuntos de datos, el término conserva su forma plural. Este uso es común en las ciencias naturales, las ciencias de la vida, las ciencias sociales, el desarrollo de software y la informática, y creció en popularidad en los siglos XX y XXI. Algunas guías de estilo no reconocen los diferentes significados del término y simplemente recomiendan la forma que mejor se adapta al público objetivo de la guía. Por ejemplo, el estilo APA a partir de la 7.ª edición requiere que "datos" se trate como una forma plural. [7]
Los datos, la información , el conocimiento y la sabiduría son conceptos estrechamente relacionados, pero cada uno tiene su papel en relación con el otro, y cada término tiene su significado. Según una visión común, los datos se recopilan y analizan; los datos solo se convierten en información adecuada para tomar decisiones una vez que se han analizado de alguna manera. [8] Se puede decir que el grado en que un conjunto de datos es informativo para alguien depende del grado en que esa persona lo espera. La cantidad de información contenida en un flujo de datos puede caracterizarse por su entropía de Shannon .
El conocimiento es la conciencia que posee una entidad de su entorno, mientras que los datos simplemente comunican ese conocimiento. Por ejemplo, la entrada en una base de datos que especifica la altura del monte Everest es un dato que comunica un valor medido con precisión. Esta medida puede incluirse en un libro junto con otros datos sobre el monte Everest para describir la montaña de una manera útil para quienes desean decidir cuál es el mejor método para escalarla. La conciencia de las características representadas por estos datos es conocimiento.
A menudo se supone que los datos son el concepto menos abstracto, la información el siguiente menos abstracto y el conocimiento el más abstracto. [9] En esta perspectiva, los datos se convierten en información por interpretación; por ejemplo, la altura del Monte Everest generalmente se considera "datos", un libro sobre las características geológicas del Monte Everest puede considerarse "información" y una guía de alpinistas que contiene información práctica sobre la mejor manera de llegar a la cima del Monte Everest puede considerarse "conocimiento". "Información" tiene una diversidad de significados que van desde el uso cotidiano hasta el uso técnico. Sin embargo, también se ha argumentado que esta perspectiva invierte la forma en que los datos surgen de la información y la información del conocimiento. [10] En términos generales, el concepto de información está estrechamente relacionado con las nociones de restricción, comunicación, control, datos, forma, instrucción, conocimiento, significado, estímulo mental, patrón , percepción y representación. Beynon-Davies usa el concepto de signo para diferenciar entre datos e información; los datos son una serie de símbolos, mientras que la información ocurre cuando los símbolos se usan para referirse a algo. [11] [12]
Antes del desarrollo de los dispositivos y máquinas informáticas, las personas tenían que recopilar datos manualmente e imponerles patrones. Con el desarrollo de los dispositivos y máquinas informáticas, estos dispositivos también pueden recopilar datos. En la década de 2010, las computadoras se usaron ampliamente en muchos campos para recopilar datos y ordenarlos o procesarlos, en disciplinas que iban desde el marketing , el análisis del uso de los servicios sociales por parte de los ciudadanos hasta la investigación científica. Estos patrones en los datos se consideran información que se puede utilizar para mejorar el conocimiento. Estos patrones pueden interpretarse como " verdad " (aunque la "verdad" puede ser un concepto subjetivo) y pueden autorizarse como criterios estéticos y éticos en algunas disciplinas o culturas. Los eventos que dejan restos físicos o virtuales perceptibles pueden rastrearse a través de los datos. Las marcas ya no se consideran datos una vez que se rompe el vínculo entre la marca y la observación. [13]
Los dispositivos informáticos mecánicos se clasifican según la forma en que representan los datos. Una computadora analógica representa un dato como voltaje, distancia, posición u otra cantidad física. Una computadora digital representa un dato como una secuencia de símbolos extraídos de un alfabeto fijo . Las computadoras digitales más comunes utilizan un alfabeto binario, es decir, un alfabeto de dos caracteres que normalmente se denotan como "0" y "1". Las representaciones más familiares, como números o letras, se construyen a partir del alfabeto binario. Se distinguen algunas formas especiales de datos. Un programa de computadora es una colección de datos, que se pueden interpretar como instrucciones. La mayoría de los lenguajes de programación hacen una distinción entre programas y otros datos sobre los que operan los programas, pero en algunos lenguajes, en particular Lisp y lenguajes similares, los programas son esencialmente indistinguibles de otros datos. También es útil distinguir metadatos , es decir, una descripción de otros datos. Un término similar pero anterior para metadatos es "datos auxiliares". El ejemplo prototípico de metadatos es el catálogo de la biblioteca, que es una descripción del contenido de los libros.
Part of a series on |
Library and information science |
---|
Siempre que sea necesario registrar datos, estos existen en forma de documento de datos . Los tipos de documentos de datos incluyen:
Algunos de estos documentos de datos (repositorios de datos, estudios de datos, conjuntos de datos y software) están indexados en índices de citas de datos, mientras que los artículos de datos están indexados en bases de datos bibliográficas tradicionales, por ejemplo, Science Citation Index .
La recolección de datos puede realizarse a través de una fuente primaria (el investigador es la primera persona que obtiene los datos) o de una fuente secundaria (el investigador obtiene los datos que ya han sido recolectados por otras fuentes, como los datos difundidos en una revista científica). Las metodologías de análisis de datos varían e incluyen la triangulación de datos y la percolación de datos. [14] Esta última ofrece un método articulado de recolección, clasificación y análisis de datos utilizando cinco posibles ángulos de análisis (al menos tres) para maximizar la objetividad de la investigación y permitir una comprensión de los fenómenos bajo investigación lo más completa posible: métodos cualitativos y cuantitativos, revisiones de literatura (incluidos artículos académicos), entrevistas con expertos y simulación por computadora. A continuación, los datos se "percolan" utilizando una serie de pasos predeterminados para extraer la información más relevante.
Un campo importante en la informática , la tecnología y la biblioteconomía es la longevidad de los datos. La investigación científica genera enormes cantidades de datos, especialmente en genómica y astronomía , pero también en las ciencias médicas , por ejemplo, en la imagenología médica . En el pasado, los datos científicos se publicaban en artículos y libros, se almacenaban en bibliotecas, pero más recientemente, prácticamente todos los datos se almacenan en discos duros o discos ópticos . Sin embargo, a diferencia del papel, estos dispositivos de almacenamiento pueden volverse ilegibles después de algunas décadas. Los editores científicos y las bibliotecas han estado luchando con este problema durante algunas décadas, y todavía no hay una solución satisfactoria para el almacenamiento a largo plazo de datos durante siglos o incluso por la eternidad.
Accesibilidad de los datos . Otro problema es que muchos datos científicos nunca se publican ni se depositan en repositorios de datos como bases de datos . En una encuesta reciente, se solicitaron datos de 516 estudios que se publicaron entre 2 y 22 años antes, pero menos de uno de cada cinco de estos estudios pudo o quiso proporcionar los datos solicitados. En general, la probabilidad de recuperar los datos disminuyó un 17% cada año después de la publicación. [15] De manera similar, una encuesta de 100 conjuntos de datos en Dryad encontró que más de la mitad carecía de los detalles para reproducir los resultados de investigación de estos estudios. [16] Esto muestra la terrible situación del acceso a los datos científicos que no se publican o no tienen suficientes detalles para ser reproducidos.
Una solución al problema de la reproducibilidad es el intento de exigir datos FAIR , es decir, datos que sean fáciles de encontrar, accesibles, interoperables y reutilizables. Los datos que cumplen estos requisitos pueden utilizarse en investigaciones posteriores y, por lo tanto, hacen avanzar la ciencia y la tecnología. [17]
Aunque los datos también se utilizan cada vez más en otros campos, se ha sugerido que su naturaleza altamente interpretativa podría estar en desacuerdo con el espíritu de los datos como "dados". Peter Checkland introdujo el término capta (del latín capere , "tomar") para distinguir entre una inmensa cantidad de datos posibles y un subconjunto de ellos, al que se orienta la atención. [18] Johanna Drucker ha argumentado que, dado que las humanidades afirman que la producción de conocimiento es "situada, parcial y constitutiva", el uso de datos puede introducir suposiciones contraproducentes, por ejemplo, que los fenómenos son discretos o independientes del observador. [19] El término capta , que enfatiza el acto de observación como constitutivo, se ofrece como una alternativa a los datos para las representaciones visuales en las humanidades.
El término "basado en datos" es un neologismo aplicado a una actividad que se ve impulsada principalmente por los datos por sobre todos los demás factores. [ cita requerida ] Las aplicaciones basadas en datos incluyen la programación basada en datos y el periodismo basado en datos .