Datos no estructurados

Información sin un modelo de datos formal

Los datos no estructurados (o información no estructurada ) son información que no tiene un modelo de datos predefinido o que no está organizada de una manera predefinida. La información no estructurada suele estar compuesta por texto , pero también puede contener datos como fechas, números y hechos. Esto da lugar a irregularidades y ambigüedades que dificultan su comprensión mediante programas tradicionales en comparación con los datos almacenados en forma de campos en bases de datos o anotados ( etiquetados semánticamente ) en documentos.

En 1998, Merrill Lynch afirmó que "los datos no estructurados constituyen la gran mayoría de los datos que se encuentran en una organización; algunas estimaciones llegan a alcanzar el 80%". ^[1] No está claro cuál es la fuente de esta cifra, pero algunos la aceptan. ^[2] Otras fuentes han informado de porcentajes similares o superiores de datos no estructurados. ^[3]^[4]^[5]

A partir de 2012 ^[actualizar], IDC y Dell EMC proyectan que los datos crecerán a 40 zettabytes para 2020, lo que resultará en un crecimiento de 50 veces desde principios de 2010. ^[6] Más recientemente, IDC y Seagate predicen que la esfera de datos global crecerá a 163 zettabytes para 2025 ^[7] y la mayoría de ellos no estarán estructurados. La revista Computer World afirma que la información no estructurada podría representar más del 70-80% de todos los datos en las organizaciones. ^[1]

Fondo

Las primeras investigaciones sobre inteligencia empresarial se centraron en datos textuales no estructurados, en lugar de datos numéricos. ^[8] Ya en 1958, investigadores de informática como HP Luhn estaban especialmente interesados en la extracción y clasificación de texto no estructurado. ^[8] Sin embargo, solo desde el cambio de siglo la tecnología se puso al día con el interés de la investigación. En 2004, el Instituto SAS desarrolló SAS Text Miner, que utiliza la descomposición en valores singulares (SVD) para reducir un espacio textual hiperdimensional en dimensiones más pequeñas para un análisis de máquina significativamente más eficiente. ^[9] Los avances matemáticos y tecnológicos provocados por el análisis de texto de máquina impulsaron a varias empresas a investigar aplicaciones, lo que llevó al desarrollo de campos como el análisis de sentimientos , la minería de voz del cliente y la optimización del centro de llamadas. ^[10] La aparición de Big Data a fines de la década de 2000 condujo a un mayor interés en las aplicaciones de análisis de datos no estructurados en campos contemporáneos como el análisis predictivo y el análisis de causa raíz . ^[11]

Problemas con la terminología

El término es impreciso por varias razones:

La estructura , aunque no esté definida formalmente, aún puede inferirse.
Los datos con algún tipo de estructura aún pueden caracterizarse como no estructurados si su estructura no es útil para la tarea de procesamiento en cuestión.
La información no estructurada puede tener cierta estructura ( semiestructurada ) o incluso estar muy estructurada, pero de formas imprevistas o no anunciadas.

Cómo manejar datos no estructurados

Técnicas como la minería de datos , el procesamiento del lenguaje natural (PLN) y el análisis de texto proporcionan diferentes métodos para encontrar patrones en esta información o interpretarla de otro modo. Las técnicas comunes para estructurar el texto suelen implicar el etiquetado manual con metadatos o el etiquetado de partes del discurso para una estructuración posterior basada en la minería de texto . El estándar de Arquitectura de gestión de información no estructurada (UIMA) proporcionó un marco común para procesar esta información con el fin de extraer significado y crear datos estructurados sobre la información.

El software que crea una estructura procesable por máquina puede utilizar la estructura lingüística, auditiva y visual que existe en todas las formas de comunicación humana. ^[12] Los algoritmos pueden inferir esta estructura inherente del texto, por ejemplo, examinando la morfología de las palabras , la sintaxis de las oraciones y otros patrones de pequeña y gran escala. La información no estructurada se puede enriquecer y etiquetar para abordar ambigüedades y luego se pueden utilizar técnicas basadas en la relevancia para facilitar la búsqueda y el descubrimiento. Los ejemplos de "datos no estructurados" pueden incluir libros, revistas, documentos, metadatos , registros de salud , audio , video , datos analógicos , imágenes, archivos y texto no estructurado como el cuerpo de un mensaje de correo electrónico , una página web o un documento de procesador de textos . Si bien el contenido principal que se transmite no tiene una estructura definida, generalmente viene empaquetado en objetos (por ejemplo, en archivos o documentos, ...) que tienen estructura y, por lo tanto, son una mezcla de datos estructurados y no estructurados, pero colectivamente esto todavía se conoce como "datos no estructurados". ^[13] Por ejemplo, una página web HTML está etiquetada, pero el marcado HTML normalmente sirve únicamente para la representación. No captura el significado o la función de los elementos etiquetados de manera que admita el procesamiento automático del contenido de información de la página. El etiquetado XHTML sí permite el procesamiento automático de elementos, aunque normalmente no captura ni transmite el significado semántico de los términos etiquetados.

Dado que los datos no estructurados suelen aparecer en los documentos electrónicos , suele preferirse el uso de un sistema de gestión de contenidos o de documentos que pueda categorizar documentos enteros en lugar de la transferencia y manipulación de datos desde dentro de los documentos. De este modo, la gestión de documentos proporciona los medios para transmitir estructura a las colecciones de documentos .

Los motores de búsqueda se han convertido en herramientas populares para indexar y buscar dichos datos, especialmente texto.

Enfoques en el procesamiento del lenguaje natural

Se han desarrollado flujos de trabajo computacionales específicos para imponer una estructura a los datos no estructurados contenidos en los documentos de texto. Estos flujos de trabajo están generalmente diseñados para manejar conjuntos de miles o incluso millones de documentos, o mucho más de lo que los enfoques manuales para la anotación pueden permitir. Varios de estos enfoques se basan en el concepto de procesamiento analítico en línea u OLAP , y pueden estar respaldados por modelos de datos como los cubos de texto. ^[14] Una vez que los metadatos del documento están disponibles a través de un modelo de datos, se pueden generar resúmenes de subconjuntos de documentos (es decir, celdas dentro de un cubo de texto) con enfoques basados en frases. ^[15]

Enfoques en medicina e investigación biomédica

La investigación biomédica genera una fuente importante de datos no estructurados, ya que los investigadores suelen publicar sus hallazgos en revistas académicas. Aunque el lenguaje de estos documentos es difícil de derivar de elementos estructurales (por ejemplo, debido al complicado vocabulario técnico que contienen y al conocimiento del dominio necesario para contextualizar por completo las observaciones), los resultados de estas actividades pueden generar vínculos entre estudios técnicos y médicos ^[16] y pistas sobre nuevas terapias para enfermedades. ^[17] Los esfuerzos recientes para imponer una estructura en los documentos biomédicos incluyen enfoques de mapas autoorganizados para identificar temas entre documentos, ^[18]algoritmos no supervisados de propósito general ^[19] y una aplicación del flujo de trabajo CaseOLAP ^[15] para determinar asociaciones entre nombres de proteínas y temas de enfermedades cardiovasculares en la literatura. ^[20] CaseOLAP define las relaciones frase-categoría de una manera precisa (identifica relaciones), consistente (altamente reproducible) y eficiente. Esta plataforma ofrece una accesibilidad mejorada y empodera a la comunidad biomédica con herramientas de minería de frases para aplicaciones de investigación biomédica generalizadas. ^[20]

El uso de “no estructurado” en la normativa de privacidad de datos

En Suecia (UE), antes de 2018, algunas normas de privacidad de datos no se aplicaban si se confirmaba que los datos en cuestión eran "no estructurados". ^[21] Esta terminología, datos no estructurados, rara vez se utiliza en la UE después de que el RGPD entrara en vigor en 2018. El RGPD no menciona ni define los "datos no estructurados". Sí utiliza la palabra "estructurados" de la siguiente manera (sin definirla):

Partes del Considerando 15 del RGPD: «La protección de las personas físicas se aplicará al tratamiento de datos personales... si... están contenidos en un fichero».
Artículo 4 del RGPD: «se entenderá por «fichero» cualquier conjunto estructurado de datos personales accesibles según criterios específicos...».

Jurisprudencia del RGPD sobre la definición de «fichero»: «no es relevante el criterio concreto ni la forma concreta en que se estructura efectivamente el conjunto de datos personales recogidos por cada uno de los miembros que ejercen la predicación, siempre que dicho conjunto de datos permita recuperar fácilmente los datos relativos a una persona concreta a la que se ha contactado , extremo que, no obstante, corresponde comprobar al órgano jurisdiccional remitente a la luz de todas las circunstancias del litigio principal». ( TJUE , Todistajat c. Tietosuojavaltuutettu, Jehovan, apartado 61).

Si los datos personales se pueden recuperar fácilmente, entonces se trata de un sistema de archivo y, por lo tanto, están dentro del ámbito de aplicación del RGPD, independientemente de que estén "estructurados" o "no estructurados". La mayoría de los sistemas electrónicos actuales, ^{sujetos al acceso} y al software aplicado, pueden permitir una fácil recuperación de los datos.

Véase también

Notas

^ El desafío actual del gobierno: qué hacer con la información no estructurada y por qué no hacer nada no es una opción, Noel Yuhanna, analista principal, Forrester Research , noviembre de 2010

Referencias

^ Shilakes, Christopher C.; Tylman, Julie (16 de noviembre de 1998). "Enterprise Information Portals" (PDF) . Merrill Lynch . Archivado desde el original (PDF) el 24 de julio de 2011.
^ Grimes, Seth (1 de agosto de 2008). "Datos no estructurados y la regla del 80 por ciento". Análisis innovador - Bridgepoints . Clarabridge.
^ Gandomi, Amir; Haider, Murtaza (abril de 2015). "Más allá de la exageración: conceptos, métodos y análisis de big data". Revista internacional de gestión de la información . 35 (2): 137–144. doi : 10.1016/j.ijinfomgt.2014.10.007 . ISSN 0268-4012.
^ "Los mayores desafíos de datos que quizás ni siquiera sepas que tienes - Watson". Watson . 2016-05-25 . Consultado el 2018-10-02 .
^ "Datos estructurados y no estructurados". www.datamation.com . Consultado el 2 de octubre de 2018 .
^ "Comunicado de prensa de EMC News: Nuevo estudio del universo digital revela una brecha en el uso de big data: menos del 1 % de los datos del mundo se analizan y menos del 20 % se protegen". www.emc.com . EMC Corporation. Diciembre de 2012.
^ "Tendencias | Seagate US". Seagate.com . Consultado el 1 de octubre de 2018 .
^ ab Grimes, Seth. "Una breve historia del análisis de texto". B Eye Network . Consultado el 24 de junio de 2016 .
^ Albright, Russ. "Taming Text with the SVD" (PDF) . SAS . Archivado desde el original (PDF) el 2016-09-30 . Consultado el 24 de junio de 2016 .
^ Desai, Manish (9 de agosto de 2009). "Aplicaciones de la analítica de texto". My Business Analytics @ Blogspot . Consultado el 24 de junio de 2016 .
^ Chakraborty, Goutam. "Análisis de datos no estructurados: aplicaciones de análisis de texto y minería de sentimientos" (PDF) . SAS . Consultado el 24 de junio de 2016 .
^ "Estructura, modelos y significado: ¿los datos "no estructurados" son simplemente datos no modelados?". InformationWeek . 1 de marzo de 2005.
^ Malone, Robert (5 de abril de 2007). "Estructuración de datos no estructurados". Forbes .
^ Lin, Cindy Xide; Ding, Bolin; Han, Jiawei; Zhu, Feida; Zhao, Bo (diciembre de 2008). "Cubo de texto: cálculo de medidas IR para análisis de bases de datos de texto multidimensionales". Octava conferencia internacional IEEE sobre minería de datos de 2008. IEEE. págs. 905–910. CiteSeerX 10.1.1.215.3177 . doi :10.1109/icdm.2008.135. ISBN . 9780769535029.S2CID 1522480 .
^ ab Tao, Fangbo; Zhuang, Honglei; Yu, Chi Wang; Wang, Qi; Cassidy, Taylor; Kaplan, lanza; Voss, Clara; Han, Jiawei (2016). "Resumen multidimensional basado en frases en cubos de texto" (PDF) .
^ Collier, Nigel; Nazarenko, Adeline; Baud, Robert; Ruch, Patrick (junio de 2006). "Avances recientes en el procesamiento del lenguaje natural para aplicaciones biomédicas". Revista internacional de informática médica . 75 (6): 413–417. doi :10.1016/j.ijmedinf.2005.06.008. ISSN 1386-5056. PMID 16139564. S2CID 31449783.
^ Gonzalez, Graciela H.; Tahsin, Tasnia; Goodale, Britton C.; Greene, Anna C.; Greene, Casey S. (enero de 2016). "Avances recientes y aplicaciones emergentes en minería de texto y datos para el descubrimiento biomédico". Briefings in Bioinformatics . 17 (1): 33–42. doi :10.1093/bib/bbv087. ISSN 1477-4054. PMC 4719073 . PMID 26420781.
^ Skupin, André; Biberstine, Joseph R.; Börner, Katy (2013). "Visualización de la estructura temática de las ciencias médicas: un enfoque de mapa autoorganizado". PLOS ONE . 8 (3): e58779. Bibcode :2013PLoSO...858779S. doi : 10.1371/journal.pone.0058779 . ISSN 1932-6203. PMC 3595294 . PMID 23554924.
^ Kiela, Douwe; Guo, Yufan; Stenius, Ulla; Korhonen, Anna (1 de abril de 2015). "Descubrimiento no supervisado de la estructura de la información en documentos biomédicos". Bioinformática . 31 (7): 1084–1092. doi : 10.1093/bioinformatics/btu758 . ISSN 1367-4811. PMID 25411329.
^ ab Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 de octubre de 2018). "Minería de frases de datos textuales para analizar patrones de proteínas de la matriz extracelular en enfermedades cardiovasculares". Revista estadounidense de fisiología. Fisiología cardíaca y circulatoria . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406 .
^ "La normativa sueca sobre privacidad de datos sueca suprime la separación entre "datos no estructurados" y "datos estructurados"".

Enlaces externos

Correspondencia entre datos no estructurados y datos estructurados
Una breve descripción de los datos estructurados
Definición, ejemplos, ventajas y desafíos de los datos no estructurados

[1] Shilakes, Christopher C.; Tylman, Julie (16 de noviembre de 1998). "Enterprise Information Portals" (PDF) . Merrill Lynch . Archivado desde el original (PDF) el 24 de julio de 2011.

[Clarabridge-2] Grimes, Seth (1 de agosto de 2008). "Datos no estructurados y la regla del 80 por ciento". Análisis innovador - Bridgepoints . Clarabridge.

[3] Gandomi, Amir; Haider, Murtaza (abril de 2015). "Más allá de la exageración: conceptos, métodos y análisis de big data". Revista internacional de gestión de la información . 35 (2): 137–144. doi : 10.1016/j.ijinfomgt.2014.10.007 . ISSN 0268-4012.

[4] "Los mayores desafíos de datos que quizás ni siquiera sepas que tienes - Watson". Watson . 2016-05-25 . Consultado el 2018-10-02 .

[5] "Datos estructurados y no estructurados". www.datamation.com . Consultado el 2 de octubre de 2018 .

[idc-6] "Comunicado de prensa de EMC News: Nuevo estudio del universo digital revela una brecha en el uso de big data: menos del 1 % de los datos del mundo se analizan y menos del 20 % se protegen". www.emc.com . EMC Corporation. Diciembre de 2012.

[7] "Tendencias | Seagate US". Seagate.com . Consultado el 1 de octubre de 2018 .

[History-8] Grimes, Seth. "Una breve historia del análisis de texto". B Eye Network . Consultado el 24 de junio de 2016 .

[SVD-9] Albright, Russ. "Taming Text with the SVD" (PDF) . SAS . Archivado desde el original (PDF) el 2016-09-30 . Consultado el 24 de junio de 2016 .

[Applications-10] Desai, Manish (9 de agosto de 2009). "Aplicaciones de la analítica de texto". My Business Analytics @ Blogspot . Consultado el 24 de junio de 2016 .

[11] Chakraborty, Goutam. "Análisis de datos no estructurados: aplicaciones de análisis de texto y minería de sentimientos" (PDF) . SAS . Consultado el 24 de junio de 2016 .

[IntelligentEnterprise-12] "Estructura, modelos y significado: ¿los datos "no estructurados" son simplemente datos no modelados?". InformationWeek . 1 de marzo de 2005.

[13] Malone, Robert (5 de abril de 2007). "Estructuración de datos no estructurados". Forbes .

[14] Lin, Cindy Xide; Ding, Bolin; Han, Jiawei; Zhu, Feida; Zhao, Bo (diciembre de 2008). "Cubo de texto: cálculo de medidas IR para análisis de bases de datos de texto multidimensionales". Octava conferencia internacional IEEE sobre minería de datos de 2008. IEEE. págs. 905–910. CiteSeerX 10.1.1.215.3177 . doi :10.1109/icdm.2008.135. ISBN . 9780769535029.S2CID 1522480 .

[textcubes-15] Tao, Fangbo; Zhuang, Honglei; Yu, Chi Wang; Wang, Qi; Cassidy, Taylor; Kaplan, lanza; Voss, Clara; Han, Jiawei (2016). "Resumen multidimensional basado en frases en cubos de texto" (PDF) .

[16] Collier, Nigel; Nazarenko, Adeline; Baud, Robert; Ruch, Patrick (junio de 2006). "Avances recientes en el procesamiento del lenguaje natural para aplicaciones biomédicas". Revista internacional de informática médica . 75 (6): 413–417. doi :10.1016/j.ijmedinf.2005.06.008. ISSN 1386-5056. PMID 16139564. S2CID 31449783.

[17] Gonzalez, Graciela H.; Tahsin, Tasnia; Goodale, Britton C.; Greene, Anna C.; Greene, Casey S. (enero de 2016). "Avances recientes y aplicaciones emergentes en minería de texto y datos para el descubrimiento biomédico". Briefings in Bioinformatics . 17 (1): 33–42. doi :10.1093/bib/bbv087. ISSN 1477-4054. PMC 4719073 . PMID 26420781.

[18] Skupin, André; Biberstine, Joseph R.; Börner, Katy (2013). "Visualización de la estructura temática de las ciencias médicas: un enfoque de mapa autoorganizado". PLOS ONE . 8 (3): e58779. Bibcode :2013PLoSO...858779S. doi : 10.1371/journal.pone.0058779 . ISSN 1932-6203. PMC 3595294 . PMID 23554924.

[19] Kiela, Douwe; Guo, Yufan; Stenius, Ulla; Korhonen, Anna (1 de abril de 2015). "Descubrimiento no supervisado de la estructura de la información en documentos biomédicos". Bioinformática . 31 (7): 1084–1092. doi : 10.1093/bioinformatics/btu758 . ISSN 1367-4811. PMID 25411329.

[caseolapCV-20] Liem, David A.; Murali, Sanjana; Sigdel, Dibakar; Shi, Yu; Wang, Xuan; Shen, Jiaming; Choi, Howard; Caufield, John H.; Wang, Wei; Ping, Peipei; Han, Jiawei (1 de octubre de 2018). "Minería de frases de datos textuales para analizar patrones de proteínas de la matriz extracelular en enfermedades cardiovasculares". Revista estadounidense de fisiología. Fisiología cardíaca y circulatoria . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. ISSN 1522-1539. PMC 6230912. PMID 29775406 .

[21] "La normativa sueca sobre privacidad de datos sueca suprime la separación entre "datos no estructurados" y "datos estructurados"".