Minería de textos biomédicos

Análisis de textos biomédicos para extraer información y conocimientos relevantes

La minería de textos biomédicos (que incluye el procesamiento del lenguaje natural biomédico o BioNLP ) se refiere a los métodos y al estudio de cómo se puede aplicar la minería de textos a textos y literatura del ámbito biomédico . Como campo de investigación, la minería de textos biomédicos incorpora ideas del procesamiento del lenguaje natural , la bioinformática , la informática médica y la lingüística computacional . Las estrategias en este campo se han aplicado a la literatura biomédica disponible a través de servicios como PubMed .

En los últimos años, la literatura científica ha pasado a la publicación electrónica, pero el volumen de información disponible puede ser abrumador. Esta revolución de la publicación ha provocado una gran demanda de técnicas de minería de texto. La minería de texto ofrece recuperación de información (IR) y reconocimiento de entidades (ER). [1] IR permite la recuperación de artículos relevantes según el tema de interés, por ejemplo, a través de PubMed. ER se practica cuando se reconocen ciertos términos biológicos (por ejemplo, proteínas o genes ) para su posterior procesamiento.

Consideraciones

La aplicación de enfoques de minería de texto a textos biomédicos requiere consideraciones específicas comunes al dominio.

Disponibilidad de datos de texto anotados

Esta figura presenta varias propiedades de un corpus de literatura biomédica preparado por Westergaard et al. [2] El corpus incluye 15 millones de artículos de texto completo en idioma inglés. (a) Número de publicaciones por año desde 1823 hasta 2016. (b) Desarrollo temporal en la distribución de seis categorías temáticas diferentes desde 1823 hasta 2016. (c) Desarrollo en el número de páginas por artículo desde 1823 hasta 2016.

Los grandes corpus anotados utilizados en el desarrollo y entrenamiento de métodos de minería de texto de propósito general (por ejemplo, conjuntos de diálogos de películas, [3] reseñas de productos, [4] o texto de artículos de Wikipedia) no son específicos para el lenguaje biomédico. Si bien pueden proporcionar evidencia de propiedades generales del texto, como partes del discurso, rara vez contienen conceptos de interés para biólogos o médicos. Por lo tanto, el desarrollo de nuevos métodos para identificar características específicas de los documentos biomédicos requiere el ensamblaje de corpus especializados. [5] Se han desarrollado recursos diseñados para ayudar en la construcción de nuevos métodos de minería de texto biomédico a través de los desafíos de Informática para la integración de la biología y la cabecera del paciente (i2b2) [6] [7] [8] e investigadores de informática biomédica. [9] [10] Los investigadores de minería de texto con frecuencia combinan estos corpus con los vocabularios controlados y las ontologías disponibles a través del Sistema de lenguaje médico unificado (UMLS) y los encabezamientos de materias médicas (MeSH) de la Biblioteca Nacional de Medicina .

Los métodos basados ​​en el aprendizaje automático suelen requerir conjuntos de datos muy grandes como datos de entrenamiento para construir modelos útiles. [11] La anotación manual de corpus de texto grandes no es posible de manera realista. Por lo tanto, los datos de entrenamiento pueden ser productos de una supervisión débil [12] [13] o de métodos puramente estadísticos.

Variación de la estructura de datos

Al igual que otros documentos de texto, los documentos biomédicos contienen datos no estructurados . [14] Las publicaciones de investigación siguen diferentes formatos, contienen diferentes tipos de información y se intercalan con figuras, tablas y otro contenido no textual. Tanto los elementos de texto no estructurado como los de documentos semiestructurados, como las tablas, pueden contener información importante que debe analizarse mediante minería de texto. [15] Los documentos clínicos pueden variar en estructura y lenguaje entre departamentos y ubicaciones. Otros tipos de texto biomédico, como las etiquetas de medicamentos, [16] pueden seguir pautas estructurales generales pero carecer de más detalles.

Incertidumbre

La literatura biomédica contiene afirmaciones sobre observaciones que pueden no ser afirmaciones de hechos. Este texto puede expresar incertidumbre o escepticismo sobre las afirmaciones. Sin adaptaciones específicas, los enfoques de minería de texto diseñados para identificar afirmaciones dentro del texto pueden caracterizar erróneamente estas afirmaciones "protegidas" como hechos. [17]

Apoyo a las necesidades clínicas

Las aplicaciones de minería de textos biomédicos desarrolladas para uso clínico deberían reflejar idealmente las necesidades y demandas de los médicos. [5] Esto es una preocupación en entornos donde se espera que el apoyo a la toma de decisiones clínicas sea informativo y preciso. En [18] se presenta una descripción general completa del desarrollo y la adopción de métodos de PLN aplicados a notas clínicas de texto libre relacionadas con enfermedades crónicas.

Interoperabilidad con sistemas clínicos

Los nuevos sistemas de minería de texto deben funcionar con estándares existentes, registros médicos electrónicos y bases de datos. [5] Se han desarrollado métodos para interactuar con sistemas clínicos como LOINC [19] pero requieren un gran esfuerzo organizacional para implementarlos y mantenerlos. [20] [21]

Privacidad del paciente

Los sistemas de minería de texto que operan con datos médicos privados deben respetar su seguridad y garantizar que se vuelvan anónimos cuando sea apropiado. [22] [23] [24]

Procesos

Las subtareas específicas son de particular importancia cuando se procesa texto biomédico. [14]

Reconocimiento de entidades nombradas

Los avances en la minería de textos biomédicos han incorporado la identificación de entidades biológicas con reconocimiento de entidades nombradas , o NER. Los nombres e identificadores de biomoléculas como proteínas y genes , [25] compuestos químicos y fármacos, [26] y nombres de enfermedades [27] se han utilizado como entidades. La mayoría de los métodos de reconocimiento de entidades están respaldados por características lingüísticas o vocabularios predefinidos, aunque los métodos que incorporan aprendizaje profundo e incrustaciones de palabras también han tenido éxito en el NER biomédico. [28] [29]

Clasificación y agrupamiento de documentos

Los documentos biomédicos pueden clasificarse o agruparse en función de sus contenidos y temas. En la clasificación, las categorías de los documentos se especifican manualmente [30], mientras que en la agrupación, los documentos forman grupos distintos que dependen de un algoritmo [31] . Estas dos tareas son representativas de los métodos supervisados ​​y no supervisados , respectivamente, aunque el objetivo de ambas es producir subconjuntos de documentos en función de sus características distintivas. Los métodos para la agrupación de documentos biomédicos se han basado en la agrupación de k -medias [31] .

Descubrimiento de relaciones

Los documentos biomédicos describen conexiones entre conceptos, ya sean interacciones entre biomoléculas, eventos que ocurren posteriormente en el tiempo (es decir, relaciones temporales ) o relaciones causales . Los métodos de minería de texto pueden realizar el descubrimiento de relaciones para identificar estas conexiones, a menudo en conjunto con el reconocimiento de entidades nombradas. [32]

Detección de señales de seto

El desafío de identificar afirmaciones inciertas o "protegidas" se ha abordado a través de la detección de señales de protección en la literatura biomédica. [17]

Detección de reclamaciones

Varios investigadores han desarrollado métodos para identificar afirmaciones científicas específicas en la literatura. [33] [34] En la práctica, este proceso implica tanto aislar frases y oraciones que denotan los argumentos centrales de los autores de un documento (un proceso conocido como minería de argumentos , que emplea herramientas utilizadas en campos como la ciencia política) como comparar afirmaciones para encontrar posibles contradicciones entre ellas. [34]

Extracción de información

La extracción de información, o IE , es el proceso de identificar automáticamente información estructurada a partir de texto no estructurado o parcialmente estructurado. Los procesos de IE pueden involucrar varias o todas las actividades anteriores, incluido el reconocimiento de entidades nombradas, el descubrimiento de relaciones y la clasificación de documentos, con el objetivo general de traducir el texto a una forma más estructurada, como el contenido de una plantilla o una base de conocimiento . En el dominio biomédico, la IE se utiliza para generar vínculos entre conceptos descritos en el texto, como el gen A inhibe al gen B y el gen C está involucrado en la enfermedad G. [35] Las bases de conocimiento biomédicas que contienen este tipo de información son generalmente productos de una extensa curación manual, por lo que el reemplazo de los esfuerzos manuales con métodos automatizados sigue siendo un área de investigación convincente. [36] [37]

Recuperación de información y respuesta a preguntas

La minería de textos biomédicos permite a las aplicaciones identificar documentos y conceptos que coinciden con las consultas de búsqueda. Los motores de búsqueda como PubMed permiten a los usuarios consultar bases de datos bibliográficas con palabras o frases presentes en el contenido de los documentos, metadatos o índices como MeSH . Se pueden utilizar enfoques similares para la recuperación de bibliografía médica . Para obtener resultados más precisos, algunas aplicaciones permiten a los usuarios buscar con consultas en lenguaje natural e identificar relaciones biomédicas específicas. [38]

El 16 de marzo de 2020, la Biblioteca Nacional de Medicina y otras entidades lanzaron el conjunto de datos de investigación abierta COVID-19 (CORD-19) para permitir la extracción de texto de la literatura actual sobre el nuevo virus. El conjunto de datos está alojado por el proyecto Semantic Scholar [39] del Instituto Allen para IA . [40] Otros participantes incluyen a Google , Microsoft Research , el Centro de Seguridad y Tecnología Emergente y la Iniciativa Chan Zuckerberg . [41]

Recursos

Corpus

La siguiente tabla muestra una selección de corpus de textos biomédicos y su contenido. Estos elementos incluyen corpus anotados, fuentes de literatura de investigación biomédica y recursos que se utilizan con frecuencia como referencias de vocabulario y/o ontología, como MeSH . Los elementos marcados como "Sí" en "Disponibilidad gratuita" se pueden descargar desde una ubicación de acceso público.

Corpus de textos biomédicos
Nombre del corpusAutores o grupoContenidoDisponible gratuitamenteCitación
Biotopo de bacterias 2019BioNLP-OSTTextos científicos y de libros de texto anotados para reconocer menciones de microorganismos, biotopos microbianos y fenotipos, normalizar estas menciones de acuerdo con los recursos de conocimiento del campo y extraer las relaciones entre ellas.[42]
Desidentificación i2b2 y desafío del tabaquismo 2006i2b2889 resúmenes de alta médica anónimos anotados para identificación del paciente y características del estado de tabaquismo.Sí, con registro[43] [44]
Desafío i2b2 contra la obesidad 2008i2b21.237 resúmenes de alta médica desidentificados anotados sobre la presencia o ausencia de comorbilidades de la obesidad .Sí, con registro[45]
Desafío de medicación i2b2 2009i2b21,243 resúmenes de alta médica desidentificados, anotados con nombres y detalles de medicamentos, incluyendo dosis, modo , frecuencia, duración, motivo y presencia en una lista o estructura narrativa.Sí, con registro[46] [47]
Desafío de relaciones i2b2 2010i2b2Resúmenes de alta médica con anotaciones sobre problemas médicos, pruebas, tratamientos y las relaciones entre estos conceptos. Solo un subconjunto de estos registros de datos está disponible para uso en investigación debido a limitaciones del IRB.Sí, con registro[6]
Desafío de correferencia i2b2 2011i2b2978 resúmenes de alta médica, notas de progreso y otros informes clínicos anotados con conceptos y correferencias . Incluye el corpus ODIE.Sí, con registro[48]
Desafío de relaciones temporales i2b2 2012i2b2310 resúmenes de alta médica desidentificados, anotados para eventos y relaciones temporales .Sí, con registro[7]
Desafío de desidentificación i2b2 2014i2b21.304 registros médicos longitudinales desidentificados anotados para información médica protegida (PHI) .Sí, con registro[49]
Desafío i2b2 sobre factores de riesgo de enfermedades cardíacas 2014i2b21.304 registros médicos longitudinales desidentificados anotados para factores de riesgo de enfermedad de la arteria cardíaca .Sí, con registro[50]
ApuntadoBunescu y otros.200 resúmenes anotados para interacciones proteína-proteína , así como resúmenes de ejemplo negativos que no contienen interacciones proteína-proteína.[51]
BioC-BioGRIDBioCreAtivo120 artículos de investigación de texto completo anotados sobre interacciones proteína-proteína .[52]
BioCreAtivo 1BioCreAtivo15 000 oraciones (10 000 de entrenamiento y 5000 de prueba) anotadas para nombres de proteínas y genes. 1000 artículos de investigación biomédica de texto completo anotados con nombres de proteínas y términos de ontología genética .[53]
BioCreAtivo 2BioCreAtivo15 000 oraciones (10 000 de entrenamiento y 5000 de prueba, diferentes del primer corpus) anotadas para nombres de proteínas y genes. 542 resúmenes vinculados a identificadores de EntrezGene . Una variedad de artículos de investigación anotados para características de interacciones proteína-proteína .[54]
Corpus de tareas de CDR de BioCreative V (BC5CDR)BioCreAtivo1.500 artículos (título y resumen) publicados en 2014 o después, anotados para 4.409 sustancias químicas, 5.818 enfermedades y 3.116 interacciones sustancia-enfermedad.[55]
BioinferirPyysalo y otros.1.100 oraciones de resúmenes de investigaciones biomédicas anotadas para relaciones, entidades nombradas y dependencias sintácticas.No[56]
BioscopioVincze y otros.1.954 informes clínicos, 9 artículos y 1.273 resúmenes anotados según el alcance lingüístico y los términos que denotan negación o incertidumbre.[57]
BioTexto Reconociendo definiciones de abreviaturasProyecto BioTexto1.000 resúmenes sobre el tema de la "levadura", anotados con abreviaturas y sus significados.[58]
Datos de interacción proteína-proteína de BioTextProyecto BioTexto1.322 oraciones que describen interacciones proteína-proteína entre el VIH-1 y las proteínas humanas, anotadas con tipos de interacción.[59]
Base de datos de toxicogenómica comparativaDavis y otros.Una base de datos de asociaciones seleccionadas manualmente entre sustancias químicas, productos genéticos, fenotipos, enfermedades y exposiciones ambientales.[60]
ARTESANÍAVerspoor y col.97 publicaciones biomédicas de texto completo anotadas con estructuras lingüísticas y conceptos biológicos[61]
Cuerpo GENIAProyecto GENIA1.999 resúmenes de investigaciones biomédicas sobre los temas "humano", "células sanguíneas" y "factores de transcripción", anotados para partes del discurso, sintaxis, términos, eventos, relaciones y correferencias .[62] [63]
FamPlexBachman y otros.Nombres y familias de proteínas vinculados a identificadores únicos. Incluye conjuntos de afijos .[64]
Resúmenes de FlySlipDeslizamiento de mosca82 resúmenes de investigaciones sobre Drosophila anotados con nombres de genes.[65]
Documentos completos de FlySlipDeslizamiento de mosca5 artículos de investigación sobre Drosophila anotados con relaciones anafóricas entre frases nominales que hacen referencia a genes y entidades biológicamente relacionadas.[66]
Frases especulativas de FlySlipDeslizamiento de moscaMás de 1.500 oraciones anotadas como especulativas o no especulativas. Incluye anotaciones de cláusulas.[67]
Ley de Protección Ambiental de EE. UU.Ding y otros.486 oraciones de resúmenes de investigaciones biomédicas anotadas para pares de sustancias químicas coexistentes, incluidas las proteínas.No[68]
Cuerpo de la JNLPBAKim y otros.Una versión extendida de la versión 3 del corpus GENIA para tareas NER.No[69]
Aprendizaje del lenguaje en lógica (LLL)Nédellec y otros.77 oraciones de artículos de investigación sobre la bacteria Bacillus subtilis , anotadas para interacciones proteína-gen.[70]
Encabezados de materias médicas (MeSH)Biblioteca Nacional de MedicinaTerminología organizada jerárquicamente para indexar y catalogar documentos biomédicos.[71]
MetatesauroBiblioteca Nacional de Medicina / UMLS3,67 millones de conceptos y 14 millones de nombres de conceptos, mapeados entre más de 200 fuentes de vocabulario e identificadores biomédicos.Sí, con el acuerdo de licencia UMLS[72] [73]
MÍMICA IIILaboratorio de Fisiología Computacional del MITdatos desidentificados asociados con 53.423 admisiones hospitalarias distintas de pacientes adultos.Requiere capacitación y solicitud de acceso formal[74]
Cuerpo de ODIESavova y otros.180 notas clínicas anotadas con 5.992 pares de correferencia .No[75]
OHSUMEDHersh y otros.348.566 resúmenes de investigaciones biomédicas e información de indexación de MEDLINE , incluido MeSH (hasta 1991).[76]
Subconjunto de acceso abierto del PMCBiblioteca Nacional de Medicina / PubMed CentralMás de 2 millones de artículos de investigación, actualizados semanalmente.[77]
Norma RxBiblioteca Nacional de Medicina / UMLSNombres normalizados para medicamentos clínicos y paquetes de medicamentos, con ingredientes combinados, concentraciones y formas, y tipos asignados de la Red Semántica.Sí, con el acuerdo de licencia UMLS[78]
Red semánticaBiblioteca Nacional de Medicina / UMLSListas de 133 tipos semánticos y 54 relaciones semánticas que cubren conceptos y vocabulario biomédicos.Sí, con el acuerdo de licencia UMLS[79] [80]
Léxico ESPECIALISTABiblioteca Nacional de Medicina / UMLSUn léxico sintáctico del inglés biomédico y general.[81] [82]
Desambiguación del sentido de las palabras (WSD)Biblioteca Nacional de Medicina / UMLS203 palabras ambiguas y 37.888 instancias extraídas automáticamente de su uso en publicaciones de investigación biomédica.Sí, con el acuerdo de licencia UMLS[83] [84]
YapexFranzén y otros.200 resúmenes de investigaciones biomédicas anotados con nombres de proteínas.No[85]

Incrustaciones de palabras

Varios grupos han desarrollado conjuntos de vocabulario biomédico asignados a vectores de números reales, conocidos como vectores de palabras o incrustaciones de palabras . En la siguiente tabla se enumeran las fuentes de incrustaciones preentrenadas específicas para vocabulario biomédico. La mayoría son resultados del modelo word2vec desarrollado por Mikolov et al [86] o variantes de word2vec.

Incrustaciones de palabras biomédicas
Establecer nombreAutores o grupoContenido y fuenteCitación
BioASQword2vecBioASQVectores producidos por word2vec a partir de 10.876.004 resúmenes de PubMed en inglés .[87]
Recursos de bio.nlplab.orgPyysalo y otros.Una colección de vectores de palabras producidos por diferentes enfoques, entrenados en texto de PubMed y PubMed Central .[88]
BioVecAsgari y MofradVectores para secuencias de genes y proteínas, entrenados utilizando Swiss-Prot .[89]
Informe de radiologíaIncrustaciónBanerjee y otros.Vectores producidos por word2vec a partir del texto de 10.000 informes de radiología.[90]

Aplicaciones

Un diagrama de flujo de un protocolo de minería de texto.
Un ejemplo de un protocolo de minería de texto utilizado en un estudio de complejos proteína-proteína, o acoplamiento de proteínas [91]

Las aplicaciones de minería de texto en el campo biomédico incluyen enfoques computacionales para ayudar con los estudios en acoplamiento de proteínas , [91] interacciones de proteínas , [92] [93] y asociaciones proteína-enfermedad. [94] Las técnicas de minería de texto tienen varias ventajas sobre la curación manual tradicional para identificar asociaciones. Los algoritmos de minería de texto pueden identificar y extraer información de una gran cantidad de literatura, y de manera más eficiente que la curación manual. Esto incluye la integración de datos de diferentes fuentes, incluida la literatura, las bases de datos y los resultados experimentales. Estos algoritmos han transformado el proceso de identificación y priorización de genes nuevos y asociaciones gen-enfermedad que anteriormente se habían pasado por alto. [95]

Proceso de minería de texto
Los genes de las enfermedades en la intersección de genes, enfermedades y rasgos
Filtro y clasificación de palabras clave relevantes para la enfermedad, extraídas de documentos, artículos, etc. relevantes para la enfermedad.
Extracción mediante minería de texto

Estos métodos son la base para facilitar las búsquedas sistemáticas de literatura científica y biomédica pasada por alto que podría tener una asociación significativa entre las investigaciones. La combinación de información puede generar nuevos descubrimientos e hipótesis, especialmente con la integración de conjuntos de datos. Debe notarse que la calidad de la base de datos es tan importante como su tamaño. Se han desarrollado métodos prometedores de minería de texto como iProLINK (Información y conocimiento de literatura de proteínas integrados) para curar fuentes de datos que pueden ayudar a la investigación de minería de texto en áreas de mapeo bibliográfico, extracción de anotaciones, reconocimiento de entidades nombradas de proteínas y desarrollo de ontología de proteínas. [96] Las bases de datos curadas como UniProt pueden acelerar la accesibilidad de información específica no solo para secuencias genéticas, sino también para literatura y filogenia.

Identificación de grupos de genes

Se han desarrollado métodos para determinar la asociación de grupos de genes obtenidos mediante experimentos de microarrays con el contexto biológico proporcionado por la literatura correspondiente. [97]

Interacciones de proteínas

Se ha explorado la extracción automática de interacciones de proteínas [98] y las asociaciones de proteínas con conceptos funcionales (por ejemplo, términos de ontología genética ). [ cita requerida ] El motor de búsqueda PIE se desarrolló para identificar y devolver menciones de interacciones proteína-proteína de artículos indexados en MEDLINE . [ 99 ] La extracción de parámetros cinéticos del texto o la ubicación subcelular de las proteínas también se han abordado mediante tecnología de extracción de información y minería de texto. [ cita requerida ]

Asociaciones entre genes y enfermedades

La priorización computacional de genes es un paso esencial para comprender la base genética de las enfermedades, en particular en el análisis de ligamiento genético . La minería de texto y otras herramientas computacionales extraen información relevante, incluidas las asociaciones entre genes y enfermedades, entre otras, de numerosas fuentes de datos, y luego aplican diferentes algoritmos de clasificación para priorizar los genes en función de su relevancia para la enfermedad específica. [100] La minería de texto y la priorización de genes permiten a los investigadores centrar sus esfuerzos en los candidatos más prometedores para futuras investigaciones.

Se siguen desarrollando y analizando herramientas computacionales para la priorización de genes. Un grupo estudió el rendimiento de varias técnicas de minería de texto para la priorización de genes de enfermedades. Investigaron diferentes vocabularios de dominio, esquemas de representación de texto y algoritmos de clasificación con el fin de encontrar el mejor enfoque para identificar genes causantes de enfermedades y establecer un punto de referencia . [101]

Asociaciones gen-rasgo

Un grupo de genómica agrícola identificó genes relacionados con los rasgos reproductivos bovinos utilizando minería de texto, entre otros enfoques. [102]

Aplicaciones de la minería de frases a las asociaciones de enfermedades

Un estudio de minería de texto reunió una colección de 709 proteínas de la matriz extracelular central y proteínas asociadas basadas en dos bases de datos: MatrixDB (matrixdb.univ-lyon1.fr) y UniProt . Este conjunto de proteínas tenía un tamaño manejable y un rico cuerpo de información asociada, lo que lo hacía adecuado para la aplicación de herramientas de minería de texto. Los investigadores llevaron a cabo un análisis de minería de frases para examinar de forma cruzada las proteínas de la matriz extracelular individuales en la literatura biomédica relacionada con seis categorías de enfermedades cardiovasculares . Utilizaron una línea de procesamiento de minería de frases, Context-aware Semantic Online Analytical Processing (CaseOLAP), [103] luego calificaron semánticamente las 709 proteínas de acuerdo con su integridad, popularidad y distinción utilizando la línea de procesamiento CaseOLAP. El estudio de minería de texto validó las relaciones existentes e informó procesos biológicos previamente no reconocidos en la fisiopatología cardiovascular. [94]

Herramientas de software

Motores de búsqueda

Los motores de búsqueda diseñados para recuperar literatura biomédica relevante para una consulta proporcionada por el usuario con frecuencia se basan en métodos de minería de texto. Las herramientas disponibles públicamente específicas para la literatura de investigación incluyen la búsqueda en PubMed , la búsqueda en PubMed Central en Europa , GeneView [104] y APSE [105]. De manera similar, se han desarrollado motores de búsqueda y sistemas de indexación específicos para datos biomédicos, incluidos DataMed [106] y OmicsDI [107] .

Algunos motores de búsqueda, como Essie, [108] OncoSearch, [109] PubGene , [110] [111] y GoPubMed [112] eran anteriormente públicos, pero desde entonces se han descontinuado, se han vuelto obsoletos o se han integrado en productos comerciales.

Sistemas de análisis de registros médicos

El personal clínico recopila registros médicos electrónicos (EMR) y registros de salud electrónicos (EHR) durante el diagnóstico y el tratamiento. Aunque estos registros generalmente incluyen componentes estructurados con formatos y tipos de datos predecibles, el resto de los informes a menudo son de texto libre y difíciles de buscar, lo que genera desafíos en la atención al paciente. [113] Se han desarrollado numerosos sistemas y herramientas completos para analizar estas partes de texto libre. [114] El sistema MedLEE se desarrolló originalmente para el análisis de informes de radiología torácica , pero luego se amplió a otros temas de informes. [115] El sistema de análisis de texto clínico y extracción de conocimiento, o cTAKES , anota el texto clínico utilizando un diccionario de conceptos. [116] El sistema CLAMP ofrece una funcionalidad similar con una interfaz fácil de usar. [117]

Marcos

Se han desarrollado marcos computacionales para construir rápidamente herramientas para tareas de minería de textos biomédicos. SwellShark [118] es un marco para NER biomédico que no requiere datos etiquetados por humanos, pero sí hace uso de recursos para una supervisión débil (por ejemplo, tipos semánticos UMLS ). El marco SparkText [119] utiliza transmisión de datos Apache Spark , una base de datos NoSQL y métodos básicos de aprendizaje automático para construir modelos predictivos a partir de artículos científicos.

API

Algunas herramientas de minería de textos biomédicos y procesamiento de lenguaje natural están disponibles a través de interfaces de programación de aplicaciones o API . NOBLE Coder realiza el reconocimiento de conceptos a través de una API. [120]

Conferencias

Las siguientes conferencias y talleres académicos albergan debates y presentaciones sobre avances en minería de textos biomédicos. La mayoría publica actas .

Conferencias sobre minería de textos biomédicos
Nombre de la conferenciaSesiónActas
Reunión anual de la Asociación de Lingüística Computacional (ACL)Sesión plenaria y como parte del taller BioNLP
Taller de BioNLP de ACL[121]
Reunión anual de la Asociación Estadounidense de Informática Médica (AMIA)en sesión plenaria
Sistemas Inteligentes para Biología Molecular (ISMB)en sesión plenaria y en los talleres BioLINK y Bio-ontologías[122]
Conferencia Internacional sobre Bioinformática y Biomedicina (BIBM)[123]
Conferencia Internacional sobre Gestión de la Información y el Conocimiento (CIKM)en el marco del Taller Internacional sobre Minería de Datos y Textos en Informática Biomédica (DTMBIO)[124]
Reunión anual de la Asociación Norteamericana de Lingüística Computacional (NAACL)Sesión plenaria y como parte del taller BioNLP
Simposio del Pacífico sobre Bioinformática (PSB)en sesión plenaria[125]
Aplicaciones prácticas de la biología computacional y la bioinformática (PACBB)[126]
Conferencia sobre recuperación de textos (TREC)Anteriormente como parte de la pista de Genómica de TREC ; a partir de 2018, parte de la pista de Medicina de Precisión[127]

Revistas

Diversas revistas académicas que publican manuscritos sobre biología y medicina incluyen temas relacionados con la minería de texto y el software de procesamiento del lenguaje natural. Algunas revistas, como la Journal of the American Medical Informatics Association (JAMIA) y la Journal of Biomedical Informatics, son publicaciones populares sobre estos temas.

Referencias

  1. ^ Jensen, Lars Juhl; Saric, Jasmin; Bork, Peer (febrero de 2006). "Exploración bibliográfica para el biólogo: de la recuperación de información al descubrimiento biológico". Nature Reviews Genetics . 7 (2): 119–129. doi :10.1038/nrg1768. ISSN  1471-0056. PMID  16418747. S2CID  423509.
  2. ^ Westergaard D, Stærfeldt HH, Tønsberg C, Jensen LJ, Brunak S (febrero de 2018). "Una comparación exhaustiva y cuantitativa de la minería de texto en 15 millones de artículos de texto completo frente a sus resúmenes correspondientes". PLOS Computational Biology . 14 (2): e1005962. Bibcode :2018PLSCB..14E5962W. doi : 10.1371/journal.pcbi.1005962 . PMC 5831415 . PMID  29447159. 
  3. ^ Danescu-Niculescu-Mizil C, Lee L (2011). Camaleones en conversaciones imaginadas: un nuevo enfoque para comprender la coordinación del estilo lingüístico en los diálogos. pp. 76–87. arXiv : 1106.3077 . Bibcode :2011arXiv1106.3077D. ISBN 978-1-932432-95-4. {{cite book}}: |journal=ignorado ( ayuda )
  4. ^ McAuley J, Leskovec J (12 de octubre de 2013). "Factores ocultos y temas ocultos: comprensión de las dimensiones de calificación con texto de revisión". Actas de la 7.ª conferencia de la ACM sobre sistemas de recomendación . ACM. págs. 165-172. doi :10.1145/2507157.2507163. ISBN 978-1-4503-2409-0.S2CID6440341  .
  5. ^ abc Ohno-Machado L, Nadkarni P, Johnson K (2013). "Procesamiento del lenguaje natural: algoritmos y herramientas para extraer información computable de los registros médicos electrónicos y de la literatura biomédica". Revista de la Asociación Estadounidense de Informática Médica . 20 (5): 805. doi :10.1136/amiajnl-2013-002214. PMC 3756279 . PMID  23935077. 
  6. ^ ab Uzuner Ö, South BR, Shen S, DuVall SL (2011). "Desafío i2b2/VA 2010 sobre conceptos, afirmaciones y relaciones en textos clínicos". Revista de la Asociación Estadounidense de Informática Médica . 18 (5): 552–6. doi :10.1136/amiajnl-2011-000203. PMC 3168320 . PMID  21685143. 
  7. ^ ab Sun W, Rumshisky A, Uzuner O (2013). "Evaluación de las relaciones temporales en textos clínicos: desafío i2b2 2012". Revista de la Asociación Estadounidense de Informática Médica . 20 (5): 806–13. doi :10.1136/amiajnl-2013-001628. PMC 3756273 . PMID  23564629. 
  8. ^ Stubbs A, Kotfila C, Uzuner Ö (diciembre de 2015). "Sistemas automatizados para la desidentificación de narrativas clínicas longitudinales: descripción general de la pista 1 de tareas compartidas de i2b2/UTHealth de 2014". Journal of Biomedical Informatics . 58 (Supl): S11–9. doi :10.1016/j.jbi.2015.06.007. PMC 4989908 . PMID  26225918. 
  9. ^ Albright D, Lanfranchi A, Fredriksen A, Styler WF, Warner C, Hwang JD, Choi JD, Dligach D, Nielsen RD, Martin J, Ward W, Palmer M, Savova GK (2013). "Hacia anotaciones sintácticas y semánticas integrales de la narrativa clínica". Revista de la Asociación Estadounidense de Informática Médica . 20 (5): 922–30. doi :10.1136/amiajnl-2012-001317. PMC 3756257 . PMID  23355458. 
  10. ^ Bada M, Eckert M, Evans D, Garcia K, Shipley K, Sitnikov D, Baumgartner WA, Cohen KB, Verspoor K, Blake JA, Hunter LE (julio de 2012). "Anotación de conceptos en el corpus CRAFT". BMC Bioinformatics . 13 (1): 161. doi : 10.1186/1471-2105-13-161 . PMC 3476437 . PMID  22776079. 
  11. ^ Holzinger A, Jurisica I (2014). "Descubrimiento de conocimiento y minería de datos en informática biomédica: el futuro está en soluciones de aprendizaje automático integradoras e interactivas". Descubrimiento de conocimiento interactivo y minería de datos en informática biomédica . Apuntes de clase en informática. Vol. 8401. Springer Berlin Heidelberg. págs. 1–18. doi :10.1007/978-3-662-43968-5_1. ISBN 9783662439678.
  12. ^ Ratner A, Bach SH, Ehrenberg H, Fries J, Wu S, Ré C (noviembre de 2017). "Snorkel: creación rápida de datos de entrenamiento con supervisión débil". Actas de la Fundación VLDB . 11 (3): 269–282. arXiv : 1711.10160 . Código Bibliográfico :2017arXiv171110160R. doi :10.14778/3157794.3157797. PMC 5951191 . PMID  29770249. 
  13. ^ Ren X, Wu Z, He W, Qu M, Voss CR, Ji H, Abdelzaher TF , Han J (3 de abril de 2017). "CoType: Extracción conjunta de entidades tipificadas y relaciones con bases de conocimiento". Actas de la 26.ª Conferencia internacional sobre la World Wide Web . WWW '17. Comité directivo de las conferencias internacionales sobre la World Wide Web. págs. 1015–1024. doi :10.1145/3038912.3052708. ISBN . 9781450349130.S2CID 1724837  .
  14. ^ ab Erhardt RA, Schneider R, Blaschke C (abril de 2006). "Estado de las técnicas de minería de texto aplicadas a textos biomédicos". Drug Discovery Today . 11 (7–8): 315–25. doi :10.1016/j.drudis.2006.02.011. PMID  16580973.
  15. ^ Milosevic N, Gregson C, Hernandez R, Nenadic G (febrero de 2019). "Un marco para la extracción de información de tablas en la literatura biomédica". Revista internacional sobre análisis y reconocimiento de documentos . 22 (1): 55–78. arXiv : 1902.10031 . Código Bibliográfico :2019arXiv190210031M. doi :10.1007/s10032-019-00317-0. S2CID  62880746.
  16. ^ Demner-Fushman D, Shooshan SE, Rodriguez L, Aronson AR, Lang F, Rogers W, Roberts K, Tonning J (enero de 2018). "Un conjunto de datos de 200 etiquetas de productos estructuradas anotadas para reacciones adversas a medicamentos". Scientific Data . 5 : 180001. Bibcode :2018NatSD...580001D. doi :10.1038/sdata.2018.1. PMC 5789866 . PMID  29381145. 
  17. ^ ab Agarwal S, Yu H (diciembre de 2010). "Detección de señales de cobertura y su alcance en textos biomédicos con campos aleatorios condicionales". Journal of Biomedical Informatics . 43 (6): 953–61. doi :10.1016/j.jbi.2010.08.003. PMC 2991497 . PMID  20709188. 
  18. ^ Sheikhalishahi S, Miotto R, Dudley JT, Lavelli A, Rinaldi F, Osmani V (abril de 2019). "Procesamiento del lenguaje natural de notas clínicas sobre enfermedades crónicas: revisión sistemática". JMIR Med Inform . 7 (2): e12239. doi : 10.2196/12239 . PMC 6528438 . PMID  31066697. 
  19. ^ Vandenbussche PY, Cormont S, André C, Daniel C, Delahousse J, Charlet J, Lepage E (2013). "Implementación y gestión de un diccionario de observación biomédica en un gran sistema de información sanitaria". Revista de la Asociación Estadounidense de Informática Médica . 20 (5): 940–6. doi :10.1136/amiajnl-2012-001410. PMC 3756262 . PMID  23635601. 
  20. ^ Jannot AS, Zapletal E, Avillach P, Mamzer MF, Burgun A, Degoulet P (junio de 2017). "El almacén de datos clínicos del Hospital Universitario Georges Pompidou: una experiencia de seguimiento de 8 años". Revista internacional de informática médica . 102 : 21–28. doi :10.1016/j.ijmedinf.2017.02.006. PMID  28495345.
  21. ^ Levy B. "El desafío semántico de la atención sanitaria". www.fortherecordmag.com . Great Valley Publishing Company . Consultado el 4 de octubre de 2018 .
  22. ^ Goodwin LK, Prather JC (2002). "Protección de la privacidad del paciente en la minería de datos clínicos". Revista de gestión de la información sanitaria . 16 (4): 62–7. PMID  12365302.
  23. ^ Tucker K, Branson J, Dilleen M, Hollis S, Loughlin P, Nixon MJ, Williams Z (julio de 2016). "Protección de la privacidad del paciente al compartir datos de pacientes de ensayos clínicos". BMC Medical Research Methodology . 16 (S1): 77. doi : 10.1186/s12874-016-0169-4 . PMC 4943495 . PMID  27410040. 
  24. ^ Graves S (2013). "Confidencialidad, registros médicos electrónicos y el médico". Perspectivas en biología y medicina . 56 (1): 105–25. doi :10.1353/pbm.2013.0003. PMID  23748530. S2CID  25816887.
  25. ^ Leser U, Hakenberg J (1 de enero de 2005). "¿Qué hace que un gen tenga nombre? Reconocimiento de entidades nombradas en la literatura biomédica". Briefings in Bioinformatics . 6 (4): 357–369. doi : 10.1093/bib/6.4.357 . ISSN  1467-5463. PMID  16420734.
  26. ^ Krallinger M, Leitner F, Rabal O, Vazquez M, Oyarzabal J, Valencia A. "Descripción general de la tarea de reconocimiento de nombres de fármacos y compuestos químicos (CHEMDNER)" (PDF) . Actas del Cuarto Taller de Evaluación del Desafío BioCreativo . 2 : 6–37.
  27. ^ Jimeno A, Jimenez-Ruiz E, Lee V, Gaudan S, Berlanga R, Rebholz-Schuhmann D (abril de 2008). "Evaluación del reconocimiento de entidades nombradas por enfermedades en un corpus de oraciones anotadas". BMC Bioinformatics . 9 (Supl 3): S3. doi : 10.1186/1471-2105-9-s3-s3 . PMC 2352871 . PMID  18426548. 
  28. ^ Habibi M, Weber L, Neves M, Wiegandt DL, Leser U (julio de 2017). "El aprendizaje profundo con incrustaciones de palabras mejora el reconocimiento de entidades biomédicas con nombre". Bioinformática . 33 (14): i37–i48. doi :10.1093/bioinformatics/btx228. PMC 5870729 . PMID  28881963. 
  29. ^ Furrer L, Cornelius J, Rinaldi F (marzo de 2022). "Etiquetado de secuencias paralelas para el reconocimiento de conceptos". BMC Bioinformatics . 22 (Supl 1): 623. doi : 10.1186/s12859-021-04511-y . PMC 8943923 . PMID  35331131. 
  30. ^ Cohen AM (2006). "Un enfoque eficaz de propósito general para la clasificación automatizada de documentos biomédicos". Actas del Simposio Anual de la AMIA. Simposio de la AMIA . 2006 : 161–5. PMC 1839342. PMID  17238323 . 
  31. ^ ab Xu R, Wunsch DC (2010). "Algoritmos de agrupamiento en la investigación biomédica: una revisión". IEEE Reviews in Biomedical Engineering . 3 : 120–54. doi :10.1109/rbme.2010.2083647. PMID  22275205. S2CID  206522771.
  32. ^ Rodriguez-Esteban R (diciembre de 2009). "Minería de textos biomédicos y sus aplicaciones". PLOS Computational Biology . 5 (12): e1000597. Bibcode :2009PLSCB...5E0597R. doi : 10.1371/journal.pcbi.1000597 . PMC 2791166 . PMID  20041219. 
  33. ^ Blake C (abril de 2010). "Más allá de los genes, las proteínas y los resúmenes: identificación de afirmaciones científicas a partir de artículos biomédicos de texto completo". Journal of Biomedical Informatics . 43 (2): 173–89. doi : 10.1016/j.jbi.2009.11.001 . PMID  19900574.
  34. ^ ab Alamri A, Stevensony M (2015). "Identificación automática de afirmaciones potencialmente contradictorias para respaldar revisiones sistemáticas". Conferencia internacional IEEE sobre bioinformática y biomedicina (BIBM) de 2015. IEEE. págs. 930–937. doi :10.1109/bibm.2015.7359808. ISBN . 978-1-4673-6799-8. Número de identificación del sujeto  28079483.
  35. ^ Fleuren WW, Alkema W (marzo de 2015). "Aplicación de la minería de texto en el ámbito biomédico". Métodos . 74 : 97–106. doi :10.1016/j.ymeth.2015.01.015. PMID  25641519.
  36. ^ Karp PD (1 de enero de 2016). "¿Podemos reemplazar la curación con software de extracción de información?". Base de datos . 2016 : baw150. doi :10.1093/database/baw150. PMC 5199131. PMID  28025341 . 
  37. ^ Krallinger M, Valencia A, Hirschman L (2008). "Vinculación de genes a la literatura: minería de texto, extracción de información y aplicaciones de recuperación para la biología". Genome Biology . 9 (Suppl 2): ​​S8. doi : 10.1186/gb-2008-9-s2-s8 . PMC 2559992 . PMID  18834499. 
  38. ^ Neves M, Leser U (marzo de 2015). "Preguntas y respuestas para la biología". Métodos . 74 : 36–46. doi :10.1016/j.ymeth.2014.10.023. PMID  25448292.
  39. ^ Semantics Scholar. (2020) "Elimine el desorden: [Acceso abierto] Descargue el conjunto de datos de investigación abierta sobre el coronavirus". Sitio web de Semantics Scholar. Consultado el 30 de marzo de 2020.
  40. ^ Brennan, Patti. (24 de marzo de 2020). "Blog: ¿Cómo responde una biblioteca a una crisis sanitaria mundial?". Sitio web de la Biblioteca Nacional de Medicina. Consultado el 30 de marzo de 2020.
  41. ^ Brainard J (13 de mayo de 2020). "Los científicos se están ahogando en artículos sobre la COVID-19. ¿Pueden las nuevas herramientas mantenerlos a flote?". Ciencia | AAAS . Consultado el 17 de mayo de 2020 .
  42. ^ Bossy R, Deléger L, Chaix E, Ba M, Nédellec C (2019). Bacteria biotope at BioNLP open shared task 2019. Actas del quinto taller sobre tareas abiertas compartidas de BioNLP. Asociación de Lingüística Computacional. págs. 121–131. doi : 10.18653/v1/D19-5719 .
  43. ^ Uzuner O, Luo Y, Szolovits P (1 de septiembre de 2007). "Evaluación del estado del arte en desidentificación automática". Revista de la Asociación Estadounidense de Informática Médica . 14 (5): 550–63. doi :10.1197/jamia.m2444. PMC 1975792 . PMID  17600094. 
  44. ^ Uzuner O, Goldstein I, Luo Y, Kohane I (1 de enero de 2008). "Identificación del estado de tabaquismo del paciente a partir de los registros de alta médica". Revista de la Asociación Estadounidense de Informática Médica . 15 (1): 14–24. doi :10.1197/jamia.m2408. PMC 2274873 . PMID  17947624. 
  45. ^ Uzuner O (2009). "Reconocimiento de la obesidad y las comorbilidades en datos dispersos". Revista de la Asociación Estadounidense de Informática Médica . 16 (4): 561–70. doi :10.1197/jamia.M3115. PMC 2705260 . PMID  19390096. 
  46. ^ Uzuner O, Solti I, Xia F, Cadag E (2010). "Experimento de anotación comunitaria para la generación de datos de verdad fundamental para el desafío de medicación i2b2". Revista de la Asociación Estadounidense de Informática Médica . 17 (5): 519–23. doi :10.1136/jamia.2010.004200. PMC 2995684 . PMID  20819855. 
  47. ^ Uzuner O, Solti I, Cadag E (2010). "Extracción de información sobre medicamentos a partir de textos clínicos". Revista de la Asociación Estadounidense de Informática Médica . 17 (5): 514–8. doi :10.1136/jamia.2010.003947. PMC 2995677 . PMID  20819854. 
  48. ^ Uzuner O, Bodnari A, Shen S, Forbush T, Pestian J, South BR (2012). "Evaluación del estado del arte en resolución de correferencia para registros médicos electrónicos". Revista de la Asociación Estadounidense de Informática Médica . 19 (5): 786–91. doi :10.1136/amiajnl-2011-000784. PMC 3422835 . PMID  22366294. 
  49. ^ Stubbs A, Uzuner Ö (diciembre de 2015). "Anotación de narrativas clínicas longitudinales para la desidentificación: el corpus i2b2/UTHealth de 2014". Journal of Biomedical Informatics . 58 (Supl.): S20–9. doi :10.1016/j.jbi.2015.07.020. PMC 4978170 . PMID  26319540. 
  50. ^ Stubbs A, Uzuner Ö (diciembre de 2015). "Anotación de factores de riesgo de enfermedad cardíaca en narrativas clínicas para pacientes diabéticos". Journal of Biomedical Informatics . 58 (Supl): S78–91. doi :10.1016/j.jbi.2015.05.009. PMC 4978180 . PMID  26004790. 
  51. ^ Bunescu R, Ge R, Kate RJ, Marcotte EM, Mooney RJ, Ramani AK, Wong YW (febrero de 2005). "Experimentos comparativos sobre el aprendizaje de extractores de información para proteínas y sus interacciones". Inteligencia artificial en medicina . 33 (2): 139–55. CiteSeerX 10.1.1.10.2168 . doi :10.1016/j.artmed.2004.07.016. PMID  15811782. 
  52. ^ Islamaj Dogan R, Kim S, Chatr-Aryamontri A, Chang CS, Oughtred R, Rust J, Wilbur WJ, Comeau DC, Dolinski K, Tyers M (1 de enero de 2017). "El corpus BioC-BioGRID: artículos de texto completo anotados para la curación de interacciones proteína-proteína y genéticas". Base de datos . 2017 : baw147. doi :10.1093/database/baw147. PMC 5225395 . PMID  28077563. 
  53. ^ Hirschman L, Yeh A, Blaschke C, Valencia A (2005). "Descripción general de BioCreAtIvE: evaluación crítica de la extracción de información para biología". BMC Bioinformatics . 6 (Supl 1): S1. doi : 10.1186/1471-2105-6-S1-S1 . PMC 1869002 . PMID  15960821. 
  54. ^ Krallinger M, Morgan A, Smith L, Leitner F, Tanabe L, Wilbur J, Hirschman L, Valencia A (2008). "Evaluación de sistemas de minería de texto para biología: descripción general del segundo desafío comunitario BioCreative". Genome Biology . 9 (Suppl 2): ​​S1. doi : 10.1186/gb-2008-9-s2-s1 . PMC 2559980 . PMID  18834487. 
  55. ^ Li J, Sun Y, Johnson RJ, Sciaky D, Wei CH, Leaman R, Davis AP, Mattingly CJ, Wiegers TC, Lu Z (2016). "Cuerpo de tareas de CDR de BioCreative V: un recurso para la extracción de relaciones químicas entre enfermedades". Base de datos . 2016 : baw068. doi :10.1093/database/baw068. PMC 4860626 . PMID  27161011. 
  56. ^ Pyysalo S, Ginter F, Heimonen J, Björne J, Boberg J, Järvinen J, Salakoski T (febrero de 2007). "BioInfer: un corpus para la extracción de información en el ámbito biomédico". Bioinformática BMC . 8 (1): 50. doi : 10.1186/1471-2105-8-50 . PMC 1808065 . PMID  17291334. 
  57. ^ Vincze V, Szarvas G, Farkas R, Móra G, Csirik J (noviembre de 2008). "El corpus BioScope: textos biomédicos anotados para la incertidumbre, la negación y sus alcances". BMC Bioinformatics . 9 (Supl 11): S9. doi : 10.1186/1471-2105-9-s11-s9 . PMC 2586758 . PMID  19025695. 
  58. ^ Schwartz AS, Hearst MA (2003). "Un algoritmo simple para identificar definiciones de abreviaturas en textos biomédicos". Simposio del Pacífico sobre Bioinformática. Simposio del Pacífico sobre Bioinformática : 451–62. PMID  12603049.
  59. ^ Rosario B, Hearst MA (6 de octubre de 2005). "Clasificación de relaciones multidireccionales". Clasificación de relaciones multidireccionales: aplicación a interacciones proteína-proteína . Hlt '05. Association for Computational Linguistics. págs. 732–739. doi :10.3115/1220575.1220667. S2CID  902226.
  60. ^ Davis AP, Grondin CJ, Johnson RJ, Sciaky D, McMorran R, Wiegers J, et al. (enero de 2019). "Base de datos de toxicogenómica comparativa: actualización de 2019". Nucleic Acids Research . 47 (D1): D948–D954. doi :10.1093/nar/gky868. PMC 6323936 . PMID  30247620. 
  61. ^ Verspoor K, Cohen KB, Lanfranchi A, Warner C, Johnson HL, Roeder C, Choi JD, Funk C, Malenkiy Y, Eckert M, Xue N, Baumgartner WA, Bada M, Palmer M, Hunter LE (agosto de 2012). "Un corpus de artículos de revistas de texto completo es una herramienta de evaluación sólida para revelar diferencias en el rendimiento de las herramientas de procesamiento del lenguaje natural biomédico". BMC Bioinformatics . 13 (1): 207. doi : 10.1186/1471-2105-13-207 . PMC 3483229 . PMID  22901054. 
  62. ^ Kim JD, Ohta T, Tateisi Y, Tsujii J (3 de julio de 2003). "Corpus GENIA: un corpus anotado semánticamente para la minería de biotextos". Bioinformática . 19 (Supl 1): i180–i182. doi : 10.1093/bioinformatics/btg1023 . PMID  12855455.
  63. ^ "Proyecto GENIA". www.geniaproject.org . Consultado el 6 de octubre de 2018 .
  64. ^ Bachman JA, Gyori BM, Sorger PK (junio de 2018). "FamPlex: un recurso para el reconocimiento de entidades y la resolución de relaciones de familias y complejos de proteínas humanas en la minería de textos biomédicos". BMC Bioinformatics . 19 (1): 248. doi : 10.1186/s12859-018-2211-5 . PMC 6022344 . PMID  29954318. 
  65. ^ Vlachos A, Gasperin C (2006). "Bootstrapping y evaluación del reconocimiento de entidades nombradas en el dominio biomédico". BioNLP '06 Actas del taller sobre la vinculación del procesamiento del lenguaje natural y la biología: hacia un análisis más profundo de la literatura biológica . BioNLP '06: 138–145. doi : 10.3115/1567619.1567652 .
  66. ^ Gasperin C, Karamanis N, Seal R (2007). "Anotación de relaciones anafóricas en artículos biomédicos de texto completo utilizando un esquema relevante para el dominio". Actas de DAARC 2007 : 19–24.
  67. ^ Medlock B, Briscoe T (2007). "Aprendizaje débilmente supervisado para la clasificación de setos en la literatura científica" (PDF) . Actas de la 45.ª reunión anual de la Asociación de Lingüística Computacional : 992–999.
  68. ^ Ding J, Berleant D, Nettleton D, Wurtele E (2001). "Exploración de MEDLINE: ¿resúmenes, oraciones o frases?" . En Altman RB, Dunker AK, Hunter L, Lauderdale K, Klein TE (eds.). Simposio del Pacífico sobre bioinformática 2002. World Scientific. págs. 326–337. CiteSeerX 10.1.1.385.6071 . doi :10.1142/9789812799623_0031. ISBN .  9789810247775. Número de identificación personal  11928487. {{cite book}}: |journal=ignorado ( ayuda )
  69. ^ Kim J, Ohta T, Tsuruoka Y, Tateisi Y, Collier N (2004). "Introducción a la tarea de reconocimiento de bioentidades en JNLPBA". Actas del Taller conjunto internacional sobre procesamiento del lenguaje natural en biomedicina y sus aplicaciones - JNLPBA '04 : 70. doi : 10.3115/1567594.1567610 .
  70. ^ "LLLchallenge". genome.jouy.inra.fr . Consultado el 6 de octubre de 2018 .
  71. ^ "Encabezamientos de temas médicos - Página de inicio" www.nlm.nih.gov . Consultado el 6 de octubre de 2018 .
  72. ^ Bodenreider O (enero de 2004). "El sistema de lenguaje médico unificado (UMLS): integración de la terminología biomédica". Nucleic Acids Research . 32 (número de la base de datos): D267–70. doi :10.1093/nar/gkh061. PMC 308795 . PMID  14681409. 
  73. ^ "Metathesaurus". www.nlm.nih.gov . Consultado el 7 de octubre de 2018 .
  74. ^ Johnson AE, Pollard TJ, Shen L, Lehman LW, Feng M, Ghassemi M, Moody B, Szolovits P, Celi LA, Mark RG (mayo de 2016). "MIMIC-III, una base de datos de cuidados críticos de libre acceso". Scientific Data . 3 : 160035. Bibcode :2016NatSD...360035J. doi :10.1038/sdata.2016.35. PMC 4878278 . PMID  27219127. 
  75. ^ Savova GK, Chapman WW, Zheng J, Crowley RS (2011). "Relaciones anafóricas en la narrativa clínica: creación de corpus". Revista de la Asociación Estadounidense de Informática Médica . 18 (4): 459–65. doi :10.1136/amiajnl-2011-000108. PMC 3128403 . PMID  21459927. 
  76. ^ Hersh W, Buckley C, Leone TJ, Hickam D (1994). "OHSUMED: Una evaluación de recuperación interactiva y una nueva colección de pruebas de gran tamaño para la investigación". Sigir '94 . Springer Londres. págs. 192–201. doi :10.1007/978-1-4471-2099-5_20. ISBN 9783540198895.S2CID 15094383  .
  77. ^ "Subconjunto de acceso abierto". www.ncbi.nlm.nih.gov . Consultado el 6 de octubre de 2018 .
  78. ^ Nelson SJ, Zeng K, Kilbourne J, Powell T, Moore R (2011). "Nombres normalizados para fármacos clínicos: RxNorm a los 6 años". Revista de la Asociación Estadounidense de Informática Médica . 18 (4): 441–8. doi :10.1136/amiajnl-2011-000116. PMC 3128404 . PMID  21515544. 
  79. ^ McCray AT (2003). "Una ontología de nivel superior para el dominio biomédico". Genómica comparativa y funcional . 4 (1): 80–4. doi :10.1002/cfg.255. PMC 2447396 . PMID  18629109. 
  80. ^ "La red semántica UMLS". semanticnetwork.nlm.nih.gov . Consultado el 7 de octubre de 2018 .
  81. ^ McCray AT, Srinivasan S, Browne AC (1994). "Métodos léxicos para gestionar la variación en terminologías biomédicas". Actas. Simposio sobre aplicaciones informáticas en la atención médica : 235–9. PMC 2247735. PMID  7949926 . 
  82. ^ "Las herramientas de PNL ESPECIALISTAS". lexsrv3.nlm.nih.gov . Consultado el 7 de octubre de 2018 .
  83. ^ Jimeno-Yepes AJ, McInnes BT, Aronson AR (junio de 2011). "Explotación de la indexación MeSH en MEDLINE para generar un conjunto de datos para la desambiguación del sentido de las palabras". BMC Bioinformatics . 12 (1): 223. doi : 10.1186/1471-2105-12-223 . PMC 3123611 . PMID  21635749. 
  84. ^ "Colecciones de pruebas de desambiguación del sentido de las palabras (WSD)". wsd.nlm.nih.gov . Consultado el 7 de octubre de 2018 .
  85. ^ Franzén K, Eriksson G, Olsson F, Asker L, Lidén P, Cöster J (diciembre de 2002). "Nombres de proteínas y cómo encontrarlos". Revista internacional de informática médica . 67 (1–3): 49–61. CiteSeerX 10.1.1.14.2183 . doi :10.1016/s1386-5056(02)00052-7. PMID  12460631. 
  86. ^ Mikolov T, Chen K, Corrado G, Dean J (16 de enero de 2013). "Estimación eficiente de representaciones de palabras en el espacio vectorial". arXiv : 1301.3781 [cs.CL].
  87. ^ "BioASQ publica vectores de palabras con espacio continuo obtenidos mediante la aplicación de Word2Vec a resúmenes de PubMed | bioasq.org". bioasq.org . Consultado el 7 de noviembre de 2018 .
  88. ^ "bio.nlplab.org". bio.nlplab.org . Consultado el 7 de noviembre de 2018 .
  89. ^ Asgari E, Mofrad MR (10 de noviembre de 2015). "Representación distribuida continua de secuencias biológicas para proteómica y genómica profunda". PLOS ONE . ​​10 (11): e0141287. arXiv : 1503.05140 . Bibcode :2015PLoSO..1041287A. doi : 10.1371/journal.pone.0141287 . PMC 4640716 . PMID  26555596. 
  90. ^ Banerjee I, Madhavan S, Goldman RE, Rubin DL (2017). "Incorporaciones de palabras inteligentes en informes de radiología de texto libre". Actas del Simposio Anual de la AMIA. Simposio de la AMIA . 2017 : 411–420. arXiv : 1711.06968 . Código Bibliográfico : 2017arXiv171106968B. PMC 5977573. PMID  29854105 . 
  91. ^ ab Badal VD, Kundrotas PJ, Vakser IA (diciembre de 2015). "Minería de texto para acoplamiento de proteínas". PLOS Computational Biology . 11 (12): e1004630. Bibcode :2015PLSCB..11E4630B. doi : 10.1371/journal.pcbi.1004630 . PMC 4674139 . PMID  26650466. 
  92. ^ Papanikolaou N, Pavlopoulos GA, Theodosiou T, Iliopoulos I (marzo de 2015). "Predicciones de interacción proteína-proteína mediante métodos de minería de texto". Métodos . 74 : 47–53. doi :10.1016/j.ymeth.2014.10.026. PMID  25448298.
  93. ^ Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, Santos A, Doncheva NT, Roth A, Bork P, Jensen LJ, von Mering C (enero de 2017). "La base de datos STRING en 2017: redes de asociación proteína-proteína con control de calidad, ampliamente accesibles". Nucleic Acids Research . 45 (D1): D362–D368. doi :10.1093/nar/gkw937. PMC 5210637 . PMID  27924014. 
  94. ^ ab Liem DA, Murali S, Sigdel D, Shi Y, Wang X, Shen J, Choi H, Caufield JH, Wang W, Ping P, Han J (octubre de 2018). "Minería de frases de datos textuales para analizar patrones de proteínas de la matriz extracelular en enfermedades cardiovasculares". Revista estadounidense de fisiología. Fisiología cardíaca y circulatoria . 315 (4): H910–H924. doi :10.1152/ajpheart.00175.2018. PMC 6230912. PMID  29775406 . 
  95. ^ Yu S, Tranchevent LC, De Moor B, Moreau Y (enero de 2010). "Priorización y agrupamiento de genes mediante minería de texto de múltiples vistas". BMC Bioinformatics . 11 (1): 28. doi : 10.1186/1471-2105-11-28 . PMC 3098068 . PMID  20074336. 
  96. ^ Hu, Zhang-Zhi; Mani, Inderjeet; Hermoso, Vincent; Liu, Hongfang; Wu, Cathy H. (diciembre de 2004). "iProLINK: un recurso proteínico integrado para la minería de literatura". Computational Biology and Chemistry . 28 (5–6): 409–416. doi :10.1016/j.compbiolchem.2004.09.010. PMID  15556482.
  97. ^ Kankar P, Adak S, Sarkar A, Murari K, Sharma G (11 de abril de 2002). Resumen de MedMeSH: minería de texto para grupos de genes . En Actas de la Conferencia Internacional SIAM de 2002 sobre Minería de Datos. Sociedad de Matemáticas Industriales y Aplicadas. pp. 548–565. CiteSeerX 10.1.1.215.6230 . doi :10.1137/1.9781611972726.32. ISBN .  978-0-89871-517-0.
  98. ^ Pyysalo S, Airola A, Heimonen J, Björne J, Ginter F, Salakoski T (abril de 2008). "Análisis comparativo de cinco corpus de interacción proteína-proteína". BMC Bioinformatics . 9 (Supl 3): S6. doi : 10.1186/1471-2105-9-s3-s6 . PMC 2349296 . PMID  18426551. 
  99. ^ Kim S, Kwon D, Shin SY, Wilbur WJ (febrero de 2012). "PIE the search: búsqueda de información sobre interacciones de proteínas en la literatura de PubMed". Bioinformática . 28 (4): 597–8. doi :10.1093/bioinformatics/btr702. PMC 3278758 . PMID  22199390. 
  100. ^ Gill N, Singh S, Aseri TC (junio de 2014). "Priorización computacional de genes de enfermedades: una evaluación". Journal of Computational Biology . 21 (6): 456–465. doi :10.1089/cmb.2013.0158. PMID  24665902.
  101. ^ Yu S, Van Vooren S, Tranchevent LC, De Moor B, Moreau Y (agosto de 2008). "Comparación de vocabularios, representaciones y algoritmos de clasificación para la priorización de genes mediante minería de texto". Bioinformática . 24 (16): i119–25. doi : 10.1093/bioinformatics/btn291 . PMID  18689812.
  102. ^ Hulsegge I, Woelders H, Smits M, Schokker D, Jiang L, Sørensen P (mayo de 2013). "Priorización de genes candidatos para rasgos reproductivos del ganado, en función de interacciones proteína-proteína, expresión génica y minería de texto". Genómica fisiológica . 45 (10): 400–6. doi :10.1152/physiolgenomics.00172.2012. PMID  23572538.
  103. ^ Tao F, Zhuang H, Yu CW, Wang Q, Cassidy T, Kaplan LR, Voss CR, Han J (2016). "Resumen multidimensional basado en frases en cubos de texto" (PDF) . IEEE Data Eng. Bull . 39 (3): 74–84.
  104. ^ Thomas P, Starlinger J, Vowinkel A, Arzt S, Leser U (julio de 2012). "GeneView: un motor de búsqueda semántico completo para PubMed". Nucleic Acids Research . 40 (edición del servidor web): W585–91. doi :10.1093/nar/gks563. PMC 3394277 . PMID  22693219. 
  105. ^ Brown P, Zhou Y (septiembre de 2017). "Literatura biomédica: se buscan evaluadores para la herramienta de búsqueda de artículos". Nature . 549 (7670): 31. Bibcode :2017Natur.549...31B. doi : 10.1038/549031c . PMID  28880292.
  106. ^ Ohno-Machado L, Sansone SA, Alter G, Fore I, Grethe J, Xu H, Gonzalez-Beltran A, Rocca-Serra P, Gururaj AE, Bell E, Soysal E, Zong N, Kim HE (mayo de 2017). "Encontrar datos útiles en múltiples repositorios de datos biomédicos utilizando DataMed". Nature Genetics . 49 (6): 816–819. doi :10.1038/ng.3864. PMC 6460922 . PMID  28546571. 
  107. ^ Perez-Riverol Y, Bai M, da Veiga Leprevost F, Squizzato S, Park YM, Haug K, et al. (mayo de 2017). "Descubrimiento y vinculación de conjuntos de datos ómicos públicos mediante el índice de descubrimiento ómico". Nature Biotechnology . 35 (5): 406–409. doi :10.1038/nbt.3790. PMC 5831141 . PMID  28486464. 
  108. ^ Ide NC, Loane RF, Demner-Fushman D (1 de mayo de 2007). "Essie: un motor de búsqueda basado en conceptos para texto biomédico estructurado". Revista de la Asociación Estadounidense de Informática Médica . 14 (3): 253–63. doi :10.1197/jamia.m2233. PMC 2244877 . PMID  17329729. 
  109. ^ Lee HJ, Dang TC, Lee H, Park JC (julio de 2014). "OncoSearch: motor de búsqueda de genes del cáncer con evidencia bibliográfica". Nucleic Acids Research . 42 (número del servidor web): W416–21. doi :10.1093/nar/gku368. PMC 4086113 . PMID  24813447. 
  110. ^ Jenssen TK, Laegreid A, Komorowski J, Hovig E (mayo de 2001). "Una red bibliográfica de genes humanos para el análisis de alto rendimiento de la expresión génica". Nature Genetics . 28 (1): 21–8. doi :10.1038/ng0501-21. PMID  11326270. S2CID  8889284.
  111. ^ Masys DR (mayo de 2001). "Vinculación de los datos de microarrays con la literatura". Nature Genetics . 28 (1): 9–10. doi :10.1038/ng0501-9. PMID  11326264. S2CID  52848745.
  112. ^ Doms A, Schroeder M (julio de 2005). "GoPubMed: explorando PubMed con la ontología genética". Nucleic Acids Research . 33 (edición del servidor web): W783–6. doi :10.1093/nar/gki470. PMC 1160231 . PMID  15980585. 
  113. ^ Turchin A, Florez Builes LF (mayo de 2021). "Uso del procesamiento del lenguaje natural para medir y mejorar la calidad de la atención de la diabetes: una revisión sistemática". Revista de ciencia y tecnología de la diabetes . 15 (3): 553–560. doi :10.1177/19322968211000831. PMC 8120048 . PMID  33736486. 
  114. ^ Wang Y, Wang L, Rastegar-Mojarad M, Moon S, Shen F, Afzal N, et al. (enero de 2018). "Aplicaciones de extracción de información clínica: una revisión de la literatura". Revista de informática biomédica . 77 : 34–49. doi :10.1016/j.jbi.2017.11.011. PMC 5771858 . PMID  29162496. 
  115. ^ Friedman C (1997). "Hacia un sistema integral de procesamiento del lenguaje médico: métodos y problemas". Actas : 595–599. PMC 2233560 . PMID  9357695. 
  116. ^ Savova GK, Masanz JJ, Ogren PV, Zheng J, Sohn S, Kipper-Schuler KC, Chute CG (2010). "Sistema de análisis de texto y extracción de conocimiento clínico de Mayo (cTAKES): arquitectura, evaluación de componentes y aplicaciones". Revista de la Asociación Estadounidense de Informática Médica . 17 (5): 507–513. doi :10.1136/jamia.2009.001560. PMC 2995668 . PMID  20819853. 
  117. ^ Soysal E, Wang J, Jiang M, Wu Y, Pakhomov S, Liu H, Xu H (marzo de 2018). "CLAMP: un conjunto de herramientas para crear de manera eficiente canales de procesamiento de lenguaje natural clínicos personalizados". Revista de la Asociación Estadounidense de Informática Médica . 25 (3): 331–336. doi : 10.1093/jamia/ocx132 . PMC 7378877 . PMID  29186491. 
  118. ^ Fries J, Wu S, Ratner A, Ré C (20 de abril de 2017). "SwellShark: un modelo generativo para el reconocimiento de entidades biomédicas sin datos etiquetados". arXiv : 1704.06360 [cs.CL].
  119. ^ Ye Z, Tafti AP, He KY, Wang K, He MM (29 de septiembre de 2016). "SparkText: Minería de textos biomédicos en un marco de big data". PLOS ONE . ​​11 (9): e0162721. Código Bibliográfico :2016PLoSO..1162721Y. doi : 10.1371/journal.pone.0162721 . PMC 5042555 . PMID  27685652. 
  120. ^ Tseytlin E, Mitchell K, Legowski E, Corrigan J, Chavan G, Jacobson RS (enero de 2016). "NOBLE - Reconocimiento de conceptos flexible para el procesamiento del lenguaje natural biomédico a gran escala". BMC Bioinformatics . 17 (1): 32. doi : 10.1186/s12859-015-0871-y . PMC 4712516 . PMID  26763894. 
  121. ^ "BioNLP - Antología ACL". aclanthology.coli.uni-saarland.de . Consultado el 17 de octubre de 2018 .
  122. ^ "Actas de la ISMB". www.iscb.org . Consultado el 18 de octubre de 2018 .
  123. ^ https://ieeexplore.ieee.org/xpl/conhome/1001586/all-proceedings [ URL básica ]
  124. ^ "dblp: CIKM". dblp.uni-trier.de . Consultado el 17 de octubre de 2018 .
  125. ^ "Procedimientos de la PSB". psb.stanford.edu . Consultado el 18 de octubre de 2018 .
  126. ^ "dblp: Aplicaciones prácticas de la biología computacional y la bioinformática". dblp.org . Consultado el 17 de octubre de 2018 .
  127. ^ "Actas de la Conferencia de recuperación de texto (TREC)". trec.nist.gov . Consultado el 17 de octubre de 2018 .

Lectura adicional

  • Krallinger M, Valencia A (2005). "Servicios de minería de texto y recuperación de información para biología molecular". Genome Biology . 6 (7): 224. doi : 10.1186/gb-2005-6-7-224 . PMC  1175978 . PMID  15998455.
  • Hoffmann R, Krallinger M, Andres E, Tamames J, Blaschke C, Valencia A (mayo de 2005). "Minería de texto para vías metabólicas, cascadas de señalización y redes de proteínas". Science's STKE . 2005 (283): pe21. doi :10.1126/stke.2832005pe21. PMID  15886388. S2CID  15301069.
  • Krallinger M, Erhardt RA, Valencia A (marzo de 2005). "Enfoques de minería de texto en biología molecular y biomedicina". Drug Discovery Today . 10 (6): 439–45. doi :10.1016/S1359-6446(05)03376-3. PMID  15808823.
  • Publicaciones de minería de textos biomédicos (BLIMP) Archivado el 29 de agosto de 2004 en Wayback Machine : Un índice completo y actualizado periódicamente de publicaciones sobre minería de textos (bio)médicos
  • Colección de bases de datos de recursos, sistemas y aplicaciones de Bio-NLP
  • Archivos de listas de correo de BioNLP
  • Corpora para minería de textos biomédicos
  • Evaluaciones de BioCreative sobre tecnologías de minería de textos biomédicos
  • Directorio de personas involucradas en BioNLP
Obtenido de "https://es.wikipedia.org/w/index.php?title=Minería_de_textos_biomédicos&oldid=1244383431"