Sistema unificado de lenguaje médico

Compendio en línea de bioinformática y herramientas de software relacionadas

El Sistema de Lenguaje Médico Unificado ( UMLS ) es un compendio de muchos vocabularios controlados en las ciencias biomédicas (creado en 1986). ^[1] Proporciona una estructura de mapeo entre estos vocabularios y, por lo tanto, permite traducir entre los diversos sistemas de terminología; también puede verse como un tesauro y una ontología integrales de conceptos biomédicos. UMLS también proporciona facilidades para el procesamiento del lenguaje natural . Está destinado a ser utilizado principalmente por desarrolladores de sistemas en informática médica .

UMLS consta de fuentes de conocimiento (bases de datos) y un conjunto de herramientas de software.

El UMLS fue diseñado y mantenido por la Biblioteca Nacional de Medicina de los Estados Unidos , se actualiza trimestralmente y se puede utilizar de forma gratuita. El proyecto fue iniciado en 1986 por Donald AB Lindberg , MD , entonces Director de la Biblioteca de Medicina, y dirigido por Betsy Humphreys . ^[2]

Propósito y aplicaciones

La cantidad de recursos biomédicos disponibles para los investigadores es enorme. A menudo esto es un problema debido al gran volumen de documentos que se recuperan cuando se busca en la literatura médica. El propósito del UMLS es mejorar el acceso a esta literatura facilitando el desarrollo de sistemas informáticos que comprendan el lenguaje biomédico. Esto se logra superando dos barreras importantes: "la variedad de formas en que se expresan los mismos conceptos en diferentes fuentes legibles por máquinas y por diferentes personas" y "la distribución de información útil entre muchas bases de datos y sistemas dispares". ^{[ cita requerida ]}

Licencias

Los usuarios del sistema deben firmar un "acuerdo UMLS" y presentar breves informes anuales de uso. Los usuarios académicos pueden utilizar el UMLS de forma gratuita para fines de investigación. El uso comercial o de producción requiere licencias de derechos de autor para algunos de los vocabularios fuente incorporados.

Fuentes de conocimiento

Metatesauro

El Metatesauro constituye la base del UMLS y comprende más de 1 millón de conceptos biomédicos y 5 millones de nombres de conceptos, todos ellos derivados de más de 100 vocabularios controlados y sistemas de clasificación incorporados. Algunos ejemplos de los vocabularios controlados incorporados son CPT , ICD-10 , MeSH , SNOMED CT , DSM-IV , LOINC , WHO Adverse Drug Reaction Terminology, UK Clinical Terms, RxNorm , Gene Ontology y OMIM (consulte la lista completa).

El Metatesauro está organizado por concepto, y cada concepto tiene atributos específicos que definen su significado y está vinculado a los nombres de concepto correspondientes en los diversos vocabularios de origen. Se representan numerosas relaciones entre los conceptos, por ejemplo, las jerárquicas como " isa " para subclases y "es parte de" para subunidades, y las asociativas como "es causado por" o "en la literatura a menudo ocurre cerca de" (esta última derivada de Medline ).

El alcance del Metatesauro está determinado por el alcance de los vocabularios de origen. Si distintos vocabularios utilizan nombres diferentes para el mismo concepto, o si utilizan el mismo nombre para distintos conceptos, esto se representará fielmente en el Metatesauro. Toda la información jerárquica de los vocabularios de origen se conserva en el Metatesauro. Los conceptos del Metatesauro también pueden vincularse a recursos fuera de la base de datos, por ejemplo, bases de datos de secuencias genéticas.

Red semántica

A cada concepto del Metatesauro se le asignan uno o más tipos semánticos (categorías), que están vinculados entre sí a través de relaciones semánticas . ^[3] La red semántica es un catálogo de estos tipos y relaciones semánticas. Se trata de una clasificación bastante amplia; hay 127 tipos semánticos y 54 relaciones en total.

Los principales tipos semánticos son organismos, estructuras anatómicas, funciones biológicas, sustancias químicas, eventos, objetos físicos y conceptos o ideas. Los vínculos entre los tipos semánticos definen la estructura de la red y muestran relaciones importantes entre las agrupaciones y los conceptos. El vínculo principal entre los tipos semánticos es el vínculo " isa ", que establece una jerarquía de tipos. La red también tiene 5 categorías principales de relaciones no jerárquicas (o asociativas), que constituyen los 53 tipos de relaciones restantes. Estas son "físicamente relacionadas con", "espacialmente relacionadas con", "temporalmente relacionadas con", "funcionalmente relacionadas con" y "conceptualmente relacionadas con". ^[3]

La información sobre un tipo semántico incluye un identificador, una definición, ejemplos, información jerárquica sobre el tipo o tipos semánticos que lo abarcan y relaciones asociativas . Las relaciones asociativas dentro de la red semántica son muy débiles. Captan, como máximo, relaciones de algún tipo, es decir, captan el hecho de que alguna instancia del primer tipo puede estar conectada por la relación saliente con alguna instancia del segundo tipo. Dicho de otro modo, captan el hecho de que una afirmación relacional correspondiente es significativa (aunque no necesariamente sea verdadera en todos los casos).

Un ejemplo de una relación asociativa es " puede-causar ", que aplicado a los términos (fumar, cáncer de pulmón) daría como resultado: fumar " puede-causar " cáncer de pulmón.

Léxico ESPECIALISTA

El léxico SPECIALIST contiene información sobre vocabulario común en inglés, términos biomédicos, términos encontrados en MEDLINE y términos encontrados en el metatesauro UMLS. Cada entrada contiene información sintáctica (cómo se unen las palabras para crear significado), morfológica (forma y estructura) y ortográfica (ortografía). Un conjunto de programas Java utiliza el léxico para analizar las variaciones en los textos biomédicos al relacionar las palabras por sus partes gramaticales, lo que puede ser útil en búsquedas web o búsquedas a través de un registro médico electrónico .

Las entradas pueden ser términos de una o varias palabras. Los registros contienen cuatro partes: forma base (es decir, "run" en lugar de "running"); partes del discurso (de las cuales Specialist reconoce once); un identificador único; y cualquier variante ortográfica disponible. Por ejemplo, una consulta para "anesthetic" devolvería lo siguiente: ^[4]

{ base=anestésico variante_ortográfica=anestésico entrada=E0008769 gato=sustantivo variantes=reg}{ base=anestésico variante_ortográfica=anestésico entrada=E0008770 gato=adj variantes=inv posición=atributo(3)}

El léxico SPECIALIST está disponible en dos formatos. El formato de "registro de unidad" se puede ver arriba y comprende espacios y rellenos . Un espacio es el elemento (es decir, "base=" o "variante ortográfica=") y los rellenos son los valores atribuibles a ese espacio para esa entrada. El formato de " tabla relacional " aún no está normalizado y contiene una gran cantidad de datos redundantes en los archivos.

Inconsistencias y otros errores

Dado el tamaño y la complejidad del UMLS y su política permisiva sobre la integración de términos, los errores son inevitables. ^[5] Los errores incluyen ambigüedad y redundancia, ciclos de relación jerárquica (un concepto es a la vez ancestro y descendiente de otro), ancestros faltantes (los tipos semánticos de los conceptos padre e hijo no están relacionados) e inversión semántica (la relación hijo/padre con los tipos semánticos no es consistente con los conceptos). ^[6]

Estos errores se descubren y resuelven mediante la auditoría del UMLS. Las auditorías manuales pueden consumir mucho tiempo y resultar costosas. Los investigadores han intentado abordar el problema de varias maneras. Se pueden utilizar herramientas automatizadas para buscar estos errores. Para las inconsistencias estructurales (como los bucles), funcionaría una solución trivial basada en el orden. Sin embargo, no se aplicaría lo mismo cuando la inconsistencia se encuentra a nivel de término o concepto (significado específico del contexto de un término). ^[7] Esto requiere el uso de una estrategia de búsqueda informada ( representación del conocimiento ).

Herramientas de software de apoyo

Además de las fuentes de conocimiento, la Biblioteca Nacional de Medicina también proporciona herramientas de apoyo.

MetamorphoSys : personaliza el Metathesaurus para aplicaciones específicas, por ejemplo, excluyendo ciertos vocabularios de origen.
lvg - un programa que utiliza el léxico SPECIALIST para generar variantes léxicas de un término determinado y para apoyar el análisis de texto en lenguaje natural.
MetaMap es una herramienta en línea que, cuando se le da un fragmento de texto arbitrario, encuentra y devuelve los conceptos relevantes del Metatesauro.
Transferencia MetaMap (MMTx) : implementación Java de MetaMap (ya no es compatible).
Servidor de fuentes de conocimiento : acceso a vocabularios basado en la Web (retirado en otoño de 2010).^[8]

Software de terceros

UMLS-Similarity, un paquete de software de código abierto que implementa muchas medidas de similitud y relación semántica.
Interfaz web UMLS-Similarity, una interfaz web para UMLS-Similarity

Véase también

Referencias

^ Sistema Unificado de Lenguaje Médico, 1996
^ Ellison D, Humphreys BL, Mitchell J (julio de 2010). "Presentación del premio Morris F Collen 2009 a Betsy L Humphreys, con comentarios de la ganadora". Revista de la Asociación Estadounidense de Informática Médica . 17 (4): 481–5. doi :10.1136/jamia.2010.005728. PMC 2995660 . PMID 20595319.
^ ab Biblioteca Nacional de Medicina (2009). "Capítulo 5 - Redes semánticas". Manual de referencia de UMLS . Bethesda, MD: Biblioteca Nacional de Medicina de EE. UU., Institutos Nacionales de Salud.
^ Browne AC, McCray AT, Srinivasan S (junio de 2000). The Specialist Lexicon (PDF) . Bethesda, MD: Lister Hill National Center for Biomedical Communications, Biblioteca Nacional de Medicina. pág. 1.
^ Morrey CP, Geller J, Halper M, Perl Y (junio de 2009). "La herramienta de auditoría de vecindarios: una interfaz híbrida para auditar el UMLS". Journal of Biomedical Informatics . 42 (3): 468–89. doi :10.1016/j.jbi.2009.01.006. PMC 2891659 . PMID 19475725.
^ Geller J, Morrey CP, Xu J, Halper M, Elhanan G, Perl Y, Hripcsak G (noviembre de 2009). "Comparación de configuraciones de relaciones inconsistentes que indican errores UMLS". Actas del Simposio Anual de la AMIA. Simposio de la AMIA . 2009 : 193–7. PMC 2815406. PMID 20351848 .
^ Zhu X, Fan JW, Baorto DM, Weng C, Cimino JJ (junio de 2009). "Una revisión de los métodos de auditoría aplicados al contenido de terminologías biomédicas controladas". Journal of Biomedical Informatics . 42 (3): 413–25. doi :10.1016/j.jbi.2009.03.003. PMC 3505841 . PMID 19285571.
^ "Noticias del Sistema de lenguaje médico unificado® (UMLS®): Acuerdo de licencia revisado, nuevos servicios y navegador de terminología UMLS, UMLSKS discontinuado y cambios en la API". Boletín técnico de la NLM (375): e9. Julio-agosto de 2010.

Lectura adicional

Bodenreider O (enero de 2004). "El sistema de lenguaje médico unificado (UMLS): integración de la terminología biomédica". Nucleic Acids Research . 32 (número de la base de datos): D267-70. doi :10.1093/nar/gkh061. PMC 308795 . PMID 14681409.
Kumar A, Smith B (2003). "El sistema de lenguaje médico unificado y la ontología genética: algunas reflexiones críticas" (PDF) . Avances en inteligencia artificial (Lecture Notes in Artificial Intelligence 2821 ). Berlín: Springer. pp. 135–148.
Smith B, Kumar A, Schulze-Kremer S (2004). "Revisión de la red semántica UMLS" (PDF) . En Fieschi M, et al. (eds.). Medinfo . Ámsterdam: IOS Press. pág. 1700.
Coiera E (2003). "Capítulo 17 - Terminologías y sistemas de clasificación de la atención sanitaria". Guía de informática sanitaria (2.ª ed.). Modder, Arnold. ISBN 978-0-340-76425-1.
Mougin F, Bodenreider O (2005). "Enfoques para eliminar ciclos en el metatesauro UMLS: ingenuo vs. formal". Actas del Simposio Anual de la AMIA . 2005 : 550–4. PMC 1560864. PMID 16779100 .

Enlaces externos

Sitio web oficial
Descripción resumida de UMLS, con enlaces a hojas informativas y documentación para Metathesaurus, Semantic Network, SPECIALIST Lexicon y MetamorphoSys
Descripción general y tutorial de UMLS, por Rachel Kleinsorge, Jan Willis, Allen Browne y Alan Aronson
Un módulo Perl para consultar una instalación MySQL UMLS
Sistema de lenguaje médico unificado en la Biblioteca Nacional de Medicina de EE. UU. Encabezamientos de materias médicas (MeSH)
UMLS.me: extrae conceptos y códigos médicos UMLS del texto libre en el navegador, por Alexander Scarlat MD.

[1] Sistema Unificado de Lenguaje Médico, 1996

[2] Ellison D, Humphreys BL, Mitchell J (julio de 2010). "Presentación del premio Morris F Collen 2009 a Betsy L Humphreys, con comentarios de la ganadora". Revista de la Asociación Estadounidense de Informática Médica . 17 (4): 481–5. doi :10.1136/jamia.2010.005728. PMC 2995660 . PMID 20595319.

[UMLSRM2009Ch5-3] Biblioteca Nacional de Medicina (2009). "Capítulo 5 - Redes semánticas". Manual de referencia de UMLS . Bethesda, MD: Biblioteca Nacional de Medicina de EE. UU., Institutos Nacionales de Salud.

[4] Browne AC, McCray AT, Srinivasan S (junio de 2000). The Specialist Lexicon (PDF) . Bethesda, MD: Lister Hill National Center for Biomedical Communications, Biblioteca Nacional de Medicina. pág. 1.

[MorreyEtAl2009-5] Morrey CP, Geller J, Halper M, Perl Y (junio de 2009). "La herramienta de auditoría de vecindarios: una interfaz híbrida para auditar el UMLS". Journal of Biomedical Informatics . 42 (3): 468–89. doi :10.1016/j.jbi.2009.01.006. PMC 2891659 . PMID 19475725.

[6] Geller J, Morrey CP, Xu J, Halper M, Elhanan G, Perl Y, Hripcsak G (noviembre de 2009). "Comparación de configuraciones de relaciones inconsistentes que indican errores UMLS". Actas del Simposio Anual de la AMIA. Simposio de la AMIA . 2009 : 193–7. PMC 2815406. PMID 20351848 .

[7] Zhu X, Fan JW, Baorto DM, Weng C, Cimino JJ (junio de 2009). "Una revisión de los métodos de auditoría aplicados al contenido de terminologías biomédicas controladas". Journal of Biomedical Informatics . 42 (3): 413–25. doi :10.1016/j.jbi.2009.03.003. PMC 3505841 . PMID 19285571.

[8] "Noticias del Sistema de lenguaje médico unificado® (UMLS®): Acuerdo de licencia revisado, nuevos servicios y navegador de terminología UMLS, UMLSKS discontinuado y cambios en la API". Boletín técnico de la NLM (375): e9. Julio-agosto de 2010.