Vocabulario controlado

Método de organización del conocimiento

Los vocabularios controlados proporcionan una forma de organizar el conocimiento para su posterior recuperación. Se utilizan en esquemas de indización de materias , encabezamientos de materias , tesauros , ^[1]^[2] taxonomías y otros sistemas de organización del conocimiento . Los esquemas de vocabulario controlado exigen el uso de términos predefinidos y preferidos que han sido preseleccionados por los diseñadores de los esquemas, a diferencia de los vocabularios de lenguaje natural , que no tienen tal restricción. ^[3]

En biblioteconomía y documentación

En biblioteconomía y documentación , el vocabulario controlado es una lista cuidadosamente seleccionada de palabras y frases que se utilizan para etiquetar unidades de información (documento u obra) de modo que se puedan recuperar más fácilmente mediante una búsqueda. ^[4]^[5] Los vocabularios controlados resuelven los problemas de homógrafos , sinónimos y polisemas mediante una biyección entre conceptos y términos preferidos. En resumen, los vocabularios controlados reducen la ambigüedad no deseada inherente a los lenguajes humanos normales donde el mismo concepto puede recibir diferentes nombres y garantizan la coherencia. ^[3]

Por ejemplo, en los encabezamientos de materia de la Biblioteca del Congreso ^[6] (un sistema de encabezamientos de materia que utiliza un vocabulario controlado), los términos preferidos (encabezamientos de materia en este caso) tienen que elegirse para manejar opciones entre variantes ortográficas de la misma palabra (estadounidense versus británica), opciones entre términos científicos y populares ( cucaracha versus Periplaneta americana ) y opciones entre sinónimos ( automóvil versus coche ), entre otras cuestiones difíciles.

La elección de los términos preferidos se basa en los principios de garantía del usuario (qué términos es probable que utilicen los usuarios), garantía literaria (qué términos se utilizan generalmente en la literatura y los documentos) y garantía estructural (términos elegidos teniendo en cuenta la estructura y el alcance del vocabulario controlado).

Los vocabularios controlados también suelen abordar el problema de los homógrafos con calificadores. Por ejemplo, el término pool debe calificarse para referirse a la piscina o al juego pool para garantizar que cada término o encabezamiento preferido se refiera a un solo concepto. ^[7]

Tipos utilizados en bibliotecas

Existen dos tipos principales de herramientas de vocabulario controlado que se utilizan en las bibliotecas: los encabezamientos de materia y los tesauros . Si bien las diferencias entre ambos están disminuyendo, aún existen algunas diferencias menores.

Históricamente, los encabezamientos de materia fueron diseñados para describir libros en catálogos de bibliotecas por parte de los catalogadores, mientras que los tesauros fueron utilizados por los indexadores para aplicar términos de índice a documentos y artículos.
Los encabezamientos de tema tienden a tener un alcance más amplio y describen libros completos, mientras que los tesauros tienden a ser más especializados y abarcan disciplinas muy específicas.
Debido al sistema de catálogo de tarjetas, los encabezamientos de materia tienden a tener términos que están en orden indirecto (aunque con el auge de los sistemas automatizados esto se está eliminando), mientras que los términos del tesauro siempre están en orden directo.
Los encabezamientos de materia tienden a utilizar más precoordinación de términos, de modo que el diseñador del vocabulario controlado combinará varios conceptos para formar un encabezamiento de materia preferido (por ejemplo, niños y terrorismo), mientras que los tesauros tienden a utilizar términos directos singulares. Los tesauros enumeran no solo términos equivalentes, sino también términos más específicos, más amplios y términos relacionados entre varios términos preferidos y no preferidos (pero potencialmente sinónimos), mientras que históricamente la mayoría de los encabezamientos de materia no lo hacían. Por ejemplo, el encabezamiento de materia de la Biblioteca del Congreso en sí no tenía mucha estructura sindética hasta 1943, y no fue hasta 1985 cuando comenzó a adoptar el término tipo tesauro " término más amplio " y " término específico ".

Los términos son seleccionados y organizados por profesionales capacitados (incluidos bibliotecarios y científicos de la información) que poseen experiencia en el área temática. Los términos de vocabulario controlado pueden describir con precisión de qué trata realmente un documento determinado, incluso si los términos en sí no aparecen dentro del texto del documento. Los sistemas de encabezamientos de materia conocidos incluyen el sistema de la Biblioteca del Congreso , Medical Subject Headings (MeSH) creado por la Biblioteca Nacional de Medicina de los Estados Unidos y Sears . Los tesauros conocidos incluyen el Tesauro de Arte y Arquitectura y el Tesauro ERIC .

Al seleccionar términos para un vocabulario controlado, el diseñador debe considerar la especificidad del término elegido, si se utilizará la entrada directa, la consistencia interna y la estabilidad del lenguaje.

Por último, la cantidad de precoordinación (en cuyo caso el grado de enumeración frente a la síntesis se convierte en un problema) y poscoordinación en el sistema es otro tema importante. Los elementos de vocabulario controlado (términos/frases) empleados como etiquetas , para ayudar en el proceso de identificación de contenido de documentos u otras entidades del sistema de información (por ejemplo, DBMS, servicios web) se califican como metadatos .

Lenguajes de indexación

Hay tres tipos principales de lenguajes de indexación.

Lenguaje de indexación controlado: el indexador solo puede utilizar términos aprobados para describir el documento.
Lenguaje de indexación en lenguaje natural : cualquier término del documento en cuestión se puede utilizar para describir el documento.
Lenguaje de indexación libre: se puede utilizar cualquier término (no solo del documento) para describir el documento

Al indexar un documento, el indexador también debe elegir el nivel de exhaustividad de indexación, es decir, el nivel de detalle con el que se describe el documento. Por ejemplo, si se utiliza una exhaustividad de indexación baja, no se describirán aspectos menores de la obra con términos de indexación. En general, cuanto mayor sea la exhaustividad de indexación, más términos se indexarán para cada documento.

En los últimos años se ha popularizado la búsqueda de texto libre como medio de acceso a documentos. Esto implica el uso de la indexación en lenguaje natural con una indexación exhaustivamente ajustada al máximo (se indexa cada palabra del texto ). Estos métodos se han comparado en algunos estudios, como el artículo de 2007, "A Comparative Evaluation of Full-text, Concept-based, and Context-sensitive Search" ^{[8] .}

Ventajas

A menudo se afirma que los vocabularios controlados mejoran la precisión de la búsqueda de texto libre, por ejemplo, para reducir los elementos irrelevantes en la lista de recuperación. Estos elementos irrelevantes ( falsos positivos ) a menudo son causados por la ambigüedad inherente del lenguaje natural . Tomemos como ejemplo la palabra inglesa football . Football es el nombre que se le da a varios deportes de equipo diferentes . En todo el mundo, el más popular de estos deportes de equipo es el fútbol asociación , que también se llama soccer en varios países. La palabra football también se aplica al rugby football ( rugby union y rugby league ), al fútbol americano , al fútbol australiano , al fútbol gaélico y al fútbol canadiense . Por lo tanto, una búsqueda de football recuperará documentos que tratan sobre varios deportes completamente diferentes. El vocabulario controlado resuelve este problema etiquetando los documentos de tal manera que se eliminan las ambigüedades.

En comparación con la búsqueda de texto libre, el uso de un vocabulario controlado puede aumentar drásticamente el rendimiento de un sistema de recuperación de información, si el rendimiento se mide por la precisión (el porcentaje de documentos en la lista de recuperación que son realmente relevantes para el tema de búsqueda).

En algunos casos, el vocabulario controlado también puede mejorar el recuerdo, porque a diferencia de los esquemas de lenguaje natural, una vez que se busca el término preferido correcto, no hay necesidad de buscar otros términos que puedan ser sinónimos de ese término.

Problemas

Una búsqueda de vocabulario controlada puede dar lugar a una recuperación insatisfactoria , ya que no podrá recuperar algunos documentos que realmente sean relevantes para la pregunta de búsqueda.

Esto es particularmente problemático cuando la pregunta de búsqueda incluye términos que son lo suficientemente tangenciales al área temática como para que el indexador haya decidido etiquetarla con un término diferente (pero el buscador podría considerar el mismo). Básicamente, esto sólo puede evitarlo un usuario experimentado de vocabulario controlado cuya comprensión del vocabulario coincida con la del indexador.

Otra posibilidad es que el artículo simplemente no esté etiquetado por el indexador porque la exhaustividad de la indexación es baja. Por ejemplo, un artículo podría mencionar el fútbol como tema secundario y el indexador podría decidir no etiquetarlo con "fútbol" porque no es lo suficientemente importante en comparación con el tema principal. Pero resulta que para el buscador ese artículo es relevante y, por lo tanto, la recuperación falla. Una búsqueda de texto libre detectaría automáticamente ese artículo de todos modos.

Por otro lado, las búsquedas de texto libre tienen una alta exhaustividad (se busca cada palabra), por lo que, aunque tienen una precisión mucho menor, tienen potencial para una alta recuperación siempre que el buscador supere el problema de los sinónimos ingresando cada combinación.

Los vocabularios controlados pueden quedar obsoletos rápidamente en campos de conocimiento en rápido desarrollo, a menos que los términos preferidos se actualicen con regularidad. Incluso en un escenario ideal, un vocabulario controlado suele ser menos específico que las palabras del propio texto. Los indexadores que intentan elegir los términos de indexación adecuados pueden malinterpretar al autor, mientras que este problema preciso no es un factor en un texto libre, ya que se utilizan las propias palabras del autor.

El uso de vocabularios controlados puede resultar costoso en comparación con las búsquedas de texto libre, ya que se necesitan expertos humanos o sistemas automatizados costosos para indexar cada entrada. Además, el usuario debe estar familiarizado con el esquema de vocabulario controlado para aprovechar al máximo el sistema. Pero, como ya se mencionó, el control de sinónimos y homógrafos puede ayudar a aumentar la precisión.

Se han desarrollado numerosas metodologías para ayudar en la creación de vocabularios controlados, incluida la clasificación por facetas , que permite describir un determinado registro de datos o documento de múltiples maneras.

La elección de palabras en los vocabularios elegidos no es neutral, y el indizador debe considerar cuidadosamente la ética de sus elecciones de palabras. Por ejemplo, los términos tradicionalmente colonialistas han sido a menudo los términos preferidos en los vocabularios elegidos cuando se discuten cuestiones de las Primeras Naciones, lo que ha causado controversia. ^[9]

Aplicaciones

Los vocabularios controlados, como los encabezamientos de materia de la Biblioteca del Congreso , son un componente esencial de la bibliografía , el estudio y la clasificación de libros. Inicialmente se desarrollaron en bibliotecología y ciencias de la información . En la década de 1950, las agencias gubernamentales comenzaron a desarrollar vocabularios controlados para la creciente literatura de revistas en campos especializados; un ejemplo son los encabezamientos de materia médica (MeSH) desarrollados por la Biblioteca Nacional de Medicina de EE. UU . Posteriormente, surgieron empresas con fines de lucro (llamadas servicios de indexación y resúmenes) para indexar la literatura de rápido crecimiento en todos los campos del conocimiento. En la década de 1960, se desarrolló una industria de bases de datos bibliográficas en línea basada en redes X.25 de acceso telefónico . Estos servicios rara vez se pusieron a disposición del público porque eran difíciles de usar; bibliotecarios especializados llamados intermediarios de búsqueda se encargaron del trabajo de búsqueda. En la década de 1980, aparecieron las primeras bases de datos de texto completo ; estas bases de datos contienen el texto completo de los artículos del índice, así como la información bibliográfica. Las bases de datos bibliográficas en línea han migrado a Internet y ahora están disponibles para el público; sin embargo, la mayoría son de propiedad privada y su uso puede resultar costoso. Los estudiantes matriculados en colegios y universidades pueden tener acceso a algunos de estos servicios sin cargo; algunos de estos servicios pueden estar disponibles sin cargo en una biblioteca pública.

Comunicación técnica

En las grandes organizaciones, se pueden introducir vocabularios controlados para mejorar la comunicación técnica . El uso de vocabulario controlado garantiza que todos utilicen la misma palabra para referirse a lo mismo. Esta coherencia de términos es uno de los conceptos más importantes en la redacción técnica y la gestión del conocimiento , donde se hace un esfuerzo para utilizar la misma palabra en todo un documento u organización en lugar de otras ligeramente diferentes para referirse a lo mismo.

Web semántica y datos estructurados

La búsqueda en la Web podría mejorarse drásticamente con el desarrollo de un vocabulario controlado para describir páginas Web; el uso de dicho vocabulario podría culminar en una Web Semántica , en la que el contenido de las páginas Web se describa utilizando un esquema de metadatos legible por máquina . Una de las primeras propuestas para un esquema de este tipo es la Iniciativa Dublin Core . Un ejemplo de un vocabulario controlado que se puede utilizar para indexar páginas Web es PSH .

Es poco probable que un único esquema de metadatos logre describir el contenido de toda la Web. ^[10] Para crear una Web Semántica, puede ser necesario recurrir a dos o más sistemas de metadatos para describir el contenido de una página Web. El lenguaje de metadatos facetados intercambiables (XFML) está diseñado para permitir que los creadores de vocabularios controlados publiquen y compartan sistemas de metadatos. XFML está diseñado sobre principios de clasificación facetada . ^[11]^{[ se necesita una fuente no primaria ]}

Los vocabularios controlados de la Web Semántica definen los conceptos y relaciones (términos) utilizados para describir un campo de interés o área de preocupación. Por ejemplo, para declarar una persona en un formato legible por máquina, se necesita un vocabulario que tenga la definición formal de "Persona", como el vocabulario Amigo de un Amigo ( FOAF ), que tiene una clase Persona que define propiedades típicas de una persona que incluyen, entre otras, nombre, prefijo honorífico, afiliación, dirección de correo electrónico y página de inicio, o el vocabulario Persona de Schema.org . ^[12] De manera similar, un libro se puede describir utilizando el vocabulario Libro de Schema.org ^[13] y términos generales de publicación del vocabulario Dublin Core , ^[14] un evento con el vocabulario Evento de Schema.org , ^[15] y así sucesivamente.

Para utilizar términos legibles por máquina de cualquier vocabulario controlado, los diseñadores web pueden elegir entre una variedad de formatos de anotación, incluidos RDFa, HTML5 Microdata o JSON-LD en el marcado, o serializaciones RDF (RDF/XML, Turtle, N3, TriG, TriX) en archivos externos.

Véase también

Control de autoridad : encabezados únicos utilizados para la información bibliográfica
Lenguaje natural controlado – Subconjunto de un lenguaje natural
Definición de vocabulario : lista de palabras utilizadas por los lexicógrafos para escribir definiciones de diccionarios
IMS Vocabulary Definition Exchange : lenguaje de marcado (o gramática) para vocabularios controlados desarrollado por IMS Global
Reconocimiento de entidades nombradas : extracción de menciones de entidades nombradas en texto no estructurado en categorías predefinidas
Nomenclatura – Sistema de nombres o términos en un campo particular de las artes o las ciencias.
Ontología (informática) – Especificación de una conceptualizaciónPages displaying short descriptions of redirect targets
Terminología – Disciplina académica que estudia los términos y sus usos generales.
Marco universal de elementos de datos : vocabulario controladoPages displaying wikidata descriptions as a fallback
Transformación basada en vocabulario : transformación asistida por declaraciones de equivalencia semántica dentro de un vocabulario controlado.

Referencias

^ Vocabularios controlados Enlaces a ejemplos de tesauros y esquemas de clasificación.
^ Vocabularios controlados Enlaces a ejemplos de tesauros y esquemas de clasificación utilizados en el dominio de la agricultura, la pesca, la silvicultura, etc.
^ ab Harpring, Patricia (2010). "2. ¿Qué son los vocabularios controlados?". Introducción a los vocabularios controlados: terminología para el arte, la arquitectura y otras obras culturales (1.ª ed.). Los Ángeles, California: Getty Research Institute. ISBN 978-1-60606-018-6.OCLC 456174098 .
^ Amy Warner, Introducción a la taxonomía // Enlace muerto Archivado el 5 de marzo de 2016 en Wayback Machine .
^ "Karl Fast, Fred Leise y Mike Steckel". 16 de diciembre de 2002. Archivado desde el original el 17 de noviembre de 2017. Consultado el 15 de septiembre de 2014 .
^ "Vocabularios controlados | Bibliotecarios | Biblioteca del Congreso". Biblioteca del Congreso . Archivado desde el original el 2019-11-16 . Consultado el 2018-05-22 .
^ Harpring, Patricia (2010). "3. Relaciones en vocabularios controlados". Introducción a los vocabularios controlados: terminología para el arte, la arquitectura y otras obras culturales. Getty Research Institute (1.ª ed.). Los Ángeles, California: Getty Research Institute. ISBN 978-1-60606-150-3.
^ Moskovitch, Robert; Martins, Susana B.; Behiri, Eytan; Weiss, Aviram; Shahar, Yuval (2007). "Una evaluación comparativa de la búsqueda de texto completo, basada en conceptos y sensible al contexto". Revista de la Asociación Estadounidense de Informática Médica . 14 (2): 164–174. doi :10.1197/jamia.M1953. ISSN 1067-5027. PMC 2213470 . PMID 17213502.
^ Smith, Catherine (3 de abril de 2021). "Vocabularios controlados: pasado, presente y futuro del acceso a la información". Cataloging & Classification Quarterly . 59 (2–3): 186–202. doi :10.1080/01639374.2021.1881007. ISSN 0163-9374. S2CID 233205938.
^ Cory Doctorow, Metacrap Archivado el 8 de mayo de 2007 en Wayback Machine .
^ Mark Pilgrim, Lenguaje de metadatos facetados intercambiables Archivado el 8 de febrero de 2012 en Wayback Machine .
^ "El vocabulario de personas de Schema.org". Archivado desde el original el 28 de julio de 2015 . Consultado el 13 de marzo de 2015 .
^ "El vocabulario de libros de Schema.org". Archivado desde el original el 11 de marzo de 2015 . Consultado el 13 de marzo de 2015 .
^ "Conjunto de elementos de metadatos de Dublin Core, versión 1.1". Archivado desde el original el 16 de agosto de 2013. Consultado el 13 de marzo de 2015 .
^ "El vocabulario de eventos de Schema.org". Archivado desde el original el 13 de marzo de 2015 . Consultado el 13 de marzo de 2015 .

Enlaces externos

Directorio de vocabularios abiertos vinculados (LOV)

[1] Vocabularios controlados Enlaces a ejemplos de tesauros y esquemas de clasificación.

[2] Vocabularios controlados Enlaces a ejemplos de tesauros y esquemas de clasificación utilizados en el dominio de la agricultura, la pesca, la silvicultura, etc.

[:0-3] Harpring, Patricia (2010). "2. ¿Qué son los vocabularios controlados?". Introducción a los vocabularios controlados: terminología para el arte, la arquitectura y otras obras culturales (1.ª ed.). Los Ángeles, California: Getty Research Institute. ISBN 978-1-60606-018-6.OCLC 456174098 .

[4] Amy Warner, Introducción a la taxonomía // Enlace muerto Archivado el 5 de marzo de 2016 en Wayback Machine .

[5] "Karl Fast, Fred Leise y Mike Steckel". 16 de diciembre de 2002. Archivado desde el original el 17 de noviembre de 2017. Consultado el 15 de septiembre de 2014 .

[6] "Vocabularios controlados | Bibliotecarios | Biblioteca del Congreso". Biblioteca del Congreso . Archivado desde el original el 2019-11-16 . Consultado el 2018-05-22 .

[7] Harpring, Patricia (2010). "3. Relaciones en vocabularios controlados". Introducción a los vocabularios controlados: terminología para el arte, la arquitectura y otras obras culturales. Getty Research Institute (1.ª ed.). Los Ángeles, California: Getty Research Institute. ISBN 978-1-60606-150-3.

[8] Moskovitch, Robert; Martins, Susana B.; Behiri, Eytan; Weiss, Aviram; Shahar, Yuval (2007). "Una evaluación comparativa de la búsqueda de texto completo, basada en conceptos y sensible al contexto". Revista de la Asociación Estadounidense de Informática Médica . 14 (2): 164–174. doi :10.1197/jamia.M1953. ISSN 1067-5027. PMC 2213470 . PMID 17213502.

[9] Smith, Catherine (3 de abril de 2021). "Vocabularios controlados: pasado, presente y futuro del acceso a la información". Cataloging & Classification Quarterly . 59 (2–3): 186–202. doi :10.1080/01639374.2021.1881007. ISSN 0163-9374. S2CID 233205938.

[10] Cory Doctorow, Metacrap Archivado el 8 de mayo de 2007 en Wayback Machine .

[11] Mark Pilgrim, Lenguaje de metadatos facetados intercambiables Archivado el 8 de febrero de 2012 en Wayback Machine .

[12] "El vocabulario de personas de Schema.org". Archivado desde el original el 28 de julio de 2015 . Consultado el 13 de marzo de 2015 .

[13] "El vocabulario de libros de Schema.org". Archivado desde el original el 11 de marzo de 2015 . Consultado el 13 de marzo de 2015 .

[14] "Conjunto de elementos de metadatos de Dublin Core, versión 1.1". Archivado desde el original el 16 de agosto de 2013. Consultado el 13 de marzo de 2015 .

[15] "El vocabulario de eventos de Schema.org". Archivado desde el original el 13 de marzo de 2015 . Consultado el 13 de marzo de 2015 .