Indexación de temas

Clasificación de un documento por términos de índice

La indización temática es el acto de describir o clasificar un documento mediante términos de índice , palabras clave u otros símbolos con el fin de indicar de qué tratan los diferentes documentos , resumir su contenido o aumentar la facilidad de búsqueda . En otras palabras, se trata de identificar y describir el tema de los documentos. Los índices se construyen, por separado, en tres niveles distintos: términos en un documento como un libro; objetos en una colección como una biblioteca; y documentos (como libros y artículos) dentro de un campo de conocimiento.

La indexación por materias se utiliza en la recuperación de información , especialmente para crear índices bibliográficos con el fin de recuperar documentos sobre un tema en particular. Algunos ejemplos de servicios de indexación académica son Zentralblatt MATH , Chemical Abstracts y PubMed . Los términos de indexación fueron asignados principalmente por expertos, pero las palabras clave de los autores también son comunes.

El proceso de indexación comienza con el análisis del tema del documento. El indexador debe identificar los términos que identifican adecuadamente el tema, ya sea extrayendo palabras directamente del documento o asignando palabras de un vocabulario controlado . ^[1] Los términos del índice se presentan luego en un orden sistemático.

Los indexadores deben decidir cuántos términos incluir y cuán específicos deben ser. En conjunto, esto le da profundidad a la indexación.

Análisis de sujetos

El primer paso en la indexación es decidir el tema del documento. En la indexación manual, el indexador consideraría el tema en términos de respuesta a un conjunto de preguntas como "¿El documento trata de un producto, condición o fenómeno específico?". ^[2] Como el análisis está influenciado por el conocimiento y la experiencia del indexador, se deduce que dos indexadores pueden analizar el contenido de manera diferente y, por lo tanto, llegar a diferentes términos de indexación. Esto afectará el éxito de la recuperación.

Análisis de temas automático vs. manual

La indexación automática sigue procesos establecidos de análisis de frecuencias de patrones de palabras y comparación de resultados con otros documentos para asignar categorías temáticas. Esto no requiere comprensión del material que se está indexando. Esto conduce a una indexación más uniforme, pero a expensas del significado verdadero que se está interpretando. Un programa de computadora no entenderá el significado de las declaraciones y, por lo tanto, puede no asignar algunos términos relevantes o asignarlos incorrectamente. Los indexadores humanos centran su atención en ciertas partes del documento, como el título, el resumen, el sumario y las conclusiones, ya que analizar el texto completo en profundidad es costoso y requiere mucho tiempo ^[3]. Un sistema automatizado elimina el límite de tiempo y permite analizar todo el documento, pero también tiene la opción de ser dirigido a partes particulares del documento.

Selección de términos

La segunda etapa de la indexación implica la traducción del análisis temático a un conjunto de términos de indexación . Esto puede implicar la extracción del documento o la asignación de un vocabulario controlado . Con la capacidad de realizar una búsqueda de texto completo ampliamente disponible, muchas personas han llegado a confiar en su propia experiencia para realizar búsquedas de información y la búsqueda de texto completo se ha vuelto muy popular. La indexación temática y sus expertos, indexadores profesionales, catalogadores y bibliotecarios , sigue siendo crucial para la organización y recuperación de la información. Estos expertos entienden los vocabularios controlados y pueden encontrar información que no se puede localizar mediante una búsqueda de texto completo . El costo del análisis experto para crear una indexación temática no se compara fácilmente con el costo del hardware, el software y la mano de obra para fabricar un conjunto comparable de materiales de texto completo y totalmente buscables. Con las nuevas aplicaciones web que permiten a cada usuario anotar documentos, el etiquetado social ha ganado popularidad, especialmente en la Web. ^[4]

Una aplicación de la indexación, el índice de libros , permanece relativamente inalterada a pesar de la revolución de la información .

Extracción/Indexación derivada

La indexación por extracción implica tomar palabras directamente del documento. Utiliza lenguaje natural y se presta bien a técnicas automatizadas en las que se calculan las frecuencias de las palabras y se utilizan como términos de índice aquellas con una frecuencia superior a un umbral predeterminado. Se haría referencia a una lista de palabras de exclusión que contenga palabras comunes (como "el", "y") y dichas palabras de exclusión se excluirían como términos de índice.

La indexación por extracción automática puede provocar la pérdida de significado de los términos al indexar palabras individuales en lugar de frases. Aunque es posible extraer frases que aparecen con frecuencia, resulta más difícil si los conceptos clave están redactados de forma inconsistente en las frases. La indexación por extracción automática también tiene el problema de que, incluso con el uso de una lista de exclusión para eliminar palabras comunes, algunas palabras frecuentes pueden no ser útiles para permitir la discriminación entre documentos. Por ejemplo, es probable que el término glucosa aparezca con frecuencia en cualquier documento relacionado con la diabetes. Por lo tanto, el uso de este término probablemente devolvería la mayoría o todos los documentos de la base de datos. La indexación poscoordinada, en la que los términos se combinan en el momento de la búsqueda, reduciría este efecto, pero la responsabilidad de vincular los términos apropiados recaería en el investigador, en lugar del profesional de la información. Además, los términos que aparecen con poca frecuencia pueden ser muy significativos; por ejemplo, un nuevo fármaco puede mencionarse con poca frecuencia, pero la novedad del tema hace que cualquier referencia sea significativa. Un método para permitir que se incluyan términos poco comunes y se excluyan palabras comunes mediante técnicas automatizadas sería un enfoque de frecuencia relativa en el que la frecuencia de una palabra en un documento se compara con la frecuencia en la base de datos en su conjunto. Por lo tanto, un término que aparece con más frecuencia en un documento de lo que podría esperarse en función del resto de la base de datos podría utilizarse como término de índice, y los términos que aparecen con la misma frecuencia en todo el documento se excluirán.

Otro problema con la extracción automatizada es que no reconoce cuando se discute un concepto pero no está identificado en el texto por una palabra clave indexable. ^[5]

Dado que este proceso se basa en una simple comparación de cadenas y no implica ningún análisis intelectual, el producto resultante se conoce más apropiadamente como concordancia que como índice.

Indexación de tareas

Una alternativa es la indexación por asignación, en la que los términos del índice se toman de un vocabulario controlado. Esto tiene la ventaja de controlar los sinónimos , ya que el término preferido se indexa y los sinónimos o términos relacionados dirigen al usuario al término preferido. Esto significa que el usuario puede encontrar artículos independientemente del término específico utilizado por el autor y le ahorra al usuario tener que conocer y verificar todos los sinónimos posibles. ^[6] También elimina cualquier confusión causada por homógrafos mediante la inclusión de un término calificador. Una tercera ventaja es que permite la vinculación de términos relacionados, ya sea que estén vinculados por jerarquía o asociación, por ejemplo, una entrada de índice para un medicamento oral puede enumerar otros medicamentos orales como términos relacionados en el mismo nivel de la jerarquía, pero también se vincularía a términos más amplios como tratamiento. La indexación por asignación se utiliza en la indexación manual para mejorar la coherencia entre indexadores, ya que diferentes indexadores tendrán un conjunto controlado de términos para elegir. Los vocabularios controlados no eliminan por completo las inconsistencias, ya que dos indexadores aún pueden interpretar el tema de manera diferente. ^[2]

Presentación del índice

La fase final de la indexación consiste en presentar las entradas en un orden sistemático, lo que puede implicar la vinculación de las mismas. En un índice precoordinado, el indexador determina el orden en el que se vinculan los términos de una entrada teniendo en cuenta cómo puede formular su búsqueda el usuario. En un índice poscoordinado, las entradas se presentan de forma individual y el usuario puede vincularlas mediante búsquedas, que suelen realizarse mediante software informático. La poscoordinación produce una pérdida de precisión en comparación con la precoordinación ^[7].

Profundidad de indexación

Los indexadores deben tomar decisiones sobre qué entradas deben incluirse y cuántas entradas debe incorporar un índice. La profundidad de la indexación describe la minuciosidad del proceso de indexación con referencia a la exhaustividad y la especificidad ^[8].

Exhaustividad

Un índice exhaustivo es aquel que enumera todos los términos posibles del índice. Una mayor exhaustividad proporciona una mayor recuperación , o más probabilidad de recuperar todos los artículos relevantes, sin embargo, esto ocurre a expensas de la precisión . Esto significa que el usuario puede recuperar una mayor cantidad de documentos irrelevantes o documentos que solo tratan el tema en poca profundidad. En un sistema manual, un mayor nivel de exhaustividad conlleva un mayor costo ya que se requieren más horas-hombre. El tiempo adicional que se necesita en un sistema automatizado sería mucho menos significativo. En el otro extremo de la escala, en un índice selectivo solo se cubren los aspectos más importantes. ^[9] La recuperación se reduce en un índice selectivo ya que si un indexador no incluye suficientes términos, puede pasarse por alto un artículo altamente relevante. Por lo tanto, los indexadores deben esforzarse por lograr un equilibrio y considerar para qué se puede utilizar el documento. También pueden tener que considerar las implicaciones de tiempo y gasto.

Especificidad

La especificidad describe qué tan cerca los términos del índice coinciden con los temas que representan ^[10]. Se dice que un índice es específico si el indexador utiliza descriptores paralelos al concepto del documento y refleja los conceptos con precisión. ^[11] La especificidad tiende a aumentar con la exhaustividad, ya que cuantos más términos se incluyan, más limitados serán esos términos.

Teoría de la indexación

Hjørland (2011) ^[12] descubrió que las teorías de indexación están conectadas en el nivel más profundo con diferentes teorías del conocimiento:

Las teorías racionalistas de la indización (como la teoría de Ranganathan) sugieren que los temas se construyen de manera lógica a partir de un conjunto fundamental de categorías. El método básico de análisis de temas es entonces "analítico-sintético", que consiste en aislar un conjunto de categorías básicas (=análisis) y luego construir el tema de cualquier documento dado combinando esas categorías de acuerdo con ciertas reglas (=síntesis).
Las teorías empiristas de indexación se basan en la selección de documentos similares en función de sus propiedades, en particular mediante la aplicación de técnicas estadísticas numéricas.
Las teorías historicistas y hermenéuticas de la indización sugieren que el tema de un documento determinado es relativo a un discurso o dominio determinado, por lo que la indización debería reflejar la necesidad de un discurso o dominio particular. Según la hermenéutica, un documento siempre es escrito e interpretado desde un horizonte particular. Lo mismo sucede con los sistemas de organización del conocimiento y con todos los usuarios que buscan en dichos sistemas. Cualquier pregunta que se le haga a un sistema de este tipo se plantea desde un horizonte particular. Todos esos horizontes pueden estar más o menos en consenso o en conflicto. Indexar un documento es intentar contribuir a la recuperación de documentos “relevantes” conociendo esos diferentes horizontes.
Las teorías pragmáticas y críticas de la indización (como Hjørland, 1997) ^[13] están de acuerdo con el punto de vista historicista de que los sujetos son relativos a discursos específicos, pero enfatizan que el análisis de sujetos debe respaldar objetivos y valores determinados y debe considerar las consecuencias de la indización de una forma u otra. Estas teorías creen que la indización no puede ser neutral y que es un objetivo erróneo intentar indexar de una manera neutral. La indización es un acto (y la indización basada en computadora actúa de acuerdo con las intenciones de los programadores). Los actos sirven a objetivos humanos. Las bibliotecas y los servicios de información también sirven a objetivos humanos, por lo que su indización debe realizarse de una manera que respalde estos objetivos tanto como sea posible. A primera vista, esto parece extraño porque el objetivo de las bibliotecas y los servicios de información es identificar cualquier documento o pieza de información. No obstante, cualquier forma específica de indización siempre respalda algún tipo de usos a expensas de otros. Los documentos que se indexarán pretenden servir a algunos propósitos específicos en una comunidad. Básicamente, la indización debe intentar servir a los mismos propósitos. Los documentos primarios y secundarios y los servicios de información son partes del mismo sistema social general. En un sistema de este tipo pueden estar en juego diferentes teorías, epistemologías, visiones del mundo, etc., y los usuarios deben poder orientarse y navegar entre esas diferentes visiones. Esto exige un mapeo de las diferentes epistemologías en el campo y la clasificación del documento individual en ese mapa. Ørom (2003) ^[14] proporciona excelentes ejemplos de estos diferentes paradigmas y sus consecuencias para los sistemas de indexación y clasificación en el ámbito del arte y Abrahamsen (2003) ^{[15] .}

El núcleo de la indexación es, como afirman Rowley y Farrow ^[16] , evaluar la contribución de un artículo al conocimiento e indexarlo en consecuencia. O, en palabras de Hjørland (1992, ^[17] 1997), indexar su potencial informativo.

"Para lograr una indexación buena y consistente, el indexador debe tener una apreciación profunda de la estructura del tema y la naturaleza de la contribución que el documento está haciendo al avance del conocimiento". (Rowley y Farrow, 2000, ^[16] p. 99).

Véase también

Servicio de indexación y resumen
Clasificación de documentos
Metadatos
Sobrecategorización
Thomas de Irlanda , un pionero medieval en la indización de temas

Referencias

^ FW Lancaster (2003): "Indexación y abstracción en teoría y práctica". Tercera edición. Londres, Facet ISBN 1-85604-482-3 . página 6
^ ab GG Chowdhury (2004): "Introducción a la recuperación de información moderna". Tercera edición. Londres, Facet. ISBN 1-85604-480-7 . página 71
^ FW Lancaster (2003): "Indexación y abstracción en teoría y práctica". Tercera edición. Londres, Facet ISBN 1-85604-482-3 . página 24
^ Voss, Jakob (2007). "Tagging, Folksonomía y Co-Renacimiento de la Indexación Manual?". Actas del Simposio Internacional de Ciencias de la Información . págs. 234–254. arXiv : cs/0701072 . Bibcode :2007cs........1072V.
^ J. Lamb (2008): Índices producidos por humanos o por ordenador? Archivado el 4 de junio de 2014 en Wayback Machine [en línea] Sheffield, Society of Indexers. Consultado el 15 de enero de 2009.
^ C. Tenopir (1999): "La indexación, ya sea humana o automatizada, es importante". Library Journal 124 (18) páginas 34-38.
^ D. Bodoff y A. Kambil, (1998): "Coordinación parcial. I. Lo mejor de la precoordinación y la poscoordinación". Journal of the American Society for Information Science , 49 (14), 1254-1269.
^ DB Cleveland y AD Cleveland (2001): "Introducción a la indexación y la elaboración de resúmenes". 3.ª ed. Englewood, Libraries Unlimited, Inc. ISBN 1-56308-641-7 . Página 105
^ BH Weinberg (1990): "Exhaustividad de los índices: libros, revistas y textos completos electrónicos; Resumen de un taller presentado en la Conferencia Anual de la ASI de 1999". Palabras clave , 7 (5), páginas 1+.
^ JD Anderson (1997): Guidelines for indexes and related information retrieval devices [en línea]. Bethesda, Maryland, Niso Press. 10 de diciembre de 2008.
^ DB Cleveland y AD Cleveland (2001): "Introducción a la indexación y la elaboración de resúmenes". 3.ª ed. Englewood, Libraries Unlimited, Inc. ISBN 1-56308-641-7 . Página 106
^ Hjørland, Birger (2011). La importancia de las teorías del conocimiento: la indexación y la recuperación de información como ejemplo. Journal of the American Society for Information Science and Technology , 62(1,), 72-77.
^ Hjørland, B. (1997). Búsqueda de información y representación de sujetos. Un enfoque teórico-actividad para la ciencia de la información. Westport y Londres: Greenwood Press.
^ Ørom, Anders (2003). Organización del conocimiento en el ámbito de los estudios de arte: historia, transición y cambios conceptuales. Organización del conocimiento. 30(3/4), 128-143.
^ Abrahamsen, Knut T. (2003). Indexación de géneros musicales. Una perspectiva epistemológica. Knowledge Organization, 30(3/4), 144-169.
^ de Rowley, JE y Farrow, J. (2000). Organizar el conocimiento: Introducción a la gestión del acceso a la información. 3.ª edición. Alderstot: Gower Publishing Company
^ Hjørland, Birger (1992). El concepto de "sujeto" en la ciencia de la información. Journal of Documentation. 48(2), 172-200. http://iva.dk/bh/Core%20Concepts%20in%20LIS/1992JDOC%5FSubject.PDF

Lectura adicional

Fugman, Robert (1993). Análisis temático e indización. Fundamento teórico y consejos prácticos . Frankfurt/Main: Index Verlag.
Frohmann, B. (1990). "Reglas de indexación: una crítica del mentalismo en la teoría de la recuperación de información". Revista de documentación . 46 (2): 81–101. doi :10.1108/eb026855.
Wellisch, Hans, H. (1986). "Los índices impresos más antiguos". The Indexer 15 núm. 2, octubre, págs. 1-10.

[Lancaster2003a-1] FW Lancaster (2003): "Indexación y abstracción en teoría y práctica". Tercera edición. Londres, Facet ISBN 1-85604-482-3 . página 6

[Chowdhury2004-2] GG Chowdhury (2004): "Introducción a la recuperación de información moderna". Tercera edición. Londres, Facet. ISBN 1-85604-480-7 . página 71

[Lancaster2003b-3] FW Lancaster (2003): "Indexación y abstracción en teoría y práctica". Tercera edición. Londres, Facet ISBN 1-85604-482-3 . página 24

[Voss2007-4] Voss, Jakob (2007). "Tagging, Folksonomía y Co-Renacimiento de la Indexación Manual?". Actas del Simposio Internacional de Ciencias de la Información . págs. 234–254. arXiv : cs/0701072 . Bibcode :2007cs........1072V.

[Lamb2008-5] J. Lamb (2008): Índices producidos por humanos o por ordenador? Archivado el 4 de junio de 2014 en Wayback Machine [en línea] Sheffield, Society of Indexers. Consultado el 15 de enero de 2009.

[Tenopir-6] C. Tenopir (1999): "La indexación, ya sea humana o automatizada, es importante". Library Journal 124 (18) páginas 34-38.

[Bodoff1998-7] D. Bodoff y A. Kambil, (1998): "Coordinación parcial. I. Lo mejor de la precoordinación y la poscoordinación". Journal of the American Society for Information Science , 49 (14), 1254-1269.

[Cleveland2001-8] DB Cleveland y AD Cleveland (2001): "Introducción a la indexación y la elaboración de resúmenes". 3.ª ed. Englewood, Libraries Unlimited, Inc. ISBN 1-56308-641-7 . Página 105

[Weinberg1999-9] BH Weinberg (1990): "Exhaustividad de los índices: libros, revistas y textos completos electrónicos; Resumen de un taller presentado en la Conferencia Anual de la ASI de 1999". Palabras clave , 7 (5), páginas 1+.

[Anderson1997-10] JD Anderson (1997): Guidelines for indexes and related information retrieval devices [en línea]. Bethesda, Maryland, Niso Press. 10 de diciembre de 2008.

[Cleveland2001b-11] DB Cleveland y AD Cleveland (2001): "Introducción a la indexación y la elaboración de resúmenes". 3.ª ed. Englewood, Libraries Unlimited, Inc. ISBN 1-56308-641-7 . Página 106

[12] Hjørland, Birger (2011). La importancia de las teorías del conocimiento: la indexación y la recuperación de información como ejemplo. Journal of the American Society for Information Science and Technology , 62(1,), 72-77.

[13] Hjørland, B. (1997). Búsqueda de información y representación de sujetos. Un enfoque teórico-actividad para la ciencia de la información. Westport y Londres: Greenwood Press.

[14] Ørom, Anders (2003). Organización del conocimiento en el ámbito de los estudios de arte: historia, transición y cambios conceptuales. Organización del conocimiento. 30(3/4), 128-143.

[15] Abrahamsen, Knut T. (2003). Indexación de géneros musicales. Una perspectiva epistemológica. Knowledge Organization, 30(3/4), 144-169.

[rowley2000-16] Rowley, JE y Farrow, J. (2000). Organizar el conocimiento: Introducción a la gestión del acceso a la información. 3.ª edición. Alderstot: Gower Publishing Company

[17] Hjørland, Birger (1992). El concepto de "sujeto" en la ciencia de la información. Journal of Documentation. 48(2), 172-200. http://iva.dk/bh/Core%20Concepts%20in%20LIS/1992JDOC%5FSubject.PDF