Búsqueda de conceptos

Método de recuperación de información automatizada

Una búsqueda de conceptos (o búsqueda conceptual ) es un método de recuperación de información automatizado que se utiliza para buscar en texto no estructurado almacenado electrónicamente (por ejemplo, archivos digitales , correo electrónico, literatura científica, etc.) información que sea conceptualmente similar a la información proporcionada en una consulta de búsqueda . En otras palabras, las ideas expresadas en la información recuperada en respuesta a una consulta de búsqueda de conceptos son relevantes para las ideas contenidas en el texto de la consulta.

Desarrollo

Las técnicas de búsqueda de conceptos se desarrollaron debido a las limitaciones impuestas por las tecnologías clásicas de búsqueda de palabras clave booleanas al trabajar con grandes colecciones de texto digitales no estructuradas. Las búsquedas de palabras clave suelen devolver resultados que incluyen muchos elementos no relevantes ( falsos positivos ) o que excluyen demasiados elementos relevantes (falsos negativos) debido a los efectos de la sinonimia y la polisemia . La sinonimia significa que una de dos o más palabras del mismo idioma tiene el mismo significado, y la polisemia significa que muchas palabras individuales tienen más de un significado.

La polisemia es un obstáculo importante para todos los sistemas informáticos que intentan lidiar con el lenguaje humano. En inglés, los términos más utilizados tienen varios significados comunes. Por ejemplo, la palabra fuego puede significar: una actividad de combustión; terminar un empleo; lanzar, o excitar (como en encender). Para los 200 términos más polisémicos en inglés, el verbo típico tiene más de doce significados comunes, o sentidos. El sustantivo típico de este conjunto tiene más de ocho sentidos comunes. Para los 2000 términos más polisémicos en inglés, el verbo típico tiene más de ocho sentidos comunes y el sustantivo típico tiene más de cinco. [1]

Además de los problemas de polisemia y sinonimia, las búsquedas de palabras clave pueden excluir palabras mal escritas inadvertidamente , así como las variaciones en las raíces de las palabras (por ejemplo, strike vs. hitting). Las búsquedas de palabras clave también son susceptibles a errores introducidos por los procesos de escaneo de reconocimiento óptico de caracteres (OCR), que pueden introducir errores aleatorios en el texto de los documentos (a menudo denominados texto ruidoso ) durante el proceso de escaneo.

Una búsqueda de conceptos puede superar estos desafíos empleando la desambiguación del sentido de las palabras (WSD), [2] y otras técnicas, para ayudar a derivar los significados reales de las palabras y sus conceptos subyacentes, en lugar de simplemente hacer coincidir cadenas de caracteres como las tecnologías de búsqueda de palabras clave.

Aproches

En general, la investigación y la tecnología de recuperación de información se pueden dividir en dos grandes categorías: semántica y estadística. Los sistemas de recuperación de información que caen en la categoría semántica intentarán implementar algún grado de análisis sintáctico y semántico del texto en lenguaje natural que proporcionaría un usuario humano (véase también lingüística computacional ). Los sistemas que caen en la categoría estadística encontrarán resultados basados ​​en medidas estadísticas de cuán estrechamente coinciden con la consulta. Sin embargo, los sistemas en la categoría semántica también suelen depender de métodos estadísticos para ayudarlos a encontrar y recuperar información. [3]

Los esfuerzos por proporcionar sistemas de recuperación de información con capacidades de procesamiento semántico han utilizado básicamente tres enfoques:

Estructuras auxiliares

Se han aplicado diversas técnicas basadas en inteligencia artificial (IA) y procesamiento de lenguaje natural (PLN) al procesamiento semántico, y la mayoría de ellas se han basado en el uso de estructuras auxiliares como vocabularios controlados y ontologías . Los vocabularios controlados (diccionarios y tesauros) y las ontologías permiten incorporar términos más amplios, términos más específicos y términos relacionados en las consultas. [4] Los vocabularios controlados son una forma de superar algunas de las restricciones más severas de las consultas de palabras clave booleanas. A lo largo de los años, se han construido estructuras auxiliares adicionales de interés general, como los grandes conjuntos de sinónimos de WordNet . [5] Se demostró que la búsqueda de conceptos basada en estructuras auxiliares, como WordNet, se puede implementar de manera eficiente reutilizando modelos de recuperación y estructuras de datos de recuperación de información clásica. [6] Los enfoques posteriores han implementado la gramática para expandir la gama de construcciones semánticas. La creación de modelos de datos que representan conjuntos de conceptos dentro de un dominio específico ( ontologías de dominio ), y que pueden incorporar las relaciones entre términos, también se ha implementado en los últimos años.

Los vocabularios controlados elaborados a mano contribuyen a la eficiencia y la exhaustividad de las operaciones de recuperación de información y análisis de textos relacionados, pero funcionan mejor cuando los temas están definidos de forma precisa y la terminología está estandarizada. Los vocabularios controlados requieren una amplia participación y supervisión humana para mantenerse al día con la rápida evolución del lenguaje. Tampoco son adecuados para los volúmenes crecientes de texto no estructurado que cubren una cantidad ilimitada de temas y contienen miles de términos únicos, ya que es necesario introducir constantemente nuevos términos y temas. Los vocabularios controlados también tienden a capturar una cosmovisión particular en un momento específico, lo que dificulta su modificación si cambian los conceptos en un área temática determinada. [7]

Estadísticas de coocurrencia local

Los sistemas de recuperación de información que incorporan este enfoque cuentan la cantidad de veces que grupos de términos aparecen juntos (coocurren) dentro de una ventana deslizante de términos u oraciones (por ejemplo, ± 5 oraciones o ± 50 palabras) dentro de un documento. Se basa en la idea de que las palabras que aparecen juntas en contextos similares tienen significados similares. Es local en el sentido de que la ventana deslizante de términos y oraciones que se utiliza para determinar la coocurrencia de términos es relativamente pequeña.

Este enfoque es simple, pero captura solo una pequeña parte de la información semántica contenida en una colección de texto. En el nivel más básico, numerosos experimentos han demostrado que aproximadamente solo una cuarta parte de la información contenida en el texto es de naturaleza local. [8] Además, para ser más eficaz, este método requiere un conocimiento previo sobre el contenido del texto, lo que puede resultar difícil con colecciones de documentos grandes y no estructurados. [7]

Técnicas de transformación

Algunos de los enfoques más potentes para el procesamiento semántico se basan en el uso de técnicas de transformación matemática. Las técnicas de descomposición matricial han sido las más exitosas. Algunas técnicas de descomposición matricial ampliamente utilizadas incluyen las siguientes: [9]

Las técnicas de descomposición matricial se basan en datos, lo que evita muchos de los inconvenientes asociados a las estructuras auxiliares. También son de naturaleza global, lo que significa que son capaces de extraer información y representar información semántica de forma mucho más robusta que las técnicas basadas en estadísticas de coocurrencia local. [7]

El análisis de componentes independientes es una técnica que crea representaciones dispersas de manera automatizada, [10] y los enfoques de matriz semidiscreta y no negativa sacrifican la precisión de la representación para reducir la complejidad computacional. [7]

La descomposición en valores singulares (SVD, por sus siglas en inglés) se aplicó por primera vez a textos en Bell Labs a fines de la década de 1980. Se utilizó como base para una técnica llamada indexación semántica latente (LSI, por sus siglas en inglés) debido a su capacidad para encontrar el significado semántico que está latente en una colección de texto. Al principio, la SVD tardó en adoptarse debido a los requisitos de recursos necesarios para trabajar con grandes conjuntos de datos. Sin embargo, el uso de LSI se ha expandido significativamente en los últimos años a medida que se han superado los desafíos anteriores en escalabilidad y rendimiento. [11] e incluso se ha convertido en código abierto. [12] LSI se está utilizando en una variedad de aplicaciones de recuperación de información y procesamiento de texto, aunque su aplicación principal ha sido para la búsqueda de conceptos y la categorización automatizada de documentos. [13]

Usos

  • eDiscovery – Las tecnologías de búsqueda basadas en conceptos se utilizan cada vez más para el descubrimiento electrónico de documentos (EDD o eDiscovery) con el fin de ayudar a las empresas a prepararse para los litigios. En el eDiscovery, la capacidad de agrupar, categorizar y buscar grandes colecciones de texto no estructurado sobre una base conceptual es mucho más eficiente que las técnicas tradicionales de revisión lineal. La búsqueda basada en conceptos se está aceptando como un método de búsqueda confiable y eficiente que tiene más probabilidades de producir resultados relevantes que las búsquedas por palabras clave o booleanas. [14]
  • Búsqueda empresarial y gestión de contenido empresarial (ECM) : las tecnologías de búsqueda de conceptos se utilizan ampliamente en la búsqueda empresarial. A medida que aumenta el volumen de información dentro de la empresa, la capacidad de agrupar, categorizar y buscar grandes colecciones de texto no estructurado sobre una base conceptual se ha vuelto esencial. En 2004, el Grupo Gartner estimó que los profesionales dedican el 30 por ciento de su tiempo a buscar, recuperar y gestionar información. [15] La empresa de investigación IDC descubrió que una corporación de 2.000 empleados puede ahorrar hasta 30 millones de dólares al año al reducir el tiempo que los empleados dedican a intentar encontrar información y duplicar documentos existentes. [15]
  • Recuperación de imágenes basada en contenido (CBIR) – Los enfoques basados ​​en contenido se están utilizando para la recuperación semántica de imágenes y vídeos digitalizados de grandes corpus visuales. Uno de los primeros sistemas de recuperación de imágenes basados ​​en contenido que abordó el problema semántico fue el motor de búsqueda ImageScape. En este sistema, el usuario podía realizar consultas directas de múltiples objetos visuales como el cielo, los árboles, el agua, etc. utilizando iconos posicionados espacialmente en un índice WWW que contenía más de diez millones de imágenes y vídeos utilizando fotogramas clave. El sistema utilizó la teoría de la información para determinar las mejores características para minimizar la incertidumbre en la clasificación. [16] La brecha semántica se menciona a menudo en relación con CBIR. La brecha semántica se refiere a la brecha entre la información que se puede extraer de los datos visuales y la interpretación que los mismos datos tienen para un usuario en una situación determinada. [17] El taller ACM SIGMM sobre recuperación de información multimedia [18] está dedicado a los estudios de CBIR.
  • Multimedia y publicaciones : la búsqueda de conceptos se utiliza en las industrias multimedia y de publicaciones para brindar a los usuarios acceso a noticias, información técnica y conocimientos especializados sobre temas que provienen de una variedad de fuentes no estructuradas. Los métodos basados ​​en contenido para la recuperación de información multimedia (MIR) se han vuelto especialmente importantes cuando faltan anotaciones de texto o están incompletas. [16]
  • Bibliotecas y archivos digitales : las imágenes, los vídeos, la música y los textos de las bibliotecas y los archivos digitales se están haciendo accesibles a grandes grupos de usuarios (especialmente en la Web) mediante el uso de técnicas de búsqueda de conceptos. Por ejemplo, el Executive Daily Brief (EDB), un producto de supervisión y alerta de información empresarial desarrollado por EBSCO Publishing , utiliza la tecnología de búsqueda de conceptos para proporcionar a los usuarios finales corporativos acceso a una biblioteca digital que contiene una amplia gama de contenido empresarial. De manera similar, el Music Genome Project dio origen a Pandora, que emplea la búsqueda de conceptos para crear espontáneamente bibliotecas de música individuales o estaciones de radio virtuales .
  • Recuperación de información genómica (GIR) – La recuperación de información genómica (GIR) utiliza técnicas de búsqueda de conceptos aplicadas a bases de datos de literatura genómica para superar las ambigüedades de la literatura científica.
  • Dotación y selección de recursos humanos : muchas organizaciones de dotación y selección de recursos humanos han adoptado tecnologías de búsqueda de conceptos para producir resultados de búsqueda de currículums altamente relevantes que brindan currículums de candidatos más precisos y relevantes que resultados de palabras clave vagamente relacionados.

Búsqueda eficaz

La eficacia de una búsqueda de conceptos puede depender de diversos elementos, entre ellos el conjunto de datos que se busca y el motor de búsqueda que se utiliza para procesar las consultas y mostrar los resultados. Sin embargo, la mayoría de los motores de búsqueda de conceptos funcionan mejor para determinados tipos de consultas:

  • Las consultas eficaces se componen de texto suficiente para transmitir adecuadamente los conceptos deseados. Las consultas eficaces pueden incluir oraciones completas, párrafos o incluso documentos enteros. Las consultas compuestas por solo unas pocas palabras no tienen tantas probabilidades de devolver los resultados más relevantes.
  • Las consultas eficaces no incluyen conceptos que no sean el objeto de la búsqueda. Incluir demasiados conceptos no relacionados en una consulta puede afectar negativamente la relevancia de los elementos del resultado. Por ejemplo, una búsqueda de información sobre navegación en el río Misisipi tendría más probabilidades de arrojar resultados relevantes que una búsqueda sobre navegación en el río Misisipi en un día lluvioso en pleno verano de 1967.
  • Las consultas eficaces se expresan en un estilo de lenguaje natural y de texto completo similar al de los documentos que se están buscando. Por ejemplo, el uso de consultas compuestas por extractos de un libro de texto de introducción a las ciencias no sería tan eficaz para la búsqueda de conceptos si el conjunto de datos que se está buscando está compuesto por textos científicos avanzados de nivel universitario. Las consultas sustanciales que representan mejor los conceptos, estilos y lenguaje generales de los elementos para los que se está realizando la consulta suelen ser más eficaces.

Al igual que con todas las estrategias de búsqueda, los buscadores experimentados generalmente refinan sus consultas a través de múltiples búsquedas, comenzando con una consulta inicial para obtener resultados conceptualmente relevantes que luego se pueden usar para componer y/o refinar consultas adicionales para obtener resultados cada vez más relevantes. Dependiendo del motor de búsqueda, usar los conceptos de consulta encontrados en los documentos de resultados puede ser tan fácil como seleccionar un documento y realizar una función de búsqueda similar . Cambiar una consulta agregando términos y conceptos para mejorar la relevancia del resultado se llama expansión de consulta . [19] Se ha estudiado el uso de ontologías como WordNet para expandir consultas con palabras conceptualmente relacionadas. [20]

Retroalimentación de relevancia

La retroalimentación de relevancia es una característica que ayuda a los usuarios a determinar si los resultados devueltos para sus consultas satisfacen sus necesidades de información. En otras palabras, la relevancia se evalúa en relación con una necesidad de información, no con una consulta. Un documento es relevante si aborda la necesidad de información indicada, no porque simplemente contenga todas las palabras de la consulta. [21] Es una forma de involucrar a los usuarios en el proceso de recuperación para mejorar el conjunto de resultados finales. [21] Los usuarios pueden refinar sus consultas en función de sus resultados iniciales para mejorar la calidad de sus resultados finales.

En general, la relevancia de la búsqueda de conceptos se refiere al grado de similitud entre los conceptos expresados ​​en la consulta y los conceptos contenidos en los resultados devueltos para la consulta. Cuanto más similares sean los conceptos de los resultados con los conceptos contenidos en la consulta, más relevantes se considerarán los resultados. Los resultados suelen clasificarse y ordenarse por relevancia, de modo que los resultados más relevantes se encuentren en la parte superior de la lista de resultados y los menos relevantes en la parte inferior.

Se ha demostrado que la retroalimentación de relevancia es muy eficaz para mejorar la relevancia de los resultados. [21] Una búsqueda de conceptos disminuye el riesgo de perder elementos de resultados importantes porque se devolverán todos los elementos relacionados con los conceptos de la consulta, independientemente de que contengan o no las mismas palabras utilizadas en la consulta. [15]

La clasificación seguirá siendo parte de cualquier sistema moderno de recuperación de información. Sin embargo, los problemas de los datos heterogéneos, la escala y los tipos de discurso no tradicionales reflejados en el texto, junto con el hecho de que los motores de búsqueda serán cada vez más componentes integrados de procesos complejos de gestión de información, no solo sistemas independientes, requerirán nuevos tipos de respuestas del sistema a una consulta. Por ejemplo, uno de los problemas con las listas clasificadas es que podrían no revelar las relaciones que existen entre algunos de los elementos de los resultados. [22]

Pautas para evaluar un motor de búsqueda de conceptos

  1. Los elementos de resultado deben ser relevantes a la necesidad de información expresada por los conceptos contenidos en las declaraciones de consulta, incluso si la terminología utilizada por los elementos de resultado es diferente de la terminología utilizada en la consulta.
  2. Los elementos del resultado deben ordenarse y clasificarse por relevancia.
  3. Los elementos de resultados relevantes deben poder localizarse y visualizarse rápidamente. Incluso las consultas complejas deben devolver resultados relevantes con bastante rapidez.
  4. La longitud de la consulta no debe ser fija , es decir, una consulta puede tener la extensión que se considere necesaria. Se puede enviar una oración, un párrafo o incluso un documento completo como consulta.
  5. Una consulta de conceptos no debería requerir ninguna sintaxis especial o compleja. Los conceptos contenidos en la consulta se pueden expresar de forma clara y destacada sin necesidad de utilizar reglas especiales.
  6. Se deben permitir consultas combinadas que utilicen conceptos, palabras clave y metadatos. [23]
  7. Las partes relevantes de los elementos de resultado deberían poder usarse como texto de consulta simplemente seleccionando el elemento e indicando al motor de búsqueda que busque elementos similares .
  8. Los índices listos para consultas deberían crearse con relativa rapidez.
  9. El motor de búsqueda debe ser capaz de realizar búsquedas federadas . Las búsquedas federadas permiten utilizar consultas conceptuales para buscar simultáneamente información en varias fuentes de datos , que luego se fusiona, se ordena y se muestra en los resultados.
  10. La búsqueda de un concepto no debe verse afectada por palabras mal escritas, errores tipográficos o errores de escaneo OCR ni en el texto de la consulta ni en el texto del conjunto de datos que se busca.

Conferencias y foros

La evaluación formalizada de los motores de búsqueda se ha llevado a cabo durante muchos años. Por ejemplo, la Text REtrieval Conference (TREC) se inició en 1992 para apoyar la investigación dentro de la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación a gran escala de las metodologías de recuperación de texto. La mayoría de los motores de búsqueda comerciales actuales incluyen tecnología desarrollada por primera vez en TREC. [24]

En 1997 se puso en marcha una contraparte japonesa del TREC, denominada National Institute of Informatics Test Collection for IR Systems (NTCIR). El NTCIR lleva a cabo una serie de talleres de evaluación para la investigación en recuperación de información, respuesta a preguntas, resumen automático , etc. En 2001 se inició una serie de talleres europeos denominados Cross-Language Evaluation Forum (CLEF) para ayudar a la investigación en el acceso a la información multilingüe. En 2002 se estableció la Initiative for the Evaluation of XML Retrieval (INEX) para la evaluación de sistemas de recuperación XML orientados al contenido.

La precisión y la recuperación han sido dos de las medidas de rendimiento tradicionales para evaluar los sistemas de recuperación de información. La precisión es la fracción de los documentos de resultados recuperados que son relevantes para la necesidad de información del usuario. La recuperación se define como la fracción de documentos relevantes en toda la colección que se devuelven como documentos de resultados. [21]

Aunque los talleres y las colecciones de pruebas disponibles públicamente que se utilizan para probar y evaluar los motores de búsqueda han proporcionado conocimientos sustanciales sobre cómo se gestiona y recupera la información, el campo solo ha arañado la superficie de los desafíos que enfrentan las personas y las organizaciones para encontrar, gestionar y utilizar la información ahora que hay tanta información disponible. [22] Los datos científicos sobre cómo las personas utilizan las herramientas de información disponibles para ellas hoy en día aún son incompletos porque las metodologías de investigación experimental no han podido seguir el ritmo rápido del cambio. Aún es necesario abordar muchos desafíos, como la búsqueda contextualizada, la gestión de información personal, la integración de información y el soporte de tareas. [22]

Véase también

Referencias

  1. ^ Bradford, RB, Desambiguación del sentido de las palabras, Content Analyst Company, LLC, Patente de EE. UU. 7415462, 2008.
  2. ^ R. Navigli, Desambiguación del sentido de las palabras: una encuesta, ACM Computing Surveys, 41(2), 2009.
  3. ^ Greengrass, E., Recuperación de información: una encuesta, 2000.
  4. ^ Dubois, C., El uso de tesauros en la recuperación en línea, Journal of Information Science, 8 (2), marzo de 1984, págs.
  5. ^ Miller, G., Número especial, WordNet: una base de datos léxica en línea, Intl. Journal of Lexicography, 3(4), 1990.
  6. ^ Fausto Giunchiglia, Uladzimir Kharkevich y Ilya Zaihrayeu. Concept Search Archivado el 10 de febrero de 2014 en Wayback Machine , en Actas de la Conferencia Europea de Web Semántica, 2009.
  7. ^ abcd Bradford, RB, ¿Por qué LSI? Indexación semántica latente y recuperación de información, Libro blanco, Content Analyst Company, LLC, 2008.
  8. ^ Landauer, T., y Dumais, S., Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, la inducción y la representación del conocimiento, Psychological Review, 1997, 104(2), pp. 211-240.
  9. ^ Skillicorn, D., Comprensión de conjuntos de datos complejos: minería de datos con descomposiciones matriciales, CRC Publishing, 2007.
  10. ^ Honkela, T., Hyvarinen, A. y Vayrynen, J. WordICA: aparición de representaciones lingüísticas para palabras mediante análisis de componentes independientes. Ingeniería del lenguaje natural, 16(3):277-308, 2010
  11. ^ Řehůřek, Radim (2011). "Escalabilidad del análisis semántico en el procesamiento del lenguaje natural" (PDF) . Consultado el 27 de enero de 2015 .
  12. ^ Software de código abierto Gensim
  13. ^ Dumais, S., Análisis semántico latente, ARIST Review of Information Science and Technology, vol. 38, Capítulo 4, 2004.
  14. ^ Magistrado John M. Facciola del Tribunal de Distrito de los Estados Unidos para el Distrito de Washington, DC Disability Rights Council v. Washington Metropolitan Transit Authority, 242 FRD 139 (DDC 2007), citando a George L. Paul y Jason R. Baron, "Inflación de la información: ¿puede adaptarse el sistema legal?" 13 Rich. JL & Tech. 10 (2007).
  15. ^ abc Laplanche, R., Delgado, J., Turck, M., La tecnología de búsqueda de conceptos va más allá de las palabras clave, Information Outlook, julio de 2004.
  16. ^ ab Lew, MS, Sebe, N., Djeraba, C., Jain, R., Recuperación de información multimedia basada en contenido: estado del arte y desafíos, ACM Transactions on Multimedia Computing, Communications, and Applications, febrero de 2006.
  17. ^ Datta R., Joshi, D., Li J., Wang, JZ, Recuperación de imágenes: ideas, influencias y tendencias de la nueva era, ACM Computing Surveys, vol. 40, n.º 2, abril de 2008.
  18. ^ "Mir 2004". www.liacs.nl . Archivado desde el original el 7 de marzo de 2014 . Consultado el 12 de enero de 2022 .
  19. ^ Robertson, SE , Spärck Jones, K. , Enfoques simples y probados para la recuperación de texto, Informe técnico, Laboratorio de computación de la Universidad de Cambridge, diciembre de 1994.
  20. ^ Navigli, R., Velardi, P. Un análisis de estrategias de expansión de consultas basadas en ontologías Archivado el 26 de abril de 2012 en Wayback Machine . Actas del taller sobre extracción y minería de texto adaptativo (ATEM 2003) , en la 14.ª Conferencia europea sobre aprendizaje automático (ECML 2003) , Cavtat-Dubrovnik, Croacia, del 22 al 26 de septiembre de 2003, págs. 42-49
  21. ^ abcd Manning, CD, Raghavan P., Schütze H., Introducción a la recuperación de información, Cambridge University Press, 2008.
  22. ^ abc Callan, J., Allan, J., Clarke, CLA, Dumais, S., Evans, D., A., Sanderson, M., Zhai, C., Reunión de MINDS: una agenda de investigación en recuperación de información, ACM, Foro SIGIR, Vol. 41 No. 2, diciembre de 2007.
  23. ^ Rehurek, R., Un sistema combinado para la búsqueda de similitud vectorial basado en el índice de texto completo invertido, ScaleText Search Engine, patente estadounidense pendiente 15726803, 2017.
  24. ^ Croft, B., Metzler, D., Strohman, T., Motores de búsqueda, recuperación de información en la práctica, Addison Wesley, 2009.
  • Conferencia sobre recuperación de textos (TREC), NIST
  • Bancos de pruebas del Instituto Nacional de Informática y la Comunidad para la Investigación del Acceso a la Información (NTCIR), Instituto Nacional de Informática, Tokio
  • Educación y función interlingüística (CLEF)
  • (Iniciativa para la evaluación de la recuperación de XML), Universidad de Duisburg-Essen
  • INEX (Iniciativa para la evaluación de la recuperación de XML), Universidad de Duisburg (archivado en 2007)
Obtenido de "https://es.wikipedia.org/w/index.php?title=Búsqueda_de_conceptos&oldid=1191227043"