Una búsqueda de conceptos (o búsqueda conceptual ) es un método de recuperación de información automatizado que se utiliza para buscar en texto no estructurado almacenado electrónicamente (por ejemplo, archivos digitales , correo electrónico, literatura científica, etc.) información que sea conceptualmente similar a la información proporcionada en una consulta de búsqueda . En otras palabras, las ideas expresadas en la información recuperada en respuesta a una consulta de búsqueda de conceptos son relevantes para las ideas contenidas en el texto de la consulta.
Las técnicas de búsqueda de conceptos se desarrollaron debido a las limitaciones impuestas por las tecnologías clásicas de búsqueda de palabras clave booleanas al trabajar con grandes colecciones de texto digitales no estructuradas. Las búsquedas de palabras clave suelen devolver resultados que incluyen muchos elementos no relevantes ( falsos positivos ) o que excluyen demasiados elementos relevantes (falsos negativos) debido a los efectos de la sinonimia y la polisemia . La sinonimia significa que una de dos o más palabras del mismo idioma tiene el mismo significado, y la polisemia significa que muchas palabras individuales tienen más de un significado.
La polisemia es un obstáculo importante para todos los sistemas informáticos que intentan lidiar con el lenguaje humano. En inglés, los términos más utilizados tienen varios significados comunes. Por ejemplo, la palabra fuego puede significar: una actividad de combustión; terminar un empleo; lanzar, o excitar (como en encender). Para los 200 términos más polisémicos en inglés, el verbo típico tiene más de doce significados comunes, o sentidos. El sustantivo típico de este conjunto tiene más de ocho sentidos comunes. Para los 2000 términos más polisémicos en inglés, el verbo típico tiene más de ocho sentidos comunes y el sustantivo típico tiene más de cinco. [1]
Además de los problemas de polisemia y sinonimia, las búsquedas de palabras clave pueden excluir palabras mal escritas inadvertidamente , así como las variaciones en las raíces de las palabras (por ejemplo, strike vs. hitting). Las búsquedas de palabras clave también son susceptibles a errores introducidos por los procesos de escaneo de reconocimiento óptico de caracteres (OCR), que pueden introducir errores aleatorios en el texto de los documentos (a menudo denominados texto ruidoso ) durante el proceso de escaneo.
Una búsqueda de conceptos puede superar estos desafíos empleando la desambiguación del sentido de las palabras (WSD), [2] y otras técnicas, para ayudar a derivar los significados reales de las palabras y sus conceptos subyacentes, en lugar de simplemente hacer coincidir cadenas de caracteres como las tecnologías de búsqueda de palabras clave.
En general, la investigación y la tecnología de recuperación de información se pueden dividir en dos grandes categorías: semántica y estadística. Los sistemas de recuperación de información que caen en la categoría semántica intentarán implementar algún grado de análisis sintáctico y semántico del texto en lenguaje natural que proporcionaría un usuario humano (véase también lingüística computacional ). Los sistemas que caen en la categoría estadística encontrarán resultados basados en medidas estadísticas de cuán estrechamente coinciden con la consulta. Sin embargo, los sistemas en la categoría semántica también suelen depender de métodos estadísticos para ayudarlos a encontrar y recuperar información. [3]
Los esfuerzos por proporcionar sistemas de recuperación de información con capacidades de procesamiento semántico han utilizado básicamente tres enfoques:
Se han aplicado diversas técnicas basadas en inteligencia artificial (IA) y procesamiento de lenguaje natural (PLN) al procesamiento semántico, y la mayoría de ellas se han basado en el uso de estructuras auxiliares como vocabularios controlados y ontologías . Los vocabularios controlados (diccionarios y tesauros) y las ontologías permiten incorporar términos más amplios, términos más específicos y términos relacionados en las consultas. [4] Los vocabularios controlados son una forma de superar algunas de las restricciones más severas de las consultas de palabras clave booleanas. A lo largo de los años, se han construido estructuras auxiliares adicionales de interés general, como los grandes conjuntos de sinónimos de WordNet . [5] Se demostró que la búsqueda de conceptos basada en estructuras auxiliares, como WordNet, se puede implementar de manera eficiente reutilizando modelos de recuperación y estructuras de datos de recuperación de información clásica. [6] Los enfoques posteriores han implementado la gramática para expandir la gama de construcciones semánticas. La creación de modelos de datos que representan conjuntos de conceptos dentro de un dominio específico ( ontologías de dominio ), y que pueden incorporar las relaciones entre términos, también se ha implementado en los últimos años.
Los vocabularios controlados elaborados a mano contribuyen a la eficiencia y la exhaustividad de las operaciones de recuperación de información y análisis de textos relacionados, pero funcionan mejor cuando los temas están definidos de forma precisa y la terminología está estandarizada. Los vocabularios controlados requieren una amplia participación y supervisión humana para mantenerse al día con la rápida evolución del lenguaje. Tampoco son adecuados para los volúmenes crecientes de texto no estructurado que cubren una cantidad ilimitada de temas y contienen miles de términos únicos, ya que es necesario introducir constantemente nuevos términos y temas. Los vocabularios controlados también tienden a capturar una cosmovisión particular en un momento específico, lo que dificulta su modificación si cambian los conceptos en un área temática determinada. [7]
Los sistemas de recuperación de información que incorporan este enfoque cuentan la cantidad de veces que grupos de términos aparecen juntos (coocurren) dentro de una ventana deslizante de términos u oraciones (por ejemplo, ± 5 oraciones o ± 50 palabras) dentro de un documento. Se basa en la idea de que las palabras que aparecen juntas en contextos similares tienen significados similares. Es local en el sentido de que la ventana deslizante de términos y oraciones que se utiliza para determinar la coocurrencia de términos es relativamente pequeña.
Este enfoque es simple, pero captura solo una pequeña parte de la información semántica contenida en una colección de texto. En el nivel más básico, numerosos experimentos han demostrado que aproximadamente solo una cuarta parte de la información contenida en el texto es de naturaleza local. [8] Además, para ser más eficaz, este método requiere un conocimiento previo sobre el contenido del texto, lo que puede resultar difícil con colecciones de documentos grandes y no estructurados. [7]
Algunos de los enfoques más potentes para el procesamiento semántico se basan en el uso de técnicas de transformación matemática. Las técnicas de descomposición matricial han sido las más exitosas. Algunas técnicas de descomposición matricial ampliamente utilizadas incluyen las siguientes: [9]
Las técnicas de descomposición matricial se basan en datos, lo que evita muchos de los inconvenientes asociados a las estructuras auxiliares. También son de naturaleza global, lo que significa que son capaces de extraer información y representar información semántica de forma mucho más robusta que las técnicas basadas en estadísticas de coocurrencia local. [7]
El análisis de componentes independientes es una técnica que crea representaciones dispersas de manera automatizada, [10] y los enfoques de matriz semidiscreta y no negativa sacrifican la precisión de la representación para reducir la complejidad computacional. [7]
La descomposición en valores singulares (SVD, por sus siglas en inglés) se aplicó por primera vez a textos en Bell Labs a fines de la década de 1980. Se utilizó como base para una técnica llamada indexación semántica latente (LSI, por sus siglas en inglés) debido a su capacidad para encontrar el significado semántico que está latente en una colección de texto. Al principio, la SVD tardó en adoptarse debido a los requisitos de recursos necesarios para trabajar con grandes conjuntos de datos. Sin embargo, el uso de LSI se ha expandido significativamente en los últimos años a medida que se han superado los desafíos anteriores en escalabilidad y rendimiento. [11] e incluso se ha convertido en código abierto. [12] LSI se está utilizando en una variedad de aplicaciones de recuperación de información y procesamiento de texto, aunque su aplicación principal ha sido para la búsqueda de conceptos y la categorización automatizada de documentos. [13]
La eficacia de una búsqueda de conceptos puede depender de diversos elementos, entre ellos el conjunto de datos que se busca y el motor de búsqueda que se utiliza para procesar las consultas y mostrar los resultados. Sin embargo, la mayoría de los motores de búsqueda de conceptos funcionan mejor para determinados tipos de consultas:
Al igual que con todas las estrategias de búsqueda, los buscadores experimentados generalmente refinan sus consultas a través de múltiples búsquedas, comenzando con una consulta inicial para obtener resultados conceptualmente relevantes que luego se pueden usar para componer y/o refinar consultas adicionales para obtener resultados cada vez más relevantes. Dependiendo del motor de búsqueda, usar los conceptos de consulta encontrados en los documentos de resultados puede ser tan fácil como seleccionar un documento y realizar una función de búsqueda similar . Cambiar una consulta agregando términos y conceptos para mejorar la relevancia del resultado se llama expansión de consulta . [19] Se ha estudiado el uso de ontologías como WordNet para expandir consultas con palabras conceptualmente relacionadas. [20]
La retroalimentación de relevancia es una característica que ayuda a los usuarios a determinar si los resultados devueltos para sus consultas satisfacen sus necesidades de información. En otras palabras, la relevancia se evalúa en relación con una necesidad de información, no con una consulta. Un documento es relevante si aborda la necesidad de información indicada, no porque simplemente contenga todas las palabras de la consulta. [21] Es una forma de involucrar a los usuarios en el proceso de recuperación para mejorar el conjunto de resultados finales. [21] Los usuarios pueden refinar sus consultas en función de sus resultados iniciales para mejorar la calidad de sus resultados finales.
En general, la relevancia de la búsqueda de conceptos se refiere al grado de similitud entre los conceptos expresados en la consulta y los conceptos contenidos en los resultados devueltos para la consulta. Cuanto más similares sean los conceptos de los resultados con los conceptos contenidos en la consulta, más relevantes se considerarán los resultados. Los resultados suelen clasificarse y ordenarse por relevancia, de modo que los resultados más relevantes se encuentren en la parte superior de la lista de resultados y los menos relevantes en la parte inferior.
Se ha demostrado que la retroalimentación de relevancia es muy eficaz para mejorar la relevancia de los resultados. [21] Una búsqueda de conceptos disminuye el riesgo de perder elementos de resultados importantes porque se devolverán todos los elementos relacionados con los conceptos de la consulta, independientemente de que contengan o no las mismas palabras utilizadas en la consulta. [15]
La clasificación seguirá siendo parte de cualquier sistema moderno de recuperación de información. Sin embargo, los problemas de los datos heterogéneos, la escala y los tipos de discurso no tradicionales reflejados en el texto, junto con el hecho de que los motores de búsqueda serán cada vez más componentes integrados de procesos complejos de gestión de información, no solo sistemas independientes, requerirán nuevos tipos de respuestas del sistema a una consulta. Por ejemplo, uno de los problemas con las listas clasificadas es que podrían no revelar las relaciones que existen entre algunos de los elementos de los resultados. [22]
La evaluación formalizada de los motores de búsqueda se ha llevado a cabo durante muchos años. Por ejemplo, la Text REtrieval Conference (TREC) se inició en 1992 para apoyar la investigación dentro de la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación a gran escala de las metodologías de recuperación de texto. La mayoría de los motores de búsqueda comerciales actuales incluyen tecnología desarrollada por primera vez en TREC. [24]
En 1997 se puso en marcha una contraparte japonesa del TREC, denominada National Institute of Informatics Test Collection for IR Systems (NTCIR). El NTCIR lleva a cabo una serie de talleres de evaluación para la investigación en recuperación de información, respuesta a preguntas, resumen automático , etc. En 2001 se inició una serie de talleres europeos denominados Cross-Language Evaluation Forum (CLEF) para ayudar a la investigación en el acceso a la información multilingüe. En 2002 se estableció la Initiative for the Evaluation of XML Retrieval (INEX) para la evaluación de sistemas de recuperación XML orientados al contenido.
La precisión y la recuperación han sido dos de las medidas de rendimiento tradicionales para evaluar los sistemas de recuperación de información. La precisión es la fracción de los documentos de resultados recuperados que son relevantes para la necesidad de información del usuario. La recuperación se define como la fracción de documentos relevantes en toda la colección que se devuelven como documentos de resultados. [21]
Aunque los talleres y las colecciones de pruebas disponibles públicamente que se utilizan para probar y evaluar los motores de búsqueda han proporcionado conocimientos sustanciales sobre cómo se gestiona y recupera la información, el campo solo ha arañado la superficie de los desafíos que enfrentan las personas y las organizaciones para encontrar, gestionar y utilizar la información ahora que hay tanta información disponible. [22] Los datos científicos sobre cómo las personas utilizan las herramientas de información disponibles para ellas hoy en día aún son incompletos porque las metodologías de investigación experimental no han podido seguir el ritmo rápido del cambio. Aún es necesario abordar muchos desafíos, como la búsqueda contextualizada, la gestión de información personal, la integración de información y el soporte de tareas. [22]