Los protocolos de evaluación de TREC han mejorado muchas tecnologías de búsqueda. Un estudio de 2010 estimó que "sin TREC, los usuarios de Internet de Estados Unidos habrían pasado hasta 3.150 millones de horas adicionales utilizando motores de búsqueda web entre 1999 y 2009". [1] Hal Varian, economista jefe de Google, escribió que "los datos de TREC revitalizaron la investigación sobre recuperación de información. Disponer de un conjunto de datos estándar, ampliamente disponible y cuidadosamente elaborado sentó las bases para una mayor innovación en este campo". [2]
Cada pista tiene un desafío en el que el NIST proporciona a los grupos participantes conjuntos de datos y problemas de prueba. Según la pista, los problemas de prueba pueden ser preguntas, temas o características extraíbles de destino . Se realiza una puntuación uniforme para que los sistemas puedan evaluarse de manera justa. Después de la evaluación de los resultados, un taller ofrece un lugar para que los participantes recopilen pensamientos e ideas y presenten trabajos de investigación actuales y futuros. La Conferencia de Recuperación de Texto comenzó en 1992, financiada por DARPA (Proyecto de Investigación Avanzada de Defensa de EE. UU.) y dirigida por el NIST. Su propósito era apoyar la investigación dentro de la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación a gran escala de las metodologías de recuperación de texto.
Objetivos
Fomentar la búsqueda de recuperación basada en grandes colecciones de texto
Aumentar la comunicación entre la industria, la academia y el gobierno creando un foro abierto para el intercambio de ideas de investigación.
Acelerar la transferencia de tecnología de los laboratorios de investigación a los productos comerciales demostrando mejoras sustanciales en las metodologías de recuperación de problemas del mundo real.
Aumentar la disponibilidad de técnicas de evaluación apropiadas para su uso por parte de la industria y el mundo académico, incluido el desarrollo de nuevas técnicas de evaluación más aplicables a los sistemas actuales.
El TREC está supervisado por un comité de programa compuesto por representantes del gobierno, la industria y el mundo académico. Para cada TREC, el NIST proporciona un conjunto de documentos y preguntas. Los participantes ejecutan su propio sistema de recuperación de datos y devuelven al NIST una lista de los documentos recuperados mejor clasificados. El NIST agrupa los resultados individuales, juzga la exactitud de los documentos recuperados y evalúa los resultados. El ciclo TREC finaliza con un taller que es un foro para que los participantes compartan sus experiencias.
Sentencias de relevancia en TREC
TREC define la relevancia como: "Si estuviera escribiendo un informe sobre el tema del tema y utilizara la información contenida en el documento en el informe, entonces el documento es relevante". [3] La mayoría de las tareas de recuperación de TREC utilizan la relevancia binaria: un documento es relevante o no relevante. Algunas tareas de TREC utilizan la relevancia graduada, capturando múltiples grados de relevancia. La mayoría de las colecciones de TREC son demasiado grandes para realizar una evaluación de relevancia completa; para estas colecciones es imposible calcular la recuperación absoluta para cada consulta. Para decidir qué documentos evaluar, TREC generalmente utiliza un método de agrupación de llamadas. En este método, se agregan los n documentos mejor clasificados de cada ejecución contribuyente y el conjunto de documentos resultante se juzga por completo.
Varios TREC
En 1992 se celebró la TREC-1 en el NIST. La primera conferencia atrajo a 28 grupos de investigadores del mundo académico y de la industria. En ella se demostró una amplia gama de enfoques diferentes para la recuperación de texto de grandes colecciones de documentos. Finalmente, la TREC1 reveló que la construcción automática de consultas a partir de enunciados de consulta en lenguaje natural parece funcionar. Las técnicas basadas en el procesamiento del lenguaje natural no eran ni mejores ni peores que las basadas en enfoques vectoriales o probabilísticos.
El TREC2 se llevó a cabo en agosto de 1993. En él participaron 31 grupos de investigadores. Se examinaron dos tipos de recuperación: la recuperación mediante una consulta "ad hoc" y la recuperación mediante una consulta "de enrutamiento".
En TREC-3, un pequeño grupo de experimentos trabajó con una colección de idiomas en español y otros se ocuparon de la formulación de consultas interactivas en múltiples bases de datos.
TREC-4 lo hicieron aún más corto para investigar los problemas con declaraciones de usuario muy cortas
TREC-5 incluye versiones cortas y largas de los temas con el objetivo de realizar una investigación más profunda sobre qué tipos de técnicas funcionan bien en temas de distintas duraciones.
En TREC-6 se introdujeron tres nuevas vías de recuperación de información de alta precisión, en varios idiomas y con voz. El objetivo de la recuperación de información en varios idiomas es facilitar la investigación en sistemas que puedan recuperar documentos relevantes independientemente del idioma del documento de origen.
TREC-7 contenía siete pistas, de las cuales dos eran una pista de consulta nueva y una pista de corpus muy grande. El objetivo de la pista de consulta era crear una gran colección de consultas.
TREC-8 contiene siete pistas, de las cuales dos (pistas de preguntas y respuestas y web) son nuevas. El objetivo de la consulta de control de calidad es explorar las posibilidades de proporcionar respuestas a consultas específicas en lenguaje natural.
TREC-9 Incluye siete pistas
En TREC-10 se introdujeron las pistas de video Diseño de pistas de video para promover la investigación en la recuperación basada en contenido de videos digitales
En TREC-11 se introdujeron las pistas de novedad. El objetivo de la pista de novedad es investigar las capacidades de los sistemas para localizar información relevante y nueva dentro del conjunto de documentos clasificados que arroja un sistema de recuperación de documentos tradicional.
En el TREC-12 celebrado en 2003 se agregaron tres nuevas pistas: pista de genoma, pista de recuperación robusta, HARD (recuperación de alta precisión de documentos) [4]
Pistas
Pistas actuales
Se agregan nuevas pistas a medida que se identifican nuevas necesidades de investigación; esta lista está actualizada para TREC 2018. [5]
CENTRE Track – Objetivo: ejecutar en paralelo CLEF 2018, NTCIR-14, TREC 2018 para desarrollar y ajustar un protocolo de evaluación de reproducibilidad IR (nueva pista para 2018).
Common Core Track – Objetivo: una tarea de búsqueda ad hoc sobre documentos de noticias.
Recuperación de respuestas complejas (CAR) – Objetivo: desarrollar sistemas capaces de responder a necesidades de información complejas mediante la recopilación de información de un corpus completo.
Línea de Flujos de Incidentes – Objetivo: investigar tecnologías para procesar automáticamente los flujos de las redes sociales durante situaciones de emergencia (nueva línea para TREC 2018).
The News Track – Objetivo: asociación con The Washington Post para desarrollar colecciones de prueba en el entorno de noticias (nuevo para 2018).
Área de Medicina de Precisión – Objetivo: una especialización del área de Apoyo a la toma de decisiones clínicas centrada en vincular los datos de pacientes oncológicos con los ensayos clínicos.
Pista de resumen en tiempo real (RTS): Objetivo: explorar técnicas para resúmenes de actualizaciones en tiempo real a partir de transmisiones de redes sociales.
Pistas pasadas
Chemical Track – Objetivo: desarrollar y evaluar tecnología para la búsqueda a gran escala de documentos relacionados con la química , incluidos artículos académicos y patentes, para satisfacer mejor las necesidades de los investigadores profesionales, y específicamente de los investigadores de patentes y químicos.
Pista de apoyo a la toma de decisiones clínicas: objetivo: investigar técnicas para vincular casos médicos con información relevante para la atención al paciente.
Ruta de sugerencias contextuales – Objetivo: investigar técnicas de búsqueda para necesidades de información complejas que dependen en gran medida del contexto y los intereses del usuario.
Crowdsourcing Track – Objetivo: proporcionar un espacio colaborativo para explorar métodos de crowdsourcing tanto para evaluar la búsqueda como para realizar tareas de búsqueda.
Área de Genómica – Objetivo: estudiar la recuperación de datos genómicos , no sólo secuencias genéticas sino también documentación de apoyo como artículos de investigación, informes de laboratorio, etc. Última ejecución en TREC 2007.
Pista de dominio dinámico – Objetivo: investigar algoritmos de búsqueda específicos del dominio que se adapten a las necesidades de información dinámica de los usuarios profesionales a medida que exploran en dominios complejos.
Enterprise Track – Objetivo: estudiar la búsqueda de datos de una organización para completar alguna tarea. Última ejecución en TREC 2008.
Seguimiento de entidades : objetivo: realizar búsquedas relacionadas con entidades en datos web. Estas tareas de búsqueda (como encontrar entidades y propiedades de entidades) abordan necesidades de información comunes que no están tan bien modeladas como la búsqueda de documentos ad hoc.
Vía interlingüística : objetivo: investigar la capacidad de los sistemas de recuperación para encontrar documentos por tema, independientemente del idioma de origen. Después de 1999, esta vía se convirtió en CLEF .
FedWeb Track – Objetivo: seleccionar los mejores recursos a los que reenviar una consulta y combinar los resultados para que los más relevantes aparezcan en la parte superior.
Curso de búsqueda web federada – Objetivo: investigar técnicas para la selección y combinación de resultados de búsqueda de una gran cantidad de servicios de búsqueda web reales en línea.
Pista de filtrado: Objetivo: decidir de forma binaria la recuperación de nuevos documentos entrantes dada una necesidad de información estable .
Ruta HARD – Objetivo: lograr una recuperación de alta precisión de documentos aprovechando información adicional sobre el buscador y/o el contexto de búsqueda.
Pista interactiva – Objetivo: estudiar la interacción del usuario con los sistemas de recuperación de texto.
Aceleración de la base de conocimiento (KBA) – Objetivo: desarrollar técnicas para mejorar drásticamente la eficiencia de los curadores de bases de conocimiento (humanos) haciendo que el sistema sugiera modificaciones/extensiones a la KB en función de su monitoreo de los flujos de datos, creó el KBA streamcorpus, organizado por Diffeo . [6]
Legal Track – Objetivo: desarrollar tecnología de búsqueda que satisfaga las necesidades de los abogados para participar en un descubrimiento efectivo en colecciones de documentos digitales .
LiveQA Track – Objetivo: generar respuestas a preguntas reales provenientes de usuarios reales a través de una transmisión de preguntas en vivo, en tiempo real.
Ruta de registros médicos – Objetivo: explorar métodos para buscar información no estructurada que se encuentra en los registros médicos de los pacientes.
Microblog Track – Objetivo: examinar la naturaleza de las necesidades de información en tiempo real y su satisfacción en el contexto de entornos de microblogging como Twitter.
Procesamiento del lenguaje natural Objetivo: examinar cómo herramientas específicas desarrolladas por lingüistas computacionales podrían mejorar la recuperación.
Ruta de Novedad – Objetivo: investigar las capacidades de los sistemas para localizar información nueva (es decir, no redundante).
Programa OpenSearch: objetivo: explorar un paradigma de evaluación para la investigación de relaciones con los clientes que involucre a usuarios reales de motores de búsqueda operativos. En el primer año del programa, la tarea fue la búsqueda académica ad hoc.
Pista de resumen en tiempo real: Objetivo: explorar técnicas para construir resúmenes de actualizaciones en tiempo real a partir de transmisiones de redes sociales en respuesta a las necesidades de información de los usuarios.
Ruta de recuperación robusta – Objetivo: centrarse en la eficacia de cada tema individual.
Seguimiento de sesiones – Objetivo: desarrollar métodos para medir sesiones de consultas múltiples donde las necesidades de información varían o se vuelven más o menos específicas a lo largo de la sesión.
Spam Track – Objetivo: proporcionar una evaluación estándar de los enfoques de filtrado de spam actuales y propuestos .
Seguimiento de tareas: Objetivo: probar si los sistemas pueden inducir las posibles tareas que los usuarios podrían estar intentando realizar dada una consulta.
Pista de Resumen Temporal – Objetivo: desarrollar sistemas que permitan a los usuarios monitorear de manera eficiente la información asociada a un evento a lo largo del tiempo.
Terabyte Track – Objetivo: investigar si la comunidad IR puede escalar la evaluación tradicional basada en la recopilación de pruebas IR a colecciones significativamente grandes y de qué manera.
Ruta de recuperación total: Objetivo: evaluar métodos para lograr una recuperación muy alta, incluidos métodos que incluyen un evaluador humano en el circuito.
Pista de video : objetivo: investigar sobre segmentación automática, indexación y recuperación basada en contenido de video digital . En 2003, esta pista se convirtió en su propia evaluación independiente denominada TRECVID
Web Track – Objetivo: explorar los comportamientos de búsqueda de información comunes en la búsqueda web general.
Eventos relacionados
En 1997, se lanzó una contraparte japonesa de TREC (el primer taller se realizó en 1999), llamada NTCIR ( NII Test Collection for IR Systems), y en 2000, se lanzó CLEF , una contraparte europea, específicamente orientada al estudio de la recuperación de información en varios idiomas. El Foro para la Evaluación de la Recuperación de Información (FIRE) comenzó en 2008 con el objetivo de construir una contraparte del sur de Asia para TREC, CLEF y NTCIR.
Contribuciones de la conferencia a la eficacia de la búsqueda
This article needs to be updated. Please help update this section to reflect recent events or newly available information.(August 2020)
El NIST afirma que en los primeros seis años de los talleres, la eficacia de los sistemas de recuperación de información se duplicó aproximadamente. [7] La conferencia también fue la primera en realizar evaluaciones a gran escala de documentos, voz, vídeo y recuperación de información en idiomas distintos del inglés. Además, los desafíos han inspirado una gran cantidad de publicaciones. La tecnología desarrollada por primera vez en TREC ahora está incluida en muchos de los motores de búsqueda comerciales del mundo . Un informe independiente de RTII concluyó que "alrededor de un tercio de la mejora en los motores de búsqueda web entre 1999 y 2009 es atribuible a TREC. Esas mejoras probablemente ahorraron hasta 3 mil millones de horas de tiempo de uso de motores de búsqueda web... Además, el informe mostró que por cada dólar que el NIST y sus socios invirtieron en TREC, al menos entre 3,35 y 5,07 dólares en beneficios se acumularon para los investigadores de recuperación de información de los EE. UU. tanto en el sector privado como en la academia". [8] [9]
Aunque un estudio sugiere que el estado del arte de la búsqueda ad hoc no avanzó sustancialmente en la década anterior a 2009, [10] se refiere sólo a la búsqueda de documentos relevantes por tema en pequeñas colecciones de noticias y web de unos pocos gigabytes. Ha habido avances en otros tipos de búsqueda ad hoc. Por ejemplo, se crearon colecciones de prueba para la búsqueda web de elementos conocidos que encontraron mejoras a partir del uso de texto de anclaje, ponderación de títulos y longitud de URL, que no eran técnicas útiles en las colecciones de prueba ad hoc más antiguas. En 2009, se introdujo una nueva colección web de mil millones de páginas y se descubrió que el filtrado de spam era una técnica útil para la búsqueda web ad hoc, a diferencia de las colecciones de prueba anteriores.
Las colecciones de pruebas desarrolladas en TREC son útiles no sólo para ayudar (potencialmente) a los investigadores a avanzar en el estado de la técnica, sino también para permitir que los desarrolladores de nuevos productos de recuperación (comerciales) evalúen su eficacia en pruebas estándar. En la última década, TREC ha creado nuevas pruebas para la búsqueda de correo electrónico empresarial, la búsqueda genómica, el filtrado de correo no deseado, el e-Discovery y varios otros dominios de recuperación. [ ¿cuándo? ] [ cita requerida ]
Los sistemas TREC suelen proporcionar una base para futuras investigaciones. Algunos ejemplos son:
Hal Varian , economista jefe de Google , afirma que " la mejor información permite una mejor ciencia. La historia de la recuperación de información ilustra bien este principio" y describe la contribución de TREC. [11]
La trayectoria legal de TREC ha influido en la comunidad de e-Discovery tanto en la investigación como en la evaluación de proveedores comerciales. [12]
El equipo de investigadores de IBM que creó IBM Watson (también conocido como DeepQA ), que venció a los mejores jugadores de Jeopardy! del mundo , [13] utilizó datos y sistemas de QA Track de TREC como mediciones de rendimiento de referencia. [14]
Participación
La conferencia está formada por un grupo variado e internacional de investigadores y desarrolladores. [15] [16] [17] En 2003, participaron 93 grupos tanto del ámbito académico como de la industria de 22 países.
^ Brent R. Rowe; Dallas W. Wood; Albert N. Link; Diglio A. Simoni (julio de 2010). "Evaluación del impacto económico del programa de la Conferencia de recuperación de textos (TREC) del NIST" (PDF) . RTI International .
^ Hal Varian (4 de marzo de 2008). "Por qué importan los datos".
^ "Datos - Juicios de relevancia en inglés". Instituto Nacional de Normas y Tecnología . Consultado el 18 de septiembre de 2023 .
^ Chowdhury, G. G (2003). Introducción a la recuperación de información moderna . Landon: Facet Publishing. Págs. 269-279. ISBN.978-1856044806.
^ "TREC Tracks". trec.nist.gov . Archivado desde el original el 31 de marzo de 2019. Consultado el 19 de julio de 2024 .
^ "Knowledge Base Acceleration Track" (Vía de aceleración de la base de conocimientos). NIST .gov. 2014-06-30 . Consultado el 2020-11-04 .
^ De la página de inicio de TREC: "... la efectividad se duplicó aproximadamente en los primeros seis años de TREC"
^ "La inversión del NIST mejoró significativamente los motores de búsqueda". Rti.org. Archivado desde el original el 18 de noviembre de 2011. Consultado el 19 de enero de 2012 .
^ "Informe de planificación 10-1: Evaluación del impacto económico del programa de la Conferencia de recuperación de textos (TREC) del NIST" (PDF) . Instituto Nacional de Normas y Tecnología . Diciembre de 2010.
^ Timothy G. Armstrong, Alistair Moffat, William Webber, Justin Zobel. Mejoras que no suman: resultados de recuperación ad hoc desde 1998. CIKM 2009. ACM.
^ El Grupo 451: Estándares en e-Discovery: predicando con el ejemplo
^ IBM y Jeopardy! reviven la historia con una nueva presentación de Jeopardy!: The IBM Challenge
^ Ferrucci, David; Brown, Eric; Chu-Carroll, Jennifer; Fan, James; Gondek, David; Kalyanpur, Aditya A.; Lally, Adam; Murdock, J. William; Nyberg, Eric. "Building Watson: An Overview of the DeepQA Project" (PDF) . Asociación para el Avance de la Inteligencia Artificial . Archivado desde el original (PDF) el 15 de diciembre de 2011.
^ "Participantes - Wiki de la IRF". Wiki.ir-facility.org. 2009-12-01. Archivado desde el original el 2012-02-23 . Consultado el 2012-01-19 .
^ "Text REtrieval Conference (TREC) TREC 2008 Million Query Track Results" (Conferencia de recuperación de texto (TREC) TREC 2008 Resultados de millones de consultas). Trec.nist.gov . Consultado el 19 de enero de 2012 .