Este artículo necesita citas adicionales para su verificación . ( marzo de 2019 ) |
La lexicología computacional es una rama de la lingüística computacional que estudia el uso de ordenadores en el estudio del léxico . Algunos investigadores la han descrito de forma más restringida (Amsler, 1980) como el uso de ordenadores en el estudio de diccionarios legibles por máquina . Se distingue de la lexicografía computacional , que sería más propiamente el uso de ordenadores en la construcción de diccionarios, aunque algunos investigadores han utilizado lexicografía computacional como sinónimo .
La lexicología computacional surgió como una disciplina separada dentro de la lingüística computacional con la aparición de diccionarios legibles por máquina, comenzando con la creación de las cintas legibles por máquina del Merriam-Webster Seventh Collegiate Dictionary y el Merriam-Webster New Pocket Dictionary en la década de 1960 por John Olney et al. en System Development Corporation . Hoy en día, la lexicología computacional es mejor conocida a través de la creación y aplicaciones de WordNet . A medida que el procesamiento computacional de los investigadores aumentó con el tiempo, el uso de la lexicología computacional se ha aplicado de forma ubicua en el análisis de texto. En 1987, entre otros, Byrd, Calzolari, Chodorow desarrollaron herramientas computacionales para el análisis de texto. En particular, el modelo fue diseñado para coordinar las asociaciones que involucran los sentidos de palabras polisémicas . [1]
La lexicología computacional ha contribuido a la comprensión del contenido y las limitaciones de los diccionarios impresos para fines computacionales (es decir, ha aclarado que el trabajo previo de lexicografía no era suficiente para las necesidades de la lingüística computacional). A través del trabajo de los lexicólogos computacionales se ha estudiado casi cada parte de una entrada de diccionario impreso, desde:
Muchos lingüistas computacionales se sintieron desencantados con los diccionarios impresos como recurso para la lingüística computacional porque carecían de suficiente información sintáctica y semántica para los programas informáticos. El trabajo sobre lexicología computacional condujo rápidamente a esfuerzos en dos direcciones adicionales.
En primer lugar, las actividades de colaboración entre lingüistas computacionales y lexicógrafos condujeron a una comprensión del papel que desempeñaban los corpus en la creación de diccionarios. La mayoría de los lexicólogos computacionales pasaron a construir grandes corpus para reunir los datos básicos que los lexicógrafos habían utilizado para crear diccionarios. La ACL/DCI (Iniciativa de Recopilación de Datos) y el LDC ( Consorcio de Datos Lingüísticos ) siguieron este camino. La llegada de los lenguajes de marcado condujo a la creación de corpus etiquetados que podían analizarse más fácilmente para crear sistemas lingüísticos computacionales. Los corpus etiquetados con partes del discurso y los corpus etiquetados semánticamente se crearon con el fin de probar y desarrollar etiquetadores POS y tecnología de desambiguación semántica de palabras .
La segunda dirección fue la creación de bases de conocimiento léxico (LKB, por sus siglas en inglés). Se consideró que una base de conocimiento léxico era lo que un diccionario debería ser para fines lingüísticos computacionales, especialmente para fines léxico-semánticos computacionales. Debía tener la misma información que un diccionario impreso, pero totalmente explicada en cuanto a los significados de las palabras y los vínculos apropiados entre los sentidos. Muchos comenzaron a crear los recursos que deseaban que fueran los diccionarios, si hubieran sido creados para su uso en análisis computacional. WordNet puede considerarse un desarrollo de este tipo, al igual que los esfuerzos más recientes para describir información sintáctica y semántica, como el trabajo FrameNet de Fillmore. Fuera de la lingüística computacional, el trabajo de ontología de la inteligencia artificial puede verse como un esfuerzo evolutivo para construir una base de conocimiento léxico para aplicaciones de IA.
Optimizar la producción, el mantenimiento y la extensión de los léxicos computacionales es uno de los aspectos cruciales que afectan al procesamiento del lenguaje natural . El principal problema es la interoperabilidad : con frecuencia, varios léxicos son incompatibles. La situación más frecuente es: ¿cómo fusionar dos léxicos o fragmentos de léxicos? Un problema secundario es que un léxico suele estar diseñado específicamente para un programa de procesamiento del lenguaje natural y tiene dificultades para ser utilizado en otros programas o aplicaciones de procesamiento del lenguaje natural.
En este sentido, los diversos modelos de datos de léxicos computacionales son estudiados por ISO/TC37 desde 2003 dentro del marco del proyecto de marcado léxico, dando lugar a una norma ISO en 2008.
Amsler, Robert A. 1980. Tesis doctoral, "La estructura del diccionario de bolsillo Merriam-Webster". Universidad de Texas en Austin.