Lexicología computacional

La lexicología computacional es una rama de la lingüística computacional que estudia el uso de ordenadores en el estudio del léxico . Algunos investigadores la han descrito de forma más restringida (Amsler, 1980) como el uso de ordenadores en el estudio de diccionarios legibles por máquina . Se distingue de la lexicografía computacional , que sería más propiamente el uso de ordenadores en la construcción de diccionarios, aunque algunos investigadores han utilizado lexicografía computacional como sinónimo .

Historia

La lexicología computacional surgió como una disciplina separada dentro de la lingüística computacional con la aparición de diccionarios legibles por máquina, comenzando con la creación de las cintas legibles por máquina del Merriam-Webster Seventh Collegiate Dictionary y el Merriam-Webster New Pocket Dictionary en la década de 1960 por John Olney et al. en System Development Corporation . Hoy en día, la lexicología computacional es mejor conocida a través de la creación y aplicaciones de WordNet . A medida que el procesamiento computacional de los investigadores aumentó con el tiempo, el uso de la lexicología computacional se ha aplicado de forma ubicua en el análisis de texto. En 1987, entre otros, Byrd, Calzolari, Chodorow desarrollaron herramientas computacionales para el análisis de texto. En particular, el modelo fue diseñado para coordinar las asociaciones que involucran los sentidos de palabras polisémicas . ^[1]

Estudio del léxico

La lexicología computacional ha contribuido a la comprensión del contenido y las limitaciones de los diccionarios impresos para fines computacionales (es decir, ha aclarado que el trabajo previo de lexicografía no era suficiente para las necesidades de la lingüística computacional). A través del trabajo de los lexicólogos computacionales se ha estudiado casi cada parte de una entrada de diccionario impreso, desde:

¿Qué constituye una palabra clave ? Se utiliza para generar listas de corrección ortográfica;
qué variantes e inflexiones forma el lema - se utiliza para comprender empíricamente la morfología;
cómo se delimita el lema en sílabas;
cómo se pronuncia la palabra clave: se utiliza en sistemas de generación de voz;
las partes del discurso que asume el lema - utilizadas para etiquetadores POS ;
cualquier código de tema o uso especial asignado al lema: se utiliza para identificar el tema del documento de texto;
las definiciones del lema y su sintaxis, utilizadas como ayuda para desambiguar la palabra en el contexto;
la etimología del lema y su uso para caracterizar el vocabulario según los idiomas de origen - se utiliza para caracterizar el vocabulario del texto según sus idiomas de origen;
las oraciones de ejemplo;
las palabras continuas (palabras adicionales y expresiones de varias palabras que se forman a partir de la palabra principal); y
palabras relacionadas como sinónimos y antónimos .

Muchos lingüistas computacionales se sintieron desencantados con los diccionarios impresos como recurso para la lingüística computacional porque carecían de suficiente información sintáctica y semántica para los programas informáticos. El trabajo sobre lexicología computacional condujo rápidamente a esfuerzos en dos direcciones adicionales.

Sucesores de la lexicología computacional

En primer lugar, las actividades de colaboración entre lingüistas computacionales y lexicógrafos condujeron a una comprensión del papel que desempeñaban los corpus en la creación de diccionarios. La mayoría de los lexicólogos computacionales pasaron a construir grandes corpus para reunir los datos básicos que los lexicógrafos habían utilizado para crear diccionarios. La ACL/DCI (Iniciativa de Recopilación de Datos) y el LDC ( Consorcio de Datos Lingüísticos ) siguieron este camino. La llegada de los lenguajes de marcado condujo a la creación de corpus etiquetados que podían analizarse más fácilmente para crear sistemas lingüísticos computacionales. Los corpus etiquetados con partes del discurso y los corpus etiquetados semánticamente se crearon con el fin de probar y desarrollar etiquetadores POS y tecnología de desambiguación semántica de palabras .

La segunda dirección fue la creación de bases de conocimiento léxico (LKB, por sus siglas en inglés). Se consideró que una base de conocimiento léxico era lo que un diccionario debería ser para fines lingüísticos computacionales, especialmente para fines léxico-semánticos computacionales. Debía tener la misma información que un diccionario impreso, pero totalmente explicada en cuanto a los significados de las palabras y los vínculos apropiados entre los sentidos. Muchos comenzaron a crear los recursos que deseaban que fueran los diccionarios, si hubieran sido creados para su uso en análisis computacional. WordNet puede considerarse un desarrollo de este tipo, al igual que los esfuerzos más recientes para describir información sintáctica y semántica, como el trabajo FrameNet de Fillmore. Fuera de la lingüística computacional, el trabajo de ontología de la inteligencia artificial puede verse como un esfuerzo evolutivo para construir una base de conocimiento léxico para aplicaciones de IA.

Normalización

Optimizar la producción, el mantenimiento y la extensión de los léxicos computacionales es uno de los aspectos cruciales que afectan al procesamiento del lenguaje natural . El principal problema es la interoperabilidad : con frecuencia, varios léxicos son incompatibles. La situación más frecuente es: ¿cómo fusionar dos léxicos o fragmentos de léxicos? Un problema secundario es que un léxico suele estar diseñado específicamente para un programa de procesamiento del lenguaje natural y tiene dificultades para ser utilizado en otros programas o aplicaciones de procesamiento del lenguaje natural.

En este sentido, los diversos modelos de datos de léxicos computacionales son estudiados por ISO/TC37 desde 2003 dentro del marco del proyecto de marcado léxico, dando lugar a una norma ISO en 2008.

Referencias

^ Byrd, Roy J., Nicoletta Calzolari, Martin S. Chodorow, Judith L. Klavans, Mary S. Neff y Omneya A. Rizk. "Herramientas y métodos para la lexicología computacional". Lingüística Computacional 13, no. 3-4 (1987): 219-240.

Amsler, Robert A. 1980. Tesis doctoral, "La estructura del diccionario de bolsillo Merriam-Webster". Universidad de Texas en Austin.

Enlaces externos

Problema de lexicología computacional en ACL Wiki
- 1. Wiki de ACL
- 2.Asociación de Lingüística Computacional, Página oficial
Lexicografía computacional
Marco de marcado léxico (LMF)

[1] Byrd, Roy J., Nicoletta Calzolari, Martin S. Chodorow, Judith L. Klavans, Mary S. Neff y Omneya A. Rizk. "Herramientas y métodos para la lexicología computacional". Lingüística Computacional 13, no. 3-4 (1987): 219-240.