Etiquetado de partes del discurso

Identificación de partes del discurso en un corpus de texto

En lingüística de corpus , el etiquetado de partes del discurso ( etiquetado POS o etiquetado PoS o POST ), también llamado etiquetado gramatical , es el proceso de marcar una palabra en un texto (corpus) como correspondiente a una parte particular del discurso , ^[1] basándose tanto en su definición como en su contexto . Una forma simplificada de esto se enseña comúnmente a los niños en edad escolar, en la identificación de palabras como sustantivos , verbos , adjetivos , adverbios , etc.

El etiquetado POS, que antes se hacía a mano, ahora se hace en el contexto de la lingüística computacional , utilizando algoritmos que asocian términos discretos, así como partes ocultas del discurso, mediante un conjunto de etiquetas descriptivas. Los algoritmos de etiquetado POS se dividen en dos grupos distintivos: basados en reglas y estocásticos. El etiquetador de E. Brill , uno de los primeros y más utilizados etiquetadores POS ingleses, emplea algoritmos basados en reglas.

Principio

El etiquetado de las partes del discurso es más difícil que simplemente tener una lista de palabras y sus partes del discurso, porque algunas palabras pueden representar más de una parte del discurso en diferentes momentos y porque algunas partes del discurso son complejas. Esto no es raro: en los idiomas naturales (a diferencia de muchos idiomas artificiales ), un gran porcentaje de las formas de las palabras son ambiguas . Por ejemplo, incluso "perros", que generalmente se considera simplemente un sustantivo en plural, también puede ser un verbo:

El marinero vigila la escotilla.

Una correcta clasificación gramatical reflejará que "dogs" se utiliza aquí como verbo, no como el sustantivo plural más común. El contexto gramatical es una forma de determinar esto; el análisis semántico también se puede utilizar para inferir que "marinero" y "escotilla" implican "perros" como 1) en el contexto náutico y 2) una acción aplicada al objeto "escotilla" (en este contexto, "perros" es un término náutico que significa "cierra (una puerta hermética) de forma segura").

Conjuntos de etiquetas

Las escuelas enseñan comúnmente que hay 9 partes del discurso en inglés: sustantivo , verbo , artículo , adjetivo , preposición , pronombre , adverbio , conjunción e interjección . Sin embargo, claramente hay muchas más categorías y subcategorías. Para los sustantivos, se pueden distinguir las formas plural, posesiva y singular. En muchos idiomas, las palabras también se marcan por su " caso " (rol como sujeto, objeto, etc.), género gramatical , etc.; mientras que los verbos se marcan por tiempo , aspecto y otras cosas. En algunos sistemas de etiquetado, diferentes inflexiones de la misma palabra raíz obtendrán diferentes partes del discurso, lo que resulta en una gran cantidad de etiquetas. Por ejemplo, NN para sustantivos comunes singulares, NNS para sustantivos comunes plurales, NP para sustantivos propios singulares (ver las etiquetas POS utilizadas en el Brown Corpus). Otros sistemas de etiquetado usan una cantidad menor de etiquetas e ignoran las diferencias finas o las modelan como características algo independientes de la parte del discurso. ^[2]

En el etiquetado de partes del discurso por computadora, es típico distinguir entre 50 y 150 partes del discurso separadas para el inglés. El trabajo sobre métodos estocásticos para etiquetar el griego koiné (DeRose 1990) ha utilizado más de 1.000 partes del discurso y ha descubierto que aproximadamente tantas palabras eran ambiguas en ese idioma como en inglés. Un descriptor morfosintáctico en el caso de idiomas morfológicamente ricos se expresa comúnmente utilizando mnemotecnias muy cortas, como Ncmsan para Categoría = Sustantivo, Tipo = común, Género = masculino, Número = singular, Caso = acusativo, Animado = no.

El "conjunto de etiquetas" más popular para el etiquetado POS en inglés americano es probablemente el conjunto de etiquetas Penn, desarrollado en el proyecto Penn Treebank. Es muy similar a los conjuntos de etiquetas Brown Corpus y LOB Corpus anteriores, aunque mucho más pequeño. En Europa, los conjuntos de etiquetas de las Directrices Eagles se utilizan ampliamente e incluyen versiones para varios idiomas.

Se han realizado trabajos de etiquetado POS en una variedad de idiomas, y el conjunto de etiquetas POS utilizadas varía mucho según el idioma. Las etiquetas suelen estar diseñadas para incluir distinciones morfológicas evidentes, aunque esto conduce a inconsistencias como el marcado de casos para pronombres pero no para sustantivos en inglés, y a diferencias mucho mayores entre idiomas. Los conjuntos de etiquetas para idiomas con una gran inflexión como el griego y el latín pueden ser muy grandes; etiquetar palabras en idiomas aglutinantes como los idiomas inuit puede ser virtualmente imposible. En el otro extremo, Petrov et al. ^[3] han propuesto un conjunto de etiquetas "universal", con 12 categorías (por ejemplo, sin subtipos de sustantivos, verbos, puntuación, etc.). Si es preferible un conjunto muy pequeño de etiquetas muy amplias o un conjunto mucho más grande de etiquetas más precisas, depende del propósito en cuestión. El etiquetado automático es más fácil en conjuntos de etiquetas más pequeños.

Historia

El corpus marrón

La investigación sobre el etiquetado de categorías gramaticales ha estado estrechamente vinculada a la lingüística de corpus . El primer corpus importante de inglés para análisis informático fue el Brown Corpus desarrollado en la Universidad Brown por Henry Kučera y W. Nelson Francis , a mediados de la década de 1960. Consiste en alrededor de 1.000.000 de palabras de texto en prosa en inglés, compuesto por 500 muestras de publicaciones elegidas al azar. Cada muestra tiene 2.000 o más palabras (que terminan en la primera oración después de 2.000 palabras, de modo que el corpus contiene solo oraciones completas).

El Corpus Brown fue cuidadosamente "etiquetado" con marcadores de categorías gramaticales durante muchos años. Una primera aproximación se realizó con un programa de Greene y Rubin, que consistía en una enorme lista hecha a mano de las categorías que podían coexistir. Por ejemplo, puede aparecer un artículo seguido de un sustantivo, pero no puede aparecer un artículo seguido de un verbo (posiblemente). El programa acertó aproximadamente el 70%. Sus resultados fueron revisados y corregidos repetidamente a mano, y los usuarios posteriores enviaron erratas de modo que a fines de los años 70 el etiquetado era casi perfecto (lo que permitía algunos casos en los que incluso los hablantes humanos podrían no estar de acuerdo).

Este corpus se ha utilizado para innumerables estudios de frecuencia de palabras y de categorías gramaticales, y ha inspirado el desarrollo de corpus "etiquetados" similares en muchos otros idiomas. Las estadísticas derivadas de su análisis formaron la base de la mayoría de los sistemas de etiquetado de categorías gramaticales posteriores, como CLAWS y VOLSUNGA. Sin embargo, en ese momento (2005) ha sido reemplazado por corpus más grandes, como el British National Corpus de 100 millones de palabras , aunque los corpus más grandes rara vez están tan cuidadosamente seleccionados.

Durante algún tiempo, el etiquetado de categorías gramaticales se consideró una parte inseparable del procesamiento del lenguaje natural , porque hay ciertos casos en los que no se puede decidir la categoría gramática correcta sin comprender la semántica o incluso la pragmática del contexto. Esto es extremadamente costoso, especialmente porque analizar los niveles superiores es mucho más difícil cuando se deben considerar múltiples posibilidades de categorías gramaticales para cada palabra.

Uso de modelos ocultos de Markov

A mediados de los años 1980, los investigadores europeos comenzaron a utilizar modelos ocultos de Markov (HMM) para desambiguar las partes del discurso, cuando trabajaban para etiquetar el Corpus Lancaster-Oslo-Bergen del inglés británico. Los HMM implican contar casos (como los del Corpus Brown) y hacer una tabla de las probabilidades de ciertas secuencias. Por ejemplo, una vez que haya visto un artículo como "the", tal vez la siguiente palabra sea un sustantivo el 40% de las veces, un adjetivo el 40% y un número el 20%. Sabiendo esto, un programa puede decidir que "can" en "the can" es mucho más probable que sea un sustantivo que un verbo o un modal. Por supuesto, el mismo método se puede utilizar para beneficiarse del conocimiento sobre las siguientes palabras.

Los HMM más avanzados ("de orden superior") aprenden las probabilidades no solo de pares, sino de triples o incluso de secuencias más grandes. Por ejemplo, si acaba de ver un sustantivo seguido de un verbo, es muy probable que el siguiente elemento sea una preposición, un artículo o un sustantivo, pero mucho menos probable que sea otro verbo.

Cuando se dan varias palabras ambiguas juntas, las posibilidades se multiplican. Sin embargo, es fácil enumerar todas las combinaciones y asignar una probabilidad relativa a cada una, multiplicando las probabilidades de cada elección por turno. A continuación, se elige la combinación con la probabilidad más alta. El grupo europeo desarrolló CLAWS, un programa de etiquetado que hizo exactamente esto y logró una precisión del 93-95%.

Eugene Charniak señala en Técnicas estadísticas para el análisis del lenguaje natural (1997) ^[4] que simplemente asignar la etiqueta más común a cada palabra conocida y la etiqueta " nombre propio " a todas las desconocidas alcanzará una precisión del 90% porque muchas palabras son inequívocas y muchas otras rara vez representan sus partes menos comunes del discurso.

CLAWS fue pionero en el campo del etiquetado de partes del discurso basado en HMM, pero era bastante costoso ya que enumeraba todas las posibilidades. A veces tenía que recurrir a métodos de respaldo cuando simplemente había demasiadas opciones (el Brown Corpus contiene un caso con 17 palabras ambiguas seguidas, y hay palabras como "still" que pueden representar hasta 7 partes distintas del discurso. ^[5]

Los HMM son la base del funcionamiento de los etiquetadores estocásticos y se utilizan en varios algoritmos, uno de los más utilizados es el algoritmo de inferencia bidireccional. ^[6]

Métodos de programación dinámica

En 1987, Steven DeRose ^[7] y Kenneth W. Church ^[8] desarrollaron de forma independiente algoritmos de programación dinámica para resolver el mismo problema en mucho menos tiempo. Sus métodos eran similares al algoritmo de Viterbi conocido desde hacía algún tiempo en otros campos. DeRose utilizó una tabla de pares, mientras que Church utilizó una tabla de triples y un método para estimar los valores de los triples que eran raros o inexistentes en el Corpus Brown (una medición real de las probabilidades de los triples requeriría un corpus mucho más grande). Ambos métodos lograron una precisión de más del 95%. La disertación de 1990 de DeRose en la Universidad Brown incluyó análisis de los tipos de error específicos, las probabilidades y otros datos relacionados, y replicó su trabajo para el griego, donde demostró ser igualmente eficaz.

Estos hallazgos fueron sorprendentemente disruptivos para el campo del procesamiento del lenguaje natural. La precisión reportada fue mayor que la precisión típica de algoritmos muy sofisticados que integraban la elección de la parte del discurso con muchos niveles superiores de análisis lingüístico: sintaxis, morfología, semántica, etc. Los métodos de CLAWS, DeRose y Church fallaron en algunos de los casos conocidos en los que se requiere semántica, pero estos resultaron insignificantemente raros. Esto convenció a muchos en el campo de que el etiquetado de las partes del discurso podría separarse de manera útil de los otros niveles de procesamiento; esto, a su vez, simplificó la teoría y la práctica del análisis lingüístico computarizado y alentó a los investigadores a encontrar formas de separar también otras piezas. Los modelos de Markov se convirtieron en el método estándar para la asignación de partes del discurso.

Etiquetadores sin supervisión

Los métodos ya analizados implican trabajar a partir de un corpus preexistente para aprender las probabilidades de las etiquetas. Sin embargo, también es posible realizar un bootstrap utilizando el etiquetado "no supervisado". Las técnicas de etiquetado no supervisado utilizan un corpus no etiquetado para sus datos de entrenamiento y producen el conjunto de etiquetas por inducción. Es decir, observan patrones en el uso de las palabras y derivan categorías de categorías gramaticales por sí mismas. Por ejemplo, las estadísticas revelan fácilmente que "the", "a" y "an" aparecen en contextos similares, mientras que "eat" aparece en contextos muy diferentes. Con suficiente iteración, surgen clases de palabras por similitud que son notablemente similares a las que los lingüistas humanos esperarían; y las diferencias en sí mismas a veces sugieren nuevas perspectivas valiosas.

Estas dos categorías pueden subdividirse en enfoques basados en reglas, estocásticos y neuronales.

Otros etiquetadores y métodos

Algunos de los principales algoritmos actuales para el etiquetado de categorías gramaticales incluyen el algoritmo de Viterbi , el etiquetador de Brill , la gramática de restricciones y el algoritmo de Baum-Welch (también conocido como algoritmo de avance-retroceso). Los etiquetadores de modelos de Markov ocultos y visibles pueden implementarse utilizando el algoritmo de Viterbi. El etiquetador de Brill basado en reglas es inusual porque aprende un conjunto de patrones de reglas y luego aplica esos patrones en lugar de optimizar una cantidad estadística.

También se han aplicado muchos métodos de aprendizaje automático al problema del etiquetado POS. Se han probado métodos como SVM , clasificador de máxima entropía , perceptrón y vecino más cercano , y la mayoría puede lograr una precisión superior al 95 %. ^{[ cita requerida ]}

En la Wiki de ACL se presenta una comparación directa de varios métodos (con referencias). ^[9] Esta comparación utiliza el conjunto de etiquetas Penn en algunos de los datos de Penn Treebank, por lo que los resultados son directamente comparables. Sin embargo, muchos etiquetadores importantes no están incluidos (quizás debido al trabajo que implica reconfigurarlos para este conjunto de datos en particular). Por lo tanto, no se debe asumir que los resultados informados aquí son los mejores que se pueden lograr con un enfoque determinado; ni siquiera los mejores que se han logrado con un enfoque determinado.

En 2014, se publicó un artículo en el que se informaba sobre el uso del método de regularización de estructura para el etiquetado de partes del discurso, logrando un 97,36 % en un conjunto de datos de referencia estándar. ^[10]

Véase también

Referencias

^ "Etiquetas POS". Sketch Engine . Computación léxica. 27 de marzo de 2018. Consultado el 6 de abril de 2018 .
^ Etiquetas POS universales
^ Petrov, eslavo; Das, Dipanjan; McDonald, Ryan (11 de abril de 2011). "Un conjunto de etiquetas universales de parte del discurso". arXiv : 1104.2086 [cs.CL].
^ Eugene Charniak
^ DeRose 1990, pág. 82.
^ Etiquetadora POS CLL
^ DeRose, Steven J. (1988). "Desambiguación de categorías gramaticales mediante optimización estadística". Computational Linguistics . 14 (1): 31–39.
^ Kenneth Ward Church (1988). "Un programa de partes estocásticas y un analizador de frases nominales para texto sin restricciones". En Norm Sondheimer (ed.). ANLC '88: Actas de la Segunda Conferencia sobre Procesamiento Aplicado del Lenguaje Natural . Asociación de Lingüística Computacional. p. 136. doi : 10.3115/974235.974260 .
^ Etiquetado POS (estado del arte)
^ Xu Sun (2014). Regularización de estructuras para predicción estructurada (PDF) . Sistemas de procesamiento de información neuronal (NIPS). pp. 2402–2410 . Consultado el 20 de agosto de 2021 .

Obras citadas

Charniak, Eugene. 1997. "Técnicas estadísticas para el análisis del lenguaje natural". AI Magazine 18(4):33–44.
Hans van Halteren, Jakub Zavrel, Walter Daelemans . 2001. Mejora de la precisión en el procesamiento del lenguaje natural mediante la combinación de sistemas de aprendizaje automático. Computational Linguistics . 27(2): 199–229. PDF
DeRose, Steven J. 1990. "Métodos estocásticos para la resolución de la ambigüedad de categorías gramaticales en lenguas flexivas y no flexivas". Tesis doctoral. Providence, RI: Departamento de Ciencias Cognitivas y Lingüísticas de la Universidad Brown. Edición electrónica disponible en [1]
DQ Nguyen, DQ Nguyen, DD Pham y SB Pham (2016). "Un enfoque de aprendizaje basado en la transformación robusta que utiliza reglas de propagación descendente para el etiquetado de categorías gramatical". AI Communications , vol. 29, n.º 3, páginas 409–422. [.pdf]

[1] "Etiquetas POS". Sketch Engine . Computación léxica. 27 de marzo de 2018. Consultado el 6 de abril de 2018 .

[universal-2] Etiquetas POS universales

[3] Petrov, eslavo; Das, Dipanjan; McDonald, Ryan (11 de abril de 2011). "Un conjunto de etiquetas universales de parte del discurso". arXiv : 1104.2086 [cs.CL].

[4] Eugene Charniak

[5] DeRose 1990, pág. 82.

[6] Etiquetadora POS CLL

[7] DeRose, Steven J. (1988). "Desambiguación de categorías gramaticales mediante optimización estadística". Computational Linguistics . 14 (1): 31–39.

[8] Kenneth Ward Church (1988). "Un programa de partes estocásticas y un analizador de frases nominales para texto sin restricciones". En Norm Sondheimer (ed.). ANLC '88: Actas de la Segunda Conferencia sobre Procesamiento Aplicado del Lenguaje Natural . Asociación de Lingüística Computacional. p. 136. doi : 10.3115/974235.974260 .

[9] Etiquetado POS (estado del arte)

[10] Xu Sun (2014). Regularización de estructuras para predicción estructurada (PDF) . Sistemas de procesamiento de información neuronal (NIPS). pp. 2402–2410 . Consultado el 20 de agosto de 2021 .