Correferencia

Dos o más expresiones en un texto con el mismo referente

En lingüística , la correferencia , a veces escrita como co-referencia , ocurre cuando dos o más expresiones se refieren a la misma persona o cosa; tienen el mismo referente . Por ejemplo, en Bill dijo que Alice llegaría pronto, y ella lo hizo , las palabras Alice y she se refieren a la misma persona. ^[1]

La correferencia suele ser algo no trivial de determinar. Por ejemplo, en Bill dijo que vendría , la palabra él puede o no referirse a Bill. Determinar qué expresiones son correferencias es una parte importante del análisis o la comprensión del significado y, a menudo, requiere información del contexto, conocimiento del mundo real, como las tendencias de algunos nombres a asociarse con especies particulares ("Rover"), tipos de artefactos ("Titanic"), géneros gramaticales u otras propiedades.

Los lingüistas suelen utilizar índices para indicar correferencia, como en Bill _i said he _i would come . Se dice que estas expresiones están coindizadas , lo que indica que deben interpretarse como correferenciales.

Cuando las expresiones son correferenciales, la primera que aparece suele ser una forma completa o descriptiva (por ejemplo, un nombre personal completo, tal vez con un título y un rol), mientras que las apariciones posteriores utilizan formas más cortas (por ejemplo, solo un nombre de pila, apellido o pronombre). La aparición anterior se conoce como antecedente y la otra se llama proforma , anáfora o referencia. Sin embargo, los pronombres a veces pueden hacer referencia hacia adelante, como en "Cuando llegó a casa, Alicia se fue a dormir". En tales casos, la correferencia se llama catafórica en lugar de anafórica.

La correferencia es importante para los fenómenos de enlace en el campo de la sintaxis. La teoría de la vinculación explora la relación sintáctica que existe entre las expresiones correferenciales en oraciones y textos.

Tipos

Al explorar la correferencia, se pueden hacer numerosas distinciones, por ejemplo, anáfora , catáfora , antecedentes divididos, frases nominales correferenciales, etc. ^[2] Aquí se ilustran varios de estos fenómenos más específicos:

Anáfora: a. La música _estaba tan alta que no _se podía disfrutar. –La anáfora sigue a la expresión a la que se refiere (su antecedente).; b. A nuestros vecinos no _les gusta la música. Si están _enojados , la policía aparecerá pronto. – La anáfora they sigue a la expresión a la que se refiere (su antecedente).
Catáfora: a. Si están _enfadados por la música, los vecinos _llamarán a la policía. – La catáfora they precede a la expresión a la que se refiere (su postcedente).; b. A pesar de _su dificultad , Wilma _llegó a comprender el punto. – La catáfora precede a la expresión a la que se refiere (su postcedente)
Antecedentes divididos: a. Carol le dijo _a Bob _que asistiera a la fiesta. Llegaron _juntos . – La anáfora they tiene un antecedente dividido, que hace referencia tanto a Carol como a Bob .; b. Cuando Carol _i ayuda a Bob _i y Bob _i ayuda a Carol _i , ellos _i pueden realizar cualquier tarea. – La anáfora ellos tiene un antecedente dividido, que se refiere tanto a Carol como a Bob .
Frases nominales de correferencia: a. El líder del proyecto _i se niega a ayudar. El imbécil _i solo piensa en sí mismo _i . – Sintagmas nominales correferentes, en los que el segundo sintagma nominal es una predicación sobre el primero.; b. Algunos de nuestros colegas ₁ nos van a brindar su apoyo. Este tipo de personas ₁ se ganarán nuestra gratitud. – Sintagmas nominales de correferencia, en los que el segundo sintagma nominal es una predicación sobre el primero.

Relación con variables ligadas

Los semantistas y los lógicos a veces establecen una distinción entre correferencia y lo que se conoce como variable ligada . ^[3] Las variables ligadas ocurren cuando el antecedente de la proforma es una expresión cuantificada indefinida, por ejemplo ^[4]^{[ aclaración necesaria ]}

Cada estudiante _i ha recibido su calificación _i . – El pronombre his es un ejemplo de una variable ligada
Ningún estudiante _estaba molesto con su calificación _I. – El pronombre his es un ejemplo de una variable ligada

Las expresiones cuantificadas como every student y no student no se consideran referenciales. Estas expresiones son gramaticalmente singulares pero no escogen referentes únicos en el discurso o el mundo real. Por lo tanto, los antecedentes de his en estos ejemplos no son propiamente referenciales, y his tampoco lo es . En cambio, se considera una variable que está limitada por su antecedente. Su referencia varía según en cuál de los estudiantes del mundo del discurso se piense. La existencia de variables limitadas es quizás más evidente con el siguiente ejemplo:

Sólo a Jack _le gusta su calificación _i . – El pronombre his puede ser una variable ligada.

Esta oración es ambigua. Puede significar que a Jack le gusta su nota pero a todos los demás no les gusta la suya; o que a nadie le gusta su propia nota excepto a Jack. En el primer sentido, la suya es correferencial; en el segundo, es una variable ligada porque su referencia varía en el conjunto de todos los estudiantes.

La notación de coindexación se utiliza comúnmente para ambos casos. Es decir, cuando dos o más expresiones están coindexadas, no se indica si se trata de una correferencia o de una variable ligada (o, como en el último ejemplo, si depende de la interpretación).

Resolución de correferencia

En lingüística computacional , la resolución de correferencia es un problema bien estudiado en el discurso . Para derivar la interpretación correcta de un texto, o incluso para estimar la importancia relativa de varios sujetos mencionados, los pronombres y otras expresiones de referencia deben estar conectados a los individuos correctos. Los algoritmos destinados a resolver correferencias comúnmente buscan primero el individuo precedente más cercano que sea compatible con la expresión de referencia. Por ejemplo, ella podría adjuntarse a una expresión precedente como la mujer o Anne , pero no tan probablemente a Bill . Los pronombres como él mismo tienen restricciones mucho más estrictas. Como ocurre con muchas tareas lingüísticas, existe un equilibrio entre precisión y recuperación . Las métricas de calidad de clúster que se utilizan comúnmente para evaluar los algoritmos de resolución de correferencia incluyen el índice Rand , el índice Rand ajustado y diferentes métodos basados en información mutua .

Un problema particular para la resolución de correferencia en inglés es el pronombre it , que tiene muchos usos. Puede referirse de forma muy similar a he y she , excepto que generalmente se refiere a objetos inanimados (las reglas son en realidad más complejas: los animales pueden ser it , he o she ; los barcos son tradicionalmente she ; los huracanes suelen ser it a pesar de tener nombres con género). También puede referirse a abstracciones en lugar de seres, por ejemplo, He was paid minimum wage, but didn't seem to mind it. Finalmente, también tiene usos pleonásticos , que no se refieren a nada específico:

Está lloviendo.
Es realmente una pena.
Se necesita mucho trabajo para tener éxito.
A veces son los más ruidosos los que tienen mayor influencia.

Los usos pleonásticos no se consideran referenciales y, por lo tanto, no forman parte de la correferencia. ^[5]

Los enfoques para la resolución de correferencia pueden dividirse ampliamente en algoritmos de pares de menciones, de clasificación de menciones o basados en entidades. Los algoritmos de pares de menciones implican decisiones binarias si un par de dos menciones dadas pertenecen a la misma entidad. No se consideran las restricciones de toda la entidad, como el género , lo que conduce a la propagación de errores . Por ejemplo, los pronombres él o ella pueden tener una alta probabilidad de correferencia con el profesor , pero no pueden ser correferentes entre sí. Los algoritmos de clasificación de menciones amplían esta idea, pero en su lugar estipulan que una mención solo puede ser correferente con una mención (previa). Como resultado, cada mención previa debe recibir una puntuación y la mención con la puntuación más alta (o ninguna mención) está vinculada. Finalmente, en los métodos basados en entidades, las menciones se vinculan en función de la información de toda la cadena de correferencia en lugar de menciones individuales. La representación de una cadena de ancho variable es más compleja y computacionalmente costosa que los métodos basados en menciones, lo que lleva a que estos algoritmos se basen principalmente en arquitecturas de redes neuronales .

Véase también

Anáfora (lingüística) – Uso de una expresión cuya interpretación depende del contexto.
Antecedente – Expresión que da su significado a una proforma en gramática.
Vinculación – Distribución de elementos anafóricos
Cataphora – Uso de una expresión o palabra que hace referencia a una expresión posterior más específica.
Referente más cercano
Referencia de conmutación : concepto en lingüística
Desambiguación del sentido de las palabras : identificación del sentido que se está utilizando de una palabra

Notas

^ Para definiciones de correferencia, véase por ejemplo Crystal (1997:94) y Radford (2004:332).
^ Estas distinciones (anáfora, catáfora, antecedentes divididos, frases nominales correferenciales, etc.) se analizan en Jurafsky y Martin (2000:669ff).
^ Para debates sobre variables ligadas, véase por ejemplo Portner (2005:102ff.).
^ Véase Jurafsky y Martin (2000:701) para un ejemplo de una variable ligada como las que se dan aquí.
^ Li et al. (2009) han demostrado una alta precisión en la clasificación de it pleonástico , y este éxito promete mejorar la precisión de la resolución de correferencia en general.

Referencias

Crystal, D. 1997. Diccionario de lingüística y fonética. Cuarta edición. Cambridge, MA: Blackwell Publishing.
Jurafsky, D. y H. Martin 2000. Procesamiento del habla y del lenguaje: Introducción al procesamiento del lenguaje natural, la lingüística computacional y el reconocimiento del habla. Nueva Delhi, India: Pearson Education.
Portner, P. 2005. ¿Qué es la semántica?: Fundamentos de la semántica formal. Malden, MA: Blackwell Publishing.
Radford, A. 2004. Sintaxis inglesa: una introducción. Cambridge, Reino Unido: Cambridge University Press.
Li, Y., P. Musilek, M. Reformat y L. Wyard-Scott 2009. Identificación de it pleonástico mediante la web Archivado el 26 de octubre de 2022 en Wayback Machine . Revista de investigación en inteligencia artificial 34, 339–389.

[1] Para definiciones de correferencia, véase por ejemplo Crystal (1997:94) y Radford (2004:332).

[2] Estas distinciones (anáfora, catáfora, antecedentes divididos, frases nominales correferenciales, etc.) se analizan en Jurafsky y Martin (2000:669ff).

[3] Para debates sobre variables ligadas, véase por ejemplo Portner (2005:102ff.).

[4] Véase Jurafsky y Martin (2000:701) para un ejemplo de una variable ligada como las que se dan aquí.

[5] Li et al. (2009) han demostrado una alta precisión en la clasificación de it pleonástico , y este éxito promete mejorar la precisión de la resolución de correferencia en general.