Semántica distributiva

Campo de la lingüística

La semántica distribucional ^[1] es un área de investigación que desarrolla y estudia teorías y métodos para cuantificar y categorizar similitudes semánticas entre elementos lingüísticos en función de sus propiedades distribucionales en grandes muestras de datos lingüísticos. La idea básica de la semántica distribucional se puede resumir en la denominada hipótesis distribucional : los elementos lingüísticos con distribuciones similares tienen significados similares.

Hipótesis distributiva

La hipótesis distribucional en lingüística se deriva de la teoría semántica del uso del lenguaje, es decir, las palabras que se usan y aparecen en los mismos contextos tienden a tener significados similares. ^[2]

La idea subyacente de que "una palabra se caracteriza por la compañía que mantiene" fue popularizada por Firth en la década de 1950. ^[3]

La hipótesis distributiva es la base de la semántica estadística . Aunque la hipótesis distributiva se originó en la lingüística, ^[4] ahora está recibiendo atención en la ciencia cognitiva, especialmente en lo que respecta al contexto del uso de las palabras. ^[5]

En los últimos años, la hipótesis distribucional ha proporcionado la base para la teoría de la generalización basada en la similitud en el aprendizaje de idiomas: la idea de que los niños pueden descubrir cómo usar palabras que rara vez han encontrado antes generalizando sobre su uso a partir de distribuciones de palabras similares. ^[6]^[7]

La hipótesis distribucional sugiere que cuanto más similares sean semánticamente dos palabras, más similares distributivamente serán a su vez y, por lo tanto, más tenderán a aparecer en contextos lingüísticos similares.

El hecho de que esta sugerencia sea válida o no tiene implicancias significativas tanto para el problema de escasez de datos en el modelado computacional ^[8] como para la cuestión de cómo los niños son capaces de aprender el lenguaje tan rápidamente dado un input relativamente pobre (esto también se conoce como el problema de la pobreza del estímulo ).

Modelado semántico distributivo en espacios vectoriales

La semántica distribucional favorece el uso del álgebra lineal como herramienta computacional y marco de representación. El enfoque básico es recolectar información distribucional en vectores de alta dimensión y definir la similitud distribucional/semántica en términos de similitud vectorial. ^[9] Se pueden extraer diferentes tipos de similitudes según el tipo de información distribucional que se use para recolectar los vectores: las similitudes temáticas se pueden extraer al completar los vectores con información sobre en qué regiones del texto aparecen los elementos lingüísticos; las similitudes paradigmáticas se pueden extraer al completar los vectores con información sobre con qué otros elementos lingüísticos aparecen los elementos. Nótese que el último tipo de vectores también se puede usar para extraer similitudes sintagmáticas al observar los componentes individuales del vector.

La idea básica de una correlación entre la similitud distributiva y semántica se puede operacionalizar de muchas maneras diferentes. Existe una rica variedad de modelos computacionales que implementan la semántica distributiva, incluido el análisis semántico latente (LSA), ^[10]^[11] el hiperespacio análogo al lenguaje (HAL), los modelos basados en sintaxis o dependencias, ^[12] la indexación aleatoria , el plegado semántico ^[13] y varias variantes del modelo de tópicos . ^[14]

Los modelos semánticos distribucionales difieren principalmente con respecto a los siguientes parámetros:

Tipo de contexto (regiones de texto vs. elementos lingüísticos)
Ventana de contexto (tamaño, extensión, etc.)
Ponderación de frecuencia (por ejemplo , entropía , información mutua puntual , ^[15] etc.)
Reducción de dimensión (por ejemplo, indexación aleatoria , descomposición en valores singulares , etc.)
Medida de similitud (por ejemplo, similitud de coseno , distancia de Minkowski , etc.)

Los modelos semánticos distributivos que utilizan elementos lingüísticos como contexto también se han denominado modelos de espacio de palabras o de espacio vectorial . ^[16]^[17]

Más allá de la semántica léxica

Aunque la semántica distribucional se ha aplicado típicamente a elementos léxicos (palabras y términos de varias palabras) con un éxito considerable, sobre todo debido a su aplicabilidad como capa de entrada para modelos de aprendizaje profundo inspirados en las neuronas, la semántica léxica , es decir, el significado de las palabras, solo transportará parte de la semántica de un enunciado completo. El significado de una cláusula, por ejemplo, "Los tigres aman a los conejos" , solo se puede entender parcialmente al examinar el significado de los tres elementos léxicos que la componen. La semántica distribucional se puede extender directamente para cubrir elementos lingüísticos más grandes, como construcciones, con y sin elementos no instanciados, pero algunas de las suposiciones básicas del modelo deben ajustarse un poco. La gramática de construcción y su formulación del continuo léxico-sintáctico ofrece un enfoque para incluir construcciones más elaboradas en un modelo semántico distribucional y se han implementado algunos experimentos utilizando el enfoque de indexación aleatoria. ^[18]

Los modelos semánticos distribucionales compositivos extienden los modelos semánticos distributivos mediante funciones semánticas explícitas que utilizan reglas basadas en la sintaxis para combinar la semántica de las unidades léxicas participantes en un modelo compositivo para caracterizar la semántica de frases u oraciones completas. Este trabajo fue propuesto originalmente por Stephen Clark, Bob Coecke y Mehrnoosh Sadrzadeh de la Universidad de Oxford en su artículo de 2008, "A Compositional Distributional Model of Meaning" (Un modelo distribucional compositivo del significado). ^[19] Se han explorado diferentes enfoques de la composición (incluidos los modelos neuronales) y se están debatiendo en talleres establecidos como SemEval . ^[20]

Aplicaciones

Los modelos semánticos distribucionales se han aplicado con éxito a las siguientes tareas:

encontrar similitud semántica entre palabras y expresiones de varias palabras;
agrupación de palabras basada en similitud semántica;
creación automática de tesauros y diccionarios bilingües;
desambiguación del sentido de las palabras ;
ampliar las solicitudes de búsqueda utilizando sinónimos y asociaciones;
definir el tema de un documento;
agrupamiento de documentos para recuperación de información ;
Minería de datos y reconocimiento de entidades nombradas ;
creación de mapas semánticos de diferentes dominios temáticos;
parafraseando ;
análisis de sentimientos ;
Modelado de preferencias de selección de palabras.

Software

Espacio S
Vectores semánticos
Simulación genética
Constructor de DISCO
Indra

Véase también

Gente

Referencias

^ Lenci, Alessandro; Sahlgren, Magnus (2023). Semántica distributiva . Cambridge University Press. ISBN 9780511783692.
^ Harris 1954
^ Firth 1957
^ Sahlgren 2008
^ McDonald y Ramscar 2001
^ Gleitman 2002
^ Yarlett 2008
^ Wishart, Ryder; Prokopidis, Prokopis (2017). Experimentos de modelado de temas en corpus helenísticos (PDF) . Actas del taller sobre corpus en las humanidades digitales 17. S2CID 9191936.
^ Rieger 1991
^ Deerwester y otros 1990
^ Landauer, Thomas K.; Dumais, Susan T. (1997). "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento". Psychological Review . 104 (2): 211–240. doi :10.1037/0033-295x.104.2.211.
^ Padó y Lapata 2007
^ De Sousa Webber, Francisco (2015). "Teoría del plegado semántico y su aplicación en la identificación semántica". arXiv : 1511.08855 [cs.AI].
^ Jordan, Michael I.; Ng, Andrew Y.; Blei, David M. (2003). "Asignación de Dirichlet latente". Journal of Machine Learning Research . 3 (enero): 993–1022.
^ Church, Kenneth Ward; Hanks, Patrick (1989). "Normas de asociación de palabras, información mutua y lexicografía". Actas de la 27.ª Reunión Anual de la Asociación de Lingüística Computacional . Morristown, NJ, EE. UU.: Asociación de Lingüística Computacional: 76–83. doi : 10.3115/981623.981633 .
^ Schütze 1993
^ Sahlgren 2006
^ Karlgren, Jussi; Kanerva, Pentti (julio de 2019). "Espacios semánticos distribuidos de alta dimensión para enunciados". Ingeniería del lenguaje natural . 25 (4): 503–517. arXiv : 2104.00424 . doi :10.1017/S1351324919000226. S2CID 201141249.
^ Clark, Stephen; Coecke, Bob; Sadrzadeh, Mehrnoosh (2008). "Un modelo distributivo y compositivo del significado" (PDF) . Actas del Segundo Simposio sobre Interacción Cuántica : 133–140.
^ "SemEval-2014, Tarea 1".

Fuentes

Harris, Z. (1954). "Estructura distributiva". Word . 10 (23): 146–162. doi :10.1080/00437956.1954.11659520.
Firth, JR (1957). "Una sinopsis de la teoría lingüística 1930-1955". Estudios de análisis lingüístico : 1–32.Reimpreso en FR Palmer, ed. (1968). Documentos seleccionados de JR Firth 1952-1959 . Londres: Longman.
Lenci, Alessandro; Sahlgren, Magnus (2023). Semántica distributiva . Cambridge University Press. ISBN 9780511783692.
Sahlgren, Magnus (2008). "La hipótesis distributiva" (PDF) . Rivista di Linguistica . 20 (1): 33–53. Archivado desde el original (PDF) el 2012-03-15 . Consultado el 2010-12-10 .
McDonald, S.; Ramscar, M. (2001). "Prueba de la hipótesis distributiva: la influencia del contexto en los juicios de similitud semántica". Actas de la 23.ª Conferencia Anual de la Sociedad de Ciencias Cognitivas . pp. 611–616. CiteSeerX 10.1.1.104.7535 .
Gleitman, Lila R. (2002). "Los verbos de una misma pluma se juntan II". El legado de Zellig Harris . Temas actuales de teoría lingüística. Vol. 1. págs. 209–229. doi :10.1075/cilt.228.17gle. ISBN 978-90-272-4736-0.
Yarlett, D. (2008). Aprendizaje de idiomas mediante generalización basada en similitudes (PDF) (tesis doctoral). Universidad de Stanford. Archivado desde el original (PDF) el 2014-04-19 . Consultado el 2012-07-12 .
Rieger, Burghard B. (1991). On Distributed Representations in Word Semantics (PDF) (Informe). ICSI Berkeley 12-1991. CiteSeerX 10.1.1.37.7976 .
Deerwester, Scott; Dumais, Susan T.; Furnas, George W.; Landauer, Thomas K.; Harshman, Richard (1990). "Indexing by Latent Semantic Analysis" (PDF) . Revista de la Sociedad Americana de Ciencias de la Información . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . doi :10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. Archivado desde el original (PDF) el 17 de julio de 2012.
Padó, Sebastian; Lapata, Mirella (2007). "Construcción de modelos de espacio semántico basados en dependencias". Computational Linguistics . 33 (2): 161–199. doi : 10.1162/coli.2007.33.2.161 . S2CID 7747235.
Schütze, Hinrich (1993). "Espacio de palabras". Avances en los sistemas de procesamiento de información neuronal 5 . págs. 895–902. CiteSeerX 10.1.1.41.8856 .
Sahlgren, Magnus (2006). The Word-Space Model (PDF) (tesis doctoral). Universidad de Estocolmo. Archivado desde el original (PDF) el 2012-06-19 . Consultado el 2012-11-26 .
Thomas Landauer; Susan T. Dumais. "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, la inducción y la representación del conocimiento" . Consultado el 2 de julio de 2007 .
Kevin Lund; Curt Burgess; Ruth Ann Atchley (1995). Priming semántico y asociativo en un espacio semántico de alta dimensión . Cognitive Science Proceedings. págs. 660–665.
Kevin Lund; Curt Burgess (1996). "Producción de espacios semánticos de alta dimensión a partir de la coocurrencia léxica". Métodos, instrumentos y computadoras de investigación del comportamiento . 28 (2): 203–208. doi : 10.3758/bf03204766 .

Enlaces externos

Zellig S. Harris

[1] Lenci, Alessandro; Sahlgren, Magnus (2023). Semántica distributiva . Cambridge University Press. ISBN 9780511783692.

[2] Harris 1954

[3] Firth 1957

[4] Sahlgren 2008

[5] McDonald y Ramscar 2001

[6] Gleitman 2002

[7] Yarlett 2008

[8] Wishart, Ryder; Prokopidis, Prokopis (2017). Experimentos de modelado de temas en corpus helenísticos (PDF) . Actas del taller sobre corpus en las humanidades digitales 17. S2CID 9191936.

[9] Rieger 1991

[10] Deerwester y otros 1990

[11] Landauer, Thomas K.; Dumais, Susan T. (1997). "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento". Psychological Review . 104 (2): 211–240. doi :10.1037/0033-295x.104.2.211.

[12] Padó y Lapata 2007

[13] De Sousa Webber, Francisco (2015). "Teoría del plegado semántico y su aplicación en la identificación semántica". arXiv : 1511.08855 [cs.AI].

[14] Jordan, Michael I.; Ng, Andrew Y.; Blei, David M. (2003). "Asignación de Dirichlet latente". Journal of Machine Learning Research . 3 (enero): 993–1022.

[15] Church, Kenneth Ward; Hanks, Patrick (1989). "Normas de asociación de palabras, información mutua y lexicografía". Actas de la 27.ª Reunión Anual de la Asociación de Lingüística Computacional . Morristown, NJ, EE. UU.: Asociación de Lingüística Computacional: 76–83. doi : 10.3115/981623.981633 .

[16] Schütze 1993

[17] Sahlgren 2006

[18] Karlgren, Jussi; Kanerva, Pentti (julio de 2019). "Espacios semánticos distribuidos de alta dimensión para enunciados". Ingeniería del lenguaje natural . 25 (4): 503–517. arXiv : 2104.00424 . doi :10.1017/S1351324919000226. S2CID 201141249.

[19] Clark, Stephen; Coecke, Bob; Sadrzadeh, Mehrnoosh (2008). "Un modelo distributivo y compositivo del significado" (PDF) . Actas del Segundo Simposio sobre Interacción Cuántica : 133–140.

[20] "SemEval-2014, Tarea 1".