Colocación

Aparición frecuente de palabras una al lado de la otra

En lingüística de corpus , una colocación es una serie de palabras o términos que aparecen juntos con más frecuencia de lo que cabría esperar por casualidad. En fraseología , una colocación es un tipo de sintagma compositivo , es decir, que se puede entender a partir de las palabras que lo componen. Esto contrasta con un modismo , en el que el significado del todo no se puede inferir a partir de sus partes y puede no estar relacionado en absoluto.

Hay alrededor de siete tipos principales de colocaciones: adjetivo + sustantivo, sustantivo + sustantivo (como los sustantivos colectivos ), sustantivo + verbo, verbo + sustantivo, adverbio + adjetivo, verbos + frase preposicional ( verbos frasales ) y verbo + adverbio.

La extracción de colocaciones es una técnica computacional que encuentra colocaciones en un documento o corpus, utilizando varios elementos de lingüística computacional similares a la minería de datos .

Definición ampliada

Las colocaciones son expresiones parcial o totalmente fijas que se establecen a través del uso repetido que depende del contexto. Términos como "clear" , "middle management" , "nuclear family" y "cosmetic surgery" son ejemplos de pares de palabras colocadas.

Las colocaciones pueden estar en una relación sintáctica (como verbo-objeto : hacer y decisión ), en una relación léxica (como antonimia ) o pueden no estar en una relación lingüísticamente definida. El conocimiento de las colocaciones es vital para el uso competente de una lengua: una oración gramaticalmente correcta se destacará como extraña si se violan las preferencias de colocaciones. Esto hace que la colocación sea un área interesante para la enseñanza de idiomas.

Los lingüistas de corpus especifican una palabra clave en contexto ( KWIC ) e identifican las palabras que la rodean inmediatamente. Esto da una idea de cómo se usan las palabras.

El procesamiento de las colocaciones implica una serie de parámetros, el más importante de los cuales es la medida de asociación , que evalúa si la coocurrencia es puramente casual o estadísticamente significativa . Debido a la naturaleza no aleatoria del lenguaje, la mayoría de las colocaciones se clasifican como significativas y las puntuaciones de asociación se utilizan simplemente para clasificar los resultados. Las medidas de asociación comúnmente utilizadas incluyen información mutua , puntuaciones t y verosimilitud logarítmica . ^[1]^[2]

En lugar de seleccionar una única definición, Gledhill ^[3] propone que la colocación implica al menos tres perspectivas diferentes: la coocurrencia, una visión estadística, que ve la colocación como la aparición recurrente en un texto de un nodo y sus colocaciones; ^[4]^[5]^[6] la construcción, que ve la colocación como una correlación entre un lexema y un patrón léxico-gramatical, ^[7] o como una relación entre una base y sus compañeros colocativos; ^[8] y la expresión, una visión pragmática de la colocación como una unidad convencional de expresión, independientemente de la forma. ^[9]^[10] Estas diferentes perspectivas contrastan con la forma habitual de presentar la colocación en los estudios fraseológicos. Tradicionalmente hablando, la colocación se explica en términos de las tres perspectivas a la vez, en un continuo:

Combinación libre ↔ colocación ligada ↔ modismo congelado

En los diccionarios

En 1933, el Segundo Informe Provisional sobre Colocaciones en Inglés de Harold Palmer destacó la importancia de la colocación como clave para producir un lenguaje que suene natural, para cualquiera que estuviera aprendiendo una lengua extranjera . ^[11] Así, a partir de la década de 1940, la información sobre combinaciones de palabras recurrentes se convirtió en una característica estándar de los diccionarios de estudiantes monolingües . A medida que estos diccionarios se volvieron "menos centrados en las palabras y más centrados en las frases", ^[12] se prestó más atención a la colocación. Esta tendencia fue apoyada, desde principios del siglo XXI, por la disponibilidad de grandes corpus de texto y software inteligente de consulta de corpus , lo que hizo posible proporcionar una explicación más sistemática de la colocación en los diccionarios. Usando estas herramientas, diccionarios como el Macmillan English Dictionary y el Longman Dictionary of Contemporary English incluyeron cuadros o paneles con listas de colocaciones frecuentes. ^[13]

También existen varios diccionarios especializados dedicados a describir las colocaciones frecuentes en un idioma. ^[14] Estos incluyen (para español) Redes: Diccionario combinatorio del español contemporáneo (2004), (para francés) Le Robert: Dictionnaire des combinaisons de mots (2007), y (para inglés) el LTP Dictionary of Selected Collocations (1997) y el Macmillan Collocations Dictionary (2010). ^[15]

Colocación estadísticamente significativa

La prueba t de Student se puede utilizar para determinar si la ocurrencia de una colocación en un corpus es estadísticamente significativa. ^[16] Para un bigrama , sea la probabilidad incondicional de ocurrencia de en un corpus con tamaño , y sea la probabilidad incondicional de ocurrencia de en el corpus. La puntuación t para el bigrama se calcula como: $Estilo de visualización w_{1}w_{2}}$ $P(w_{1})={\frac {\#w_{1}}{N}}$ $estilo de visualización w_{1}}$ ${\estilo de visualización N}$ $P(w_{2})={\frac {\#w_{2}}{N}}$ $Estilo de visualización w_{2}$ $Estilo de visualización w_{1}w_{2}}$

t={\frac {{\bar {x}}-\mu }{\sqrt {\frac {s^{2}}{N}}}},

donde es la media muestral de ocurrencia de , es el número de ocurrencias de , es la probabilidad de bajo la hipótesis nula de que y aparezcan independientemente en el texto, y es la varianza muestral. Con un valor grande de , la prueba t es equivalente a una prueba Z. ${\bar {x}}={\frac {\#w_{i}w_{j}}{N}}$ $Estilo de visualización w_{1}w_{2}}$ $Estilo de visualización: w_{1} w_{2}$ $Estilo de visualización w_{1}w_{2}}$ $\mu =P(w_{i})P(w_{j})$ $Estilo de visualización w_{1}w_{2}}$ $estilo de visualización w_{1}}$ $Estilo de visualización w_{2}$ $s^{2}={\bar {x}}(1-{\bar {x}})\approx {\bar {x}}$ ${\estilo de visualización N}$

Véase también

Referencias

^ Dunning, Ted (1993): "Métodos precisos para las estadísticas de sorpresa y coincidencia Archivado el 5 de agosto de 2012 en Wayback Machine ". Computational Linguistics 19, 1 (marzo de 1993), 61–74.
^ Dunning, Ted (21 de marzo de 2008). "Sorpresa y coincidencia". blogspot.com. Archivado desde el original el 20 de enero de 2012. Consultado el 9 de abril de 2012 .
^ Gledhill C. (2000): Colocaciones en la escritura científica Archivado el 29 de junio de 2023 en Wayback Machine , Narr, Tübingen
^ Firth JR (1957): Artículos sobre lingüística 1934-1951. Oxford: Oxford University Press.
^ Sinclair J. (1996): "La búsqueda de unidades de significado", en Textus, IX, 75–106.
^ Smadja F. A y McKeown, KR (1990): "Extracción y representación automática de colocaciones para la generación de lenguaje Archivado el 6 de septiembre de 2015 en Wayback Machine ", Actas de ACL'90, 252–259, Pittsburgh, Pensilvania.
^ Hunston S. y Francis G. (2000): Gramática de patrones: un enfoque basado en corpus para la gramática léxica del inglés Archivado el 29 de junio de 2023 en Wayback Machine , Ámsterdam, John Benjamins
^ Hausmann FJ (1989): Le dictionnaire de colocations. En Hausmann FJ, Reichmann O., Wiegand HE, Zgusta L. (eds), Wörterbücher: ein internationales Handbuch zur Lexikographie. Diccionarios. Diccionarios. Berlín/Nueva York: De Gruyter. 1010-1019.
^ Moon R. (1998): Expresiones fijas y modismos: un enfoque basado en corpus. Oxford, Oxford University Press.
^ Frath P. y Gledhill C. (2005): "¿Conglomerados de libre distribución o fragmentos congelados? La referencia como criterio de definición de unidades lingüísticas ^{[ vínculo inactivo ]} ", en Recherches anglaises et Nord-américaines, vol. 38 :25–43
^ Cowie, AP, Diccionarios de inglés para estudiantes extranjeros, Oxford University Press 1999:54–56
^ Bejoint, H., La lexicografía del inglés, Oxford University Press 2010: 318
^ "MED Second Edition – Características principales – Macmillan". macmillandictionaries.com . Archivado desde el original el 28 de septiembre de 2020 . Consultado el 24 de agosto de 2011 .
^ Herbst, T. y Klotz, M. 'Diccionarios sintagmáticos y fraseológicos' en Cowie, AP (Ed.) The Oxford History of English Lexicography, 2009: parte 2, 234–243
^ "Macmillan Collocation Dictionary – How it was written - Macmillan" (Diccionario de colocación de Macmillan: cómo se escribió - Macmillan). macmillandictionaries.com . Archivado desde el original el 21 de diciembre de 2018. Consultado el 24 de agosto de 2011 .
^ Manning, Chris; Schütze, Hinrich (1999). Fundamentos del procesamiento estadístico del lenguaje natural . Cambridge, MA: MIT Press. pp. 163–166. ISBN 0262133601.

Enlaces externos

Diccionario de colocación ozdic
Un pequeño sistema para almacenar colocaciones en español (Igor A. Bolshakov y Sabino Miranda-Jiménez)
Caracterización morfológica de colocaciones y relaciones semánticas en español (Sabino Miranda-Jiménez & Igor A. Bolshakov)
Ejemplo de colocaciones para la palabra "Cirugía" en wordassociations.net

[1] Dunning, Ted (1993): "Métodos precisos para las estadísticas de sorpresa y coincidencia Archivado el 5 de agosto de 2012 en Wayback Machine ". Computational Linguistics 19, 1 (marzo de 1993), 61–74.

[2] Dunning, Ted (21 de marzo de 2008). "Sorpresa y coincidencia". blogspot.com. Archivado desde el original el 20 de enero de 2012. Consultado el 9 de abril de 2012 .

[3] Gledhill C. (2000): Colocaciones en la escritura científica Archivado el 29 de junio de 2023 en Wayback Machine , Narr, Tübingen

[4] Firth JR (1957): Artículos sobre lingüística 1934-1951. Oxford: Oxford University Press.

[5] Sinclair J. (1996): "La búsqueda de unidades de significado", en Textus, IX, 75–106.

[6] Smadja F. A y McKeown, KR (1990): "Extracción y representación automática de colocaciones para la generación de lenguaje Archivado el 6 de septiembre de 2015 en Wayback Machine ", Actas de ACL'90, 252–259, Pittsburgh, Pensilvania.

[7] Hunston S. y Francis G. (2000): Gramática de patrones: un enfoque basado en corpus para la gramática léxica del inglés Archivado el 29 de junio de 2023 en Wayback Machine , Ámsterdam, John Benjamins

[8] Hausmann FJ (1989): Le dictionnaire de colocations. En Hausmann FJ, Reichmann O., Wiegand HE, Zgusta L. (eds), Wörterbücher: ein internationales Handbuch zur Lexikographie. Diccionarios. Diccionarios. Berlín/Nueva York: De Gruyter. 1010-1019.

[9] Moon R. (1998): Expresiones fijas y modismos: un enfoque basado en corpus. Oxford, Oxford University Press.

[10] Frath P. y Gledhill C. (2005): "¿Conglomerados de libre distribución o fragmentos congelados? La referencia como criterio de definición de unidades lingüísticas ^{[ vínculo inactivo ]} ", en Recherches anglaises et Nord-américaines, vol. 38 :25–43

[11] Cowie, AP, Diccionarios de inglés para estudiantes extranjeros, Oxford University Press 1999:54–56

[12] Bejoint, H., La lexicografía del inglés, Oxford University Press 2010: 318

[13] "MED Second Edition – Características principales – Macmillan". macmillandictionaries.com . Archivado desde el original el 28 de septiembre de 2020 . Consultado el 24 de agosto de 2011 .

[14] Herbst, T. y Klotz, M. 'Diccionarios sintagmáticos y fraseológicos' en Cowie, AP (Ed.) The Oxford History of English Lexicography, 2009: parte 2, 234–243

[15] "Macmillan Collocation Dictionary – How it was written - Macmillan" (Diccionario de colocación de Macmillan: cómo se escribió - Macmillan). macmillandictionaries.com . Archivado desde el original el 21 de diciembre de 2018. Consultado el 24 de agosto de 2011 .

[16] Manning, Chris; Schütze, Hinrich (1999). Fundamentos del procesamiento estadístico del lenguaje natural . Cambridge, MA: MIT Press. pp. 163–166. ISBN 0262133601.