En lingüística y pedagogía , una glosa interlineal es una glosa (serie de explicaciones breves, como definiciones o pronunciaciones) colocada entre líneas, como entre una línea de texto original y su traducción a otro idioma . Cuando se glosa, cada línea del texto original adquiere una o más líneas correspondientes de transcripción conocidas como texto interlineal o texto glosado interlineal ( IGT ), un interlineal para abreviar. Tales glosas ayudan al lector a seguir la relación entre el texto fuente y su traducción, y la estructura del idioma original. En su forma más simple, una glosa interlineal es una traducción literal, palabra por palabra, del texto fuente .
Las glosas interlineales se han utilizado con diversos fines durante un largo período de tiempo. Un uso común ha sido el de anotar libros de texto bilingües para la enseñanza de idiomas. Este tipo de interlinealización sirve para ayudar a hacer explícito el significado de un texto fuente sin intentar modelar formalmente las características estructurales de la lengua fuente.
En ocasiones, estas anotaciones no se han expresado mediante un diseño interlineal, sino más bien mediante la enumeración de palabras en el lenguaje objeto y meta. Un ejemplo de ello es la anotación del náhuatl clásico de Wilhelm von Humboldt : [1]
1
ni-
1
yo
2
do-
3
Maché
3
chihuahua
2
es
4
-lia
4
pelo
5
en
5
El
6
No-
6
yo
7
Piltzin
7
Hijo
8
esto
8
uno
9
callos
9
Casa
1 2 3 4 5 6 7 8 9
ni- c- chihui -lia in no- piltzin ce calli
1 3 2 4 5 6 7 8 9
ich mache es für der mein Sohn ein Haus
Este estilo "en línea" permite incluir ejemplos dentro del flujo del texto y que el orden de las palabras del idioma de destino se escriba en un orden que se aproxime a la sintaxis del idioma de destino. (En la glosa que aparece aquí, mache es se reordena a partir del orden de origen correspondiente para aproximarse a la sintaxis alemana de forma más natural). Aun así, este enfoque requiere que los lectores "realineen" las correspondencias entre las formas de origen y destino.
Los enfoques más modernos de los siglos XIX y XX adoptaron la glosa vertical, alineando el mismo tipo de contenido palabra por palabra de tal manera que los términos del metalenguaje se ubicaban verticalmente debajo de los términos del idioma de origen. En este estilo, el ejemplo dado podría traducirse así (aquí glosa en inglés):
ni-
I
do-
él
chihuahua
hacer
-lia
para
en
hacia
No-
mi
Piltzin
hijo
esto
a
callos
casa
ni- c- chihui -lia in no- piltzin ce calli
Yo le hago una casa a mi hijo
"Le hice una casa a mi hijo."
Aquí el orden de las palabras está determinado por la sintaxis del lenguaje objeto.
Por último, los lingüistas modernos han adoptado la práctica de utilizar etiquetas de categorías gramaticales abreviadas. Una publicación de 2008 que repite este ejemplo lo etiqueta de la siguiente manera: [2]
ni-c-chihui-lia
1SG . SUJETO - 3SG . OBJ -mach- APPL
en
DET
sin piltzin
1SG.POSS - Señor
esto
uno
callos
Casa
ni-c-chihui-lia en no-piltzin ce calli
1SG.SUBJ-3SG.OBJ-mach-APPL DET 1SG.POSS-Sohn ein Haus
Este enfoque es más denso y también requiere esfuerzo para leerlo, pero depende menos de la estructura gramatical del metalenguaje para expresar la semántica de las formas de destino.
En informática, se proporcionan marcadores de texto especiales en el bloque Unicode Especiales para indicar el inicio y el final de las glosas interlineales.
Aunque no existe una especificación formal para el formato IGT, las Reglas de Glosa de Leipzig [3] son un conjunto de pautas que apuntan a estandarizar el formato tanto como sea posible.
Un texto interlineal para lingüística comúnmente constará de algunos o todos los siguientes elementos, generalmente en este orden, de arriba a abajo:
Y finalmente
A modo de ejemplo, se ha transcrito la siguiente cláusula Minnan taiwanesa con cinco líneas de texto:
(1.)
(2.)
(3.)
(4.)
Goa
Goa 1
Goa 2
I
iáu-boe
AIU 1 -BOE 3
AIU 2 -BOE 7
aún no
koat-tēng
capa 2 -teng 3
capa 4 -tengo 7
decidir
Tang-sí
espiga 7 -si 5
espiga 1 -si 5
cuando
bohemio
bohemio 2
árbol 4
desear
Tøg-khì
tng 1 -khi 3 .
tng 2 -khi 3 .
devolver.
(1.) goá iáu-boē koat-tēng tang-sî boeh tńg-khì
(2.) goa1 iau1-boe3 koat2-teng3 tang7-si5 boeh2 tng1-khi3.
(3.) goa2 iau2-boe7 koat4-teng7 tang1-si5 boeh4 tng2-khi3.
(4.) Aún no decido cuándo quiero regresar.
(5.) "Aún no he decidido cuándo regresaré."
Alineación palabra por palabra . Según las reglas de glosa de Leipzig, lo habitual es alinear a la izquierda las palabras del idioma objeto con las palabras correspondientes del metalenguaje; esta alineación se puede ver entre las líneas (1-3) y (4).
Correspondencia morfema a morfema . A nivel de subpalabra, los morfemas segmentables se separan mediante guiones, tanto en el ejemplo como en la glosa. Debe haber el mismo número de guiones en el ejemplo y en la glosa, como se muestra en el siguiente ejemplo:
Gila
ahora
cerrajero
granja
hamišaluǧ
para siempre
güǧüna
detrás
Gila abur-un ferma hamišaluǧ güǧüna amuqʼ-da-č
Ahora ellos-OBL-GEN cultivan para siempre detrás de stay-FUT-NEG
«Ahora su granja no se quedará atrás para siempre».
Etiquetas de categorías gramaticales . En amuqʼ-da-č , la raíz ( amuq ) se traduce al lexema correspondiente en inglés ( stay ), mientras que los afijos flexivos ( da ) y ( č ) son afijos flexivos que representan el tiempo futuro y la negación. Estos afijos flexivos se glosan como FUT y NEG ; en las Reglas de glosa de Leipzig se puede encontrar una lista de abreviaturas estándar para categorías gramaticales que se usan ampliamente en lingüística.
Correspondencias de uno a muchos . Cuando un único elemento del lenguaje objeto corresponde a varios elementos del metalenguaje, se separan mediante puntos. [3] Por ejemplo,
Elementos no evidentes . Si la glosa morfema por morfema (línea del medio) contiene un elemento que no corresponde a un elemento evidente en el ejemplo, una estrategia estándar es incluir un "ø" evidente en el texto del lenguaje objeto, [3] que está separado por un guión como lo sería un elemento evidente:
La reduplicación se trata de manera similar a la afijación pero con una tilde (en lugar del guión estándar) que conecta el elemento copiado con la raíz: [3]
En las glosas morfológicas interlineales, las glosas se separan mediante diversas formas de puntuación. Normalmente, las palabras se alinean con sus glosas; dentro de las palabras, se utiliza un guión cuando se marca un límite tanto en el texto como en su glosa, y un punto cuando el límite aparece solo en una de ellas. Es decir, debe haber el mismo número de palabras separadas por espacios en el texto y en su glosa, así como el mismo número de morfemas con guión dentro de una palabra y de su glosa. Este es el sistema básico, y se puede aplicar de forma universal. Por ejemplo:
turco
oda-dan hız-lı çık-tı-m
habitación-ABL velocidad-COM salida-PFV-1sg
habitación-de-velocidad-con-salir-perfectiva-I
'Salí de la habitación rápidamente.'
Se puede utilizar un guión bajo en lugar de un punto, como en go_out- PFV , cuando una sola palabra en el idioma de origen corresponde a una frase en el idioma de glosa, aunque todavía se usaría un punto para otras situaciones, como en griego oikíais house. FEM.PL.DAT 'a las casas'.
Sin embargo, a veces se pueden hacer distinciones más sutiles. Por ejemplo, los clíticos se pueden separar con un doble guion (o, para facilitar la escritura, con un signo igual) en lugar de un guion. Un ejemplo en francés:
te amo
Yo te amo
(Francés)
te amo
Yo te amo
'Te amo.'
Los afijos que causan discontinuidad ( infijos , circunfijos , transfijos, etc.) pueden separarse con corchetes angulares y reduplicarse con tildes, en lugar de con guiones:
Sulat
escribir
su~sultado
estado de ánimo contemplativo ~ escribir
s ⟨um⟩ ulat
⟨ desencadenador de agente .past⟩ escritura
s ⟨um⟩ u~sulat
⟨agente desencadenador⟩ escritura contemplativa
sulat su~sulat s ⟨um⟩ ulat s ⟨um⟩ u~sulat
escribir estado de ánimo contemplativo~escribir ⟨ agente disparador .pasado⟩ escribir ⟨agente disparador⟩ contemplativo~escribir
(Véase el afijo para otros ejemplos.)
Los morfemas que no se pueden separar fácilmente, como la diéresis , se pueden marcar con una barra invertida en lugar de un punto:
Unser-n
nuestro- DAT . PL
Váter-n
padre\ PL - DAT . PL
(Alemán)
nuestro-n Väter-n
nuestro-DAT.PL padre\PL-DAT.PL
'a nuestros padres' (el singular de Väter 'padres' es Vater )
Algunas otras convenciones que a veces se ven se ilustran en las Reglas de glosa de Leipzig. [3]
Se han realizado esfuerzos para digitalizar IGT para cientos de idiomas del mundo. [5]
La base de datos en línea de texto interlineal (ODIN) es una base de datos de más de 200.000 casos de glosas interlineales para más de 1.500 idiomas extraídas de investigaciones lingüísticas académicas. [6] La base de datos se construyó en dos fases: construcción automática seguida de corrección manual. La etapa de construcción automática en sí se completó en tres pasos:
En la fase de corrección manual, los creadores de la base de datos corrigieron manualmente los límites de las instancias de glosa interlineal descubiertas mediante el método de etiquetado de secuencias en el Paso 2 de la fase de construcción automática. Luego, los creadores verificaron los nombres y los códigos de los idiomas en una segunda y tercera pasadas sobre los datos, respectivamente.
Gama de brillo interlineal instancias | Número de idiomas | Número de instancias de glosa interlineal | Porcentaje de instancias de glosa interlineal |
---|---|---|---|
>10.000 | 3 (1) | 36.691 (10.814) | 19,39 (6,88) |
1000-9999 | 37 (31) | 97.158 (81.218) | 51,34 (51,69) |
100-999 | 122 (139) | 40.260 (46.420) | 21.27 (29.55) |
10-99 | 326 (460) | 12.822 (15.560) | 6,78 (9,96) |
1-9 | 838 (862) | 2.313 (3.012) | 1,22 (1,92) |
Total | 1.326 (1.493) | 189.244 (157.114) | 100 (100) |
Se han desarrollado modelos de procesamiento del lenguaje natural que aprovechan recursos de glosa interlineal, como la base de datos en línea de texto interlineal. [7] [8]
Por ejemplo, se han desarrollado sistemas de procesamiento del lenguaje natural para producir automáticamente glosas interlineales: [7]
mal
tú- GEN
Humukuli
camello
elu-ab-ok'ek'-asi
nosotros. OBL - ERG . 1 . PL -robar- PRT
Anu
ser.NEG
mi-s ħumukuli elu-ab-ok'ek'-asi anu
tu-GEN camello nosotros.OBL-ERG.1.PL-robar-PRT ser.NEG
-No te robamos tu camello.
Dada la línea segmentada del morfema (primera línea arriba) y la línea de traducción libre (tercera línea arriba), la tarea es producir la línea glosada central que comprende las traducciones de la raíz (por ejemplo, mi : you ) y las etiquetas de categoría gramatical correspondientes a los afijos (por ejemplo, a : ERG.1.PL ). Se han utilizado modelos de predicción de secuencias del procesamiento del lenguaje natural para realizar esta tarea. [7] Dos factores contribuyen a la dificultad de esta tarea:
Algunos lenguajes construidos como Ithkuil y Lojban tienen herramientas automatizadas que (en teoría) siempre darán como resultado glosas precisas debido a la naturaleza regularizada y lógica de estos lenguajes. A continuación se muestran ejemplos de glosas de Ithkuil y Lojban respectivamente:
A'zvaţcaxüẓpöňḑeššaščëirktöňçogjahnói
S1 - “perro” - 'lo que se infiere que es X'₁- 'enorme'₁- 'como resultado planificado de la acción humana'₁- 'algo u otro'₁- DDF - 'como polvo'₁- 'comido como merienda'₁- 'se desconoce la confiabilidad de la fuente y la información no es verificable'₁- 'conjetura/teoría/hipótesis que es comprobable/verificable'₁- COU - POT
nnţ
"Sólo puede significar una cosa..."
A'zvaţcaxüẓpöňḑeššaščëirktöňçogjahnói nnţ
S1-“dog”-‘what is inferred to be X’₁-‘huge’₁-‘as a planned result of human action’₁-‘some or other’₁-DDF-'as powder or dust’₁-‘eaten as afternoon snack’₁-‘trustworthiness of source unknown, and info not verifiable’₁-‘conjecture/theory/hypothesis that is testable/verifiable’₁-COU-POT "It can only mean one thing..."
Solo hay una explicación; no puedo probarlo y mi estado mental está algo confuso, pero definitivamente habría sido una fusión mal formada de ese par de criaturas enormes creadas por el hombre que parecen perros en forma de polvo que se sirvieron como merienda allí cerca de ti. Ah, y no me cites.
mi
Yo = x 1
lucio
lavar
El
DET
Creka
camisa=x 2
El
DET
Grasa
grasa=x 3
El
DET
reírse
río=x 4
mi lumci le creka le grasu le rirxe
I=x1 wash DET shirt=x2 DET grease=x3 DET river=x4
Me lavo la grasa de la camisa en el río.
Los investigadores han utilizado glosas interlineales para obtener los paradigmas morfológicos de la lengua objeto (es decir, la lengua que se está glosando). Para crear automáticamente paradigmas morfológicos a partir de glosas interlineales, los investigadores han creado tablas para cada raíz de la glosa y un espacio (posiblemente vacío) para cada categoría gramatical (por ejemplo, ERG) en la glosa. Por ejemplo, dada la oración glosada a continuación: [7]
Vecher-om
tarde -INS
en
en
revista
tienda.ACC
Vecher-om ya pobeja-la v magazin
evening-INS 1.SG.NOM run-PFV.PST.SG.FEM in store.ACC
'Por la tarde corrí a la tienda.'
Habría un paradigma para el tallo pobeja con ranuras para PFV.PST.SG.FEM y PFV.PST.SG.MASC :
Ranura | inflexión |
---|---|
PFV.PST.SG.FEM | pobeja-la |
PFV.PST.SG.MASC | ? |
El espacio correspondiente a PFV.PST.SG.FEM se llenaría (ya que se observó en los datos de glosa interlineal), pero el espacio correspondiente a PFV.PST.SG.MASC estaría vacío (asumiendo que ninguna otra instancia de glosa interlineal contiene pobeja con inflexión para la categoría gramatical PFV.PST.SG.MASC ). Se puede utilizar un modelo de aprendizaje automático estadístico para la inflexión morfológica para completar las entradas faltantes. [8] [9] [10] [11] [12]