Spoken English Corpus ( SEC ) es una colección de corpus de habla de grabaciones de inglés británico hablado compiladas entre 1984 y 1987. El manual del corpus se puede encontrar en ICAME . [1]
El proyecto Spoken English Corpus (SEC) fue financiado conjuntamente en 1984-5 por el Fondo de Investigación en Humanidades de la Universidad de Lancaster y por IBM (Reino Unido) Ltd, y posteriormente por IBM UK Ltd. El proyecto fue financiado por Geoffrey Leech en Lancaster y Geoffrey Kaye en IBM. El proyecto fue una colaboración, financiada por IBM , entre la Unidad de Investigación Informática sobre el Idioma Inglés (UCREL) de la Universidad de Lancaster y el Centro Científico de IBM en Winchester . [2]
SEC comprende 53 pasajes grabados, principalmente de la BBC , hablados en el acento que normalmente se conoce como pronunciación recibida o RP. La colección cubre categorías como comentarios, transmisiones de noticias, conferencias, diálogos, poesía y propaganda. [3] El corpus contiene 52.637 palabras, con un total de 339 minutos. La compilación del corpus está descrita por Lita Taylor en su artículo de 1996 "La compilación del corpus de inglés hablado". [4]
Se diseñó un sistema para la transcripción de la entonación del material de las grabaciones. Dos transcriptores, Gerry Knowles y Briony Williams, ambos con el apoyo de Lita Taylor, analizaron todo el corpus. Williams explica el sistema de transcripción [5] y Brian Pickering realizó un experimento para evaluar el grado de acuerdo entre los dos transcriptores en una sección del corpus que contenía alrededor de 1000 unidades de tono que fue transcrita por ambos transcriptores [6] . Se encontró un buen acuerdo.
Un atributo importante de un corpus moderno es que se puede leer en una computadora: un corpus tiende a residir en un disco duro en lugar de en una estantería. Al presentar el corpus en este formato de libro, los autores han tenido en cuenta las necesidades de los lingüistas de corpus establecidos y de aquellos que aún no están familiarizados con los corpus. Cualquiera que tenga el corpus en un disco puede hacer copias físicas de la mayoría de los archivos; pero sin una fuente especial para imprimir los símbolos prosódicos, los textos prosódicos no se podrán imprimir o leer. Por esta razón se ha elegido la versión prosódica para su publicación.
La transcripción completa impresa fue realizada en su forma actual por Peter Alderson, quien más tarde asumió el cargo de Gerente de Investigación del Habla en IBM. El volumen se tituló posteriormente "A Corpus of Formal British English Speech: The Lancaster/IBM Spoken English Corpus" y fue publicado por primera vez por Longman en 1996, y más tarde por Routledge en 2013. El libro está actualmente disponible en librerías en línea, incluidas Routledge y Book Depository, o en formato electrónico en Google Play Books. [7] [8]
El etiquetado gramatical de cada palabra, basado en el conjunto de etiquetas CLAWS1 , se agregó al texto del SEC mediante un proceso automático. [9] [10] El hecho de que este etiquetado estuviera en formato legible por máquina hizo posible relacionar la información gramatical y prosódica en los textos. El trabajo posterior utilizó modelos probabilísticos para desarrollar aún más el etiquetado gramatical y producir técnicas de análisis automático . [11]
Anne Wichmann publicó su investigación sobre la entonación SEC, "La entonación en el texto y el discurso: comienzos, medios y finales" en 2000. [12]
Aunque el texto y su etiquetado asociado existían en forma legible por máquina, las grabaciones en sí mismas existían solo como grabaciones en cinta. Una colaboración, financiada por el Consejo de Investigación Económica y Social en 1992-4, entre científicos del habla de las Universidades de Lancaster y Leeds en el Reino Unido se propuso producir una versión del corpus que contenía las grabaciones en formato digital, vinculadas temporalmente al texto. [13] Los investigadores principales fueron Gerry Knowles y Tamas Varadi (Lancaster) y Peter Roach y Simon Arnfield (Leeds). El esquema del proyecto se establece en Knowles, [14] y la alineación temporal automática está descrita por Roach y Arnfield. [15] Las grabaciones digitalizadas se grabaron en CD-ROM . Posteriormente, se puso a disposición para su descarga con fines de investigación desde la Universidad de Leeds, aunque esta función ya no se admite. [16]
El trabajo sobre MARSEC en Lancaster y Leeds finalizó alrededor de 1995, pero el corpus ha sido posteriormente objeto de una considerable cantidad de desarrollo posterior en la Universidad de Aix-en-Provence , Francia, bajo la dirección de Daniel Hirst. [17] La base de datos consta de dos componentes principales: las grabaciones digitalizadas de MARSEC y las anotaciones. Hasta ahora se han realizado anotaciones en nueve niveles, incluidos fonemas , sílabas , palabras , pies acentuados, unidades de ritmo y unidades de giro menor y mayor . Pronto se integrarán dos niveles complementarios, la anotación gramatical de CLAWS y un sistema de gramática de propiedades desarrollado en Aix-en-Provence. [18] Una posible desventaja de este tratamiento es que el corpus solo se puede buscar utilizando scripts especialmente escritos. [19] La base de datos, junto con las herramientas, está disponible bajo licencia GNU GPL en el sitio del proyecto Aix-MARSEC. [20]