Ayuda
Ir al contenido

Dialnet


The "corpus of Galician/Spanish bilingual speech" of the University of Vigo: Codes tagging and automatic anotation

  • Autores: Xoán Paulo Rodríguez Yáñez
  • Localización: Estudios de sociolingüística: Linguas, sociedades e culturas, ISSN 1576-7418, Vol. 3-4, Nº 2-1, 2002-2003 (Ejemplar dedicado a: Sociolinguistics in Galicia: Views on diversity, a diversity of views), págs. 359-382
  • Idioma: inglés
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • galego

      En primeiro lugar presentaremos brevemente o proxecto de investigación en curso Corpus de fala bilingüe galego/castelán (abreviadamente, CoFaBil) que estamos formando na Universidade de Vigo. Trátase dun corpus de base etnográfico-conversacional, gravado nunha ampla gama de situacións comunicativas informais e espontáneas, e transcrito en detalle aplicando convencións usuais na análise da conversa. En segundo lugar, explicaremos o proceso da súa etiquetaxe manual. O sistema de anotación CHAT, aplicado na etiquetaxe deste corpus, obriga a especificar para cada palabra a súa pertenza a un ou outro código lingüístico-comunicativo. Así, imos expor os problemas ós que nos conduce esta etiquetaxe palabra por palabra. Estes problemas abranguen os fenómenos característicos tanto da conversa bilingüe coma do contacto de linguas, pero coa especificidade de que a escasa distancia interlingüística entre as variedades de galego e castelán demanda a adopción duns valores de etiquetaxe (presentados no texto) que respondan á complexa natureza dos distintos fenómenos detectados. En terceiro lugar, presentaremos as solucións concibidas para a anotación automática do corpus. O resultado máis importante é a aplicación informática Anotador 1.0, que permite anotar unha parte importante dos fenómenos que aparecen no CoFaBil con maior rapidez, á vez que elimina os sesgos interpretativos da anotación humana. Ademais, dada a súa versatilidade, esta ferramenta podería empregarse como anotador de corpora de fala bilingüe de calquera par de linguas

    • English

      Firstly, we present a brief explanation of this research project, the Corpus of Galician/Spanish Bilingual Speech (Corpus de Fala Bilingüe Galego/Castelán, abbreviated as CoFaBil), currently being complied at the University of Vigo. This ethnographicconversational based corpus has been recorded in a wide range of informal and spontaneous communicative situations, subsequently transcribed in detail with those conventions normally applied to conversation analysis. Secondly, we explain the manual annotation process of the corpus. The CHAT annotation system, applied in tagging this corpus, requires specifying the linguistic-communicative code to which each word belongs. So, we shall explain the problems to which this word by word tagging leads us. These problems cover phenomena characteristic of both bilingual conversation and languages in contact, but with the specificity that the scarce interlinguistic distance between the varieties of Galician and of Spanish call for adopting certain tagging values (presented in the text) that respond to the complex nature of the different phenomena detected. Thirdly, we present the solutions conceived for the automatic annotation of this corpus. The most important result is the computer application Anotador 1.0, which makes it possible to note down a substantial part of the phenomena appearing in the CoFaBil more speedily, while doing away with the interpretative biases involved in human annotating. Also, due to the versatility of this tool, it may be used as a corpora annotator of bilingual speech for any pair of languages


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno