Gleaning micro-corpora from the internet: integrating heterogeneous data into existing corpus infrastructures

Karlheinz Mörth; Niku Dorostkar; Alexander Preisinger

Ayuda

Gleaning micro-corpora from the internet: integrating heterogeneous data into existing corpus infrastructures

Karlheinz Mörth ^[2] ; Niku Dorostkar ^[1] ; Alexander Preisinger ^[3]
1. [1] Institute of Linguistics
  
  Institute of Linguistics
  
  Rusia
2. [2] Institute for Corpus Linguistics and Text Technology (Austrian Academy of Sciences)
3. [3] Institute of Culture Studies and History of Theatre (Austrian Academy of Sciences)
Mostrar afiliaciones +
Localización: Las tecnologías de la información y las comunicaciones: presente y futuro en el análisis de corpus: Actas del III Congreso Internacional de Lingüistica de Corpus / María Luisa Carrió Pastor (ed. lit.), Miguel Ángel Candel Mora (ed. lit.), 2011, ISBN 978-84-694-6225-6, págs. 111-117
Idioma: inglés
Enlaces
- Texto Completo Libro
Resumen
- español
  Generalmente el “Web as Corpus” implica la descarga indiscriminada de grandes cantidades de datos sobre la base de “seeds” (semillas), palabras clave utilizadas para crear listas de URLs. Hoy en día, la tecnología ofrece herramientas para explotar corpus creados de tal manera por un gran número de efectos de PLN, en particular en investigaciónes lexicográficas. Sin embargo, los problemas surgen cuando los investigadores necesitan acceso a los textos archivados. Nuestra ponencia trata de metodologías para crear pequeñas corpus de datos de internet adaptados a necesidades particulares que van mas allá del acceso a los datos sobre el nivel de palabras o frases, permitiendo a los investigadores llevar a cabo estudios más orientados a texto. Presentamos un nuevo desarrollo de software utilizado para crear corpus tales y describimos un caso de uso, una investigación sobre el lenguaje racista en foros de discusión en línea aplicando métodos de análisis crítico del discurso.
- English
  Web as Corpus usually implies the wholesale and rather indiscriminate download of large amounts of data on the basis of so-called seeds, keywords used to create lists of relevant URLs. Corpus technology offers tools to exploit corpora created in such a manner for a great number of NLP purposes, in particular in the field of lexicographic research. However, problems often arise when scholars need access to the archived texts. Our paper touches on methodologies to create smaller corpora of internet data tailored to particular needs that go beyond access to the data on the level of words or sentences, that also allow researchers to perform more text oriented studies. We introduce a newly developed piece of software used to create such corpora and describe one particular use case, a project conducting research into racist language in online discussion forums applying methods of critical discourse analysis.