Ayuda
Ir al contenido

Dialnet


Gleaning micro-corpora from the internet: integrating heterogeneous data into existing corpus infrastructures

    1. [1] Institute of Linguistics

      Institute of Linguistics

      Rusia

    2. [2] Institute for Corpus Linguistics and Text Technology (Austrian Academy of Sciences)
    3. [3] Institute of Culture Studies and History of Theatre (Austrian Academy of Sciences)
  • Localización: Las tecnologías de la información y las comunicaciones: presente y futuro en el análisis de corpus: Actas del III Congreso Internacional de Lingüistica de Corpus / María Luisa Carrió Pastor (ed. lit.), Miguel Ángel Candel Mora (ed. lit.), 2011, ISBN 978-84-694-6225-6, págs. 111-117
  • Idioma: inglés
  • Enlaces
  • Resumen
    • español

      Generalmente el “Web as Corpus” implica la descarga indiscriminada de grandes cantidades de datos sobre la base de “seeds” (semillas), palabras clave utilizadas para crear listas de URLs. Hoy en día, la tecnología ofrece herramientas para explotar corpus creados de tal manera por un gran número de efectos de PLN, en particular en investigaciónes lexicográficas. Sin embargo, los problemas surgen cuando los investigadores necesitan acceso a los textos archivados. Nuestra ponencia trata de metodologías para crear pequeñas corpus de datos de internet adaptados a necesidades particulares que van mas allá del acceso a los datos sobre el nivel de palabras o frases, permitiendo a los investigadores llevar a cabo estudios más orientados a texto. Presentamos un nuevo desarrollo de software utilizado para crear corpus tales y describimos un caso de uso, una investigación sobre el lenguaje racista en foros de discusión en línea aplicando métodos de análisis crítico del discurso.

    • English

      Web as Corpus usually implies the wholesale and rather indiscriminate download of large amounts of data on the basis of so-called seeds, keywords used to create lists of relevant URLs. Corpus technology offers tools to exploit corpora created in such a manner for a great number of NLP purposes, in particular in the field of lexicographic research. However, problems often arise when scholars need access to the archived texts. Our paper touches on methodologies to create smaller corpora of internet data tailored to particular needs that go beyond access to the data on the level of words or sentences, that also allow researchers to perform more text oriented studies. We introduce a newly developed piece of software used to create such corpora and describe one particular use case, a project conducting research into racist language in online discussion forums applying methods of critical discourse analysis.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno