Ayuda
Ir al contenido

Dialnet


Resumen de Gleaning micro-corpora from the internet: integrating heterogeneous data into existing corpus infrastructures

Karlheinz Mörth, Niku Dorostkar, Alexander Preisinger

  • español

    Generalmente el “Web as Corpus” implica la descarga indiscriminada de grandes cantidades de datos sobre la base de “seeds” (semillas), palabras clave utilizadas para crear listas de URLs. Hoy en día, la tecnología ofrece herramientas para explotar corpus creados de tal manera por un gran número de efectos de PLN, en particular en investigaciónes lexicográficas. Sin embargo, los problemas surgen cuando los investigadores necesitan acceso a los textos archivados. Nuestra ponencia trata de metodologías para crear pequeñas corpus de datos de internet adaptados a necesidades particulares que van mas allá del acceso a los datos sobre el nivel de palabras o frases, permitiendo a los investigadores llevar a cabo estudios más orientados a texto. Presentamos un nuevo desarrollo de software utilizado para crear corpus tales y describimos un caso de uso, una investigación sobre el lenguaje racista en foros de discusión en línea aplicando métodos de análisis crítico del discurso.

  • English

    Web as Corpus usually implies the wholesale and rather indiscriminate download of large amounts of data on the basis of so-called seeds, keywords used to create lists of relevant URLs. Corpus technology offers tools to exploit corpora created in such a manner for a great number of NLP purposes, in particular in the field of lexicographic research. However, problems often arise when scholars need access to the archived texts. Our paper touches on methodologies to create smaller corpora of internet data tailored to particular needs that go beyond access to the data on the level of words or sentences, that also allow researchers to perform more text oriented studies. We introduce a newly developed piece of software used to create such corpora and describe one particular use case, a project conducting research into racist language in online discussion forums applying methods of critical discourse analysis.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus