Ayuda
Ir al contenido

Dialnet


El Old Spanish Textual Archive, diseño y desarrollo de un corpus de textos medievales: lematización y etiquetado gramatical

    1. [1] College of the Holy Cross

      College of the Holy Cross

      City of Worcester, Estados Unidos

  • Localización: Scriptum digital: revista de corpus diacrònics i edició digital en llengües iberoromàniques, ISSN-e 2014-640X, Nº. 7, 2018, págs. 25-35
  • Idioma: español
  • Títulos paralelos:
    • The Old Spanish Textual Archive, design and development of a corpus of medieval texts: lemmatization and pos tagging
  • Enlaces
  • Resumen
    • español

      Este trabajo expone los aspectos relacionados con el procesamiento de las formas, lemas, análisis gramatical y textos en el Old Spanish Textual Archive (OSTA), un corpus lingüístico de más de 32 millones de palabras, basado en las más de 400 transcripciones semi-paleográficas de textos medievales escritos en castellano, asturiano, leonés, navarro-aragonés y aragonés realizadas por los colaboradores del Hispanic Seminary of Medieval Studies (HSMS). Se describe además el proceso de etiquetado y lematización mediante el uso de Freeling, una herramienta de Procesamiento del Lenguaje Natural, y de HSMS-app, una herramienta de análisis textual desarrollada para este proyecto.

    • English

      This paper presents aspects related to the processing of forms, lemmas, grammatical analysis and texts in the Old Spanish Textual Archive (OSTA), a linguistic corpus of more than 32 million words, based on the more than 400 semipaleographic transcriptions of medieval texts written in Castilian, Asturian, Leonese, Navarro-Aragonese and Aragonese prepared by the collaborators of the Hispanic Seminary of Medieval Studies (HSMS). It also describes the process of tagging and lemmatization using Freeling, a Natural Language Processing tool, and HSMS-app, a textual analysis tool developed for this project.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno