Ayuda
Ir al contenido

Dialnet


Advances in the automatic lemmatization of Old English: class IV strong verbs (L-Y)

    1. [1] Universidad de La Rioja

      Universidad de La Rioja

      Logroño, España

  • Localización: Atlantis: Revista de la Asociación Española de Estudios Anglo-Norteamericanos, ISSN 0210-6124, Vol. 45, Nº. 2, 2023, págs. 21-46
  • Idioma: inglés
  • Enlaces
  • Resumen
    • español

      Las características morfológicas de una lengua flexiva como el inglés antiguo que, además, presenta inconsistencias formales generalizadas, limitan el uso de herramientas de lematización y etiquetado morfológico que pueden ser aplicadas a los lenguajes naturales.

      En esta situación, el desarrollo de modelos de Procesamiento del Lenguaje Natural, que dependen necesariamente de corpus lematizados, se ve ralentizado. En este contexto, este artículo diseña un lematizador en el marco de la Generación Morfológica que permite la lematización automática por tipo de los verbos fuertes de la clase IV (L-Y). El lematizador incluye un conjunto de algoritmos que dan cuenta de la variación flexiva, derivativa, morfofonológica y dialectal de estos verbos. Las formas generadas son comparadas de forma automática con los dos corpus de referencia del inglés antiguo (Taylor et al. 2003; Healey et al. 2004) para comprobar su atestiguación y asignarles el lema correspondiente. Los resultados de esta investigación demuestran que se pueden crear asociaciones forma-lema e identificar tanto áreas de ambigüedad formal como asociaciones erróneas. La conclusión principal del artículo es que la exploración de las vías de lematización automática dentro de este marco teórico supone una contribución relevante al campo de la lexicografía del inglés antiguo, tanto al lematizar formas flexivas atestiguadas como al señalar las áreas que deben revisarse.

    • English

      The morphological features of an inflectional language like Old English (OE), which also presents generalized spelling inconsistencies, limit the use of lemmatizing and tagging tools that can be applied to natural languages. Consequently, the development of Natural Language Processing (NLP) models, which crucially depend on lemmatized corpora, is slowed down. Against this background, this article develops a lemmatizer within the framework of Morphological Generation that allows for the type-based automatic lemmatization of OE class IV strong verbs (L–Y). The lemmatizer incorporates a set of algorithms to account for features of inflectional, derivational, morphophonological and diatopic variation. The generated forms are automatically compared with Taylor et al. (2003) and Healey et al. (2004) to confirm their attestation and are assigned a lemma. Overall, the research proves successful in setting up form-lemma associations, while highlighting areas of ambiguity and mismatches. The main conclusion of the article is that taking the route of automatic lemmatization with this methodological framework will contribute to the field of OE lexicography by both lemmatizing attested inflectional forms and by identifying areas for manual revision.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno