The Moderniſa Project: Orthographic Modernization of Spanish Golden Age Dramas with Language Models

Javier de la Rosa Pérez; Álvaro Cuéllar González; Jörg Lehmann

Ayuda

The Moderniſa Project: Orthographic Modernization of Spanish Golden Age Dramas with Language Models

Javier de la Rosa ^[1] ; Álvaro Cuéllar ; Lehmann, Jörg
1. [1] National Library of Norway
Localización: Anuario Lope de Vega: Texto, literatura, cultura, ISSN-e 2014-8860, Nº. 30, 2024 (Ejemplar dedicado a: Prácticas editoriales y sociabilidad literaria en torno a Lope de Vega / La alquimia de un mundo inventado: mixturas literarias en tiempos de Lope), págs. 410-425
Idioma: inglés
Títulos paralelos:
- El proyecto Moderniſa: modernización ortográfica del teatro del Siglo de Oro con modelos de lenguaje
Enlaces
- Texto completo 1 2
Resumen
- español
  La creciente aplicación de métodos computacionales a la literatura española del Siglo de Oro ha revelado la necesidad de automatizar la modernización de los textos para facilitar su comparación y análisis. Este estudio es el primero en el uso de técnicas del Procesamiento del Lenguaje Natural (PNL) para adaptar los textos del Siglo de Oro (ca. 1590-1680) a un español moderno y normalizado (RAE 2010). La investigación emplea la arquitectura de transformadores para entrenar y evaluar modelos usando un corpus de comedias del Siglo de Oro. Dichos modelos son prometedores a la hora de encargarse de marcas tipográficas complicadas, así como palabras dependientes del contexto, pero se ven comprometidos al tratar los nombres propios y las variaciones ortográficas. Evaluada usando diferentes métricas comunes en la literatura especializada, nuestra herramienta demuestra tener potencial como recurso valioso para historiadores, filólogos y humanistas digitales. Las limitaciones incluyen la especificidad del corpus de entrenamiento y algunas inconsistencias observadas en la puntuación y la ortografía incluso en textos modernizados. Esta investigación ofrece una solución novedosa y escalable a la modernización manual de la literatura del Siglo de Oro, abriendo la puerta a más estudios computacionales en el ámbito de conocimiento.
- English
  The increasing application of computational methods to the literature of the Spanish Golden Age has revealed the necessity of automating the modernization of its texts to facilitate seamless comparison and analysis. This study pioneers the employment of Natural Language Processing (NLP) techniques for the transformation of Spanish Golden Age texts (circa 1590-1680) into modern, normalized Spanish (RAE 2010). The research employs the transformer architecture to train and evaluate models using a corpus of Golden Age dramas. The models show promise in handling tricky typographical marks and context-sensitive words, but also struggle with proper nouns and orthographic variations. Evaluated using different metrics common in the specialized literature, the tool demonstrates potential as a valuable resource for historians, philologists, and digital humanists. Limitations include the specificity of the training corpus and observed inconsistencies in punctuation and spelling even in modernized texts. This research offers a novel, scalable solution to the manual modernization of Golden Age Spanish literature, enabling further computational studies in the field.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: