Fernando Balbachan, Natalia Flechas, Ignacio Maltagliatti, Francisco Pensa, Lucas Ramírez
Desde el año 2013, el paradigma conexionista en procesamiento de lenguaje natural (PLN) ha venido resurgiendo en ámbitos académicos a partir de nuevas arquitecturas para luego ser adoptado en la industria de software. Este paradigma hace uso de poderosos recursos de cómputo, en una revolución algorítmica conocida como aprendizaje profundo (Deep Learning). Numerosas y sucesivas propuestas superadoras se han ofrecido en una vertiginosa carrera por obtener métricas (benchmarking) que se acercaran al estado del arte para tareas generales de PNL, según diversos estándares (BLEU, GLUE, SuperGLUE). A partir de 2018, con la revolución de los transformers en los últimos dos años (ELMo, BERT y GPT-2), los modelos de Deep Leaning atrajeron aún más el interés de la comunidad científica, de la industria y de neófitos. En este artículo, proponemos una sucinta pero exhaustiva historización de los modelos que han venido evolucionando durante esta revolucionaria última década y ofrecemos, a modo de ejemplo ilustrativo, una arquitectura de implementación completa de Deep Learning para el modelo de código abierto más reciente GPT-2, entrenado para una tarea específica de generación de slogans comerciales en cualquier segmento de producto.
Since 2013, the connectionist paradigm in Natural Language Processing (NLP) has resurged in academic circles by means of new architectures to be adopted later by the software industry with the use of great computing power. It is a truly algorithmic revolution, known as Deep Learning. Several models have been offered in a speedy race in order to improve state-of-the-art metrics for general domain NLP tasks, according to the most frequentlly used standards (BLEU, GLUE, SuperGLUE). From 2018 onwards, Deep Learning models have attracted even more attention through the so-called Transformers revolution (ELMo, BERT y GPT-2). In this paper, we propose a brief yet exhaustive survey on the models that have been evolving during this last decade. We also describe in detail a complete from scratch implementation for the most recent open-source model GPT-2, fine-tuned for a specific NLG task of slogan generation for commercial products.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados