Ir al contenido


Resumen de Overview of IberAuTexTification at IberLEF 2024: Detection and Attribution of Machine-Generated Text on Languages of the Iberian Peninsula

Areg Mikael Sarvazyan, José Ángel González, Francisco Manuel Rangel Pardo, Paolo Rosso, Marc Franco Salvador

  • español

    Este artículo presenta un resumen de la tarea IberAuTexTification como parte del workshop IberLEF 2023 en el Iberian Languages Evaluation Forum, dentro del marco de la conferencia SEPLN 2024. IberAuTexTification extiende nuestra tarea previa, AuTexTification, en tres dimensiones: (i) más dominios, (ii) más idiomas de la Península Ibérica y (iii) LLMs más destacados. Esta tarea propone un escenario multilingüe, multi-dominio y multi-modelo consistente en dos subtareas. En la Subtarea 1, los participantes deben determinar si el autor de un texto es un humano o una máquina. En la Subtarea 2, los participantes deben atribuir un texto generado al modelo de lenguaje que lo generó. Nuestro dataset de IberAuTexTification contiene alrededor de 168.000 textos en seis idiomas (Inglés, Español, Portugués, Catalán, Vasco y Gallego) y siete dominios (chat, noticias, literatura, reseñas, tweets, wikipedia y artículos instructivos). Un total de 21 equipos participaron en la tarea, enviando 68 resultados, 54 para la Subtarea 1 y 14 para la Subtarea 2. En este artículo, presentamos la tarea IberAuTexTification, los sistemas enviados por los participantes y sus resultados.

  • English

    This paper presents the overview of the IberAuTexTification shared task as part of the IberLEF 2024 Workshop in Iberian Languages Evaluation Forum, within the framework of the SEPLN 2024 conference. IberAuTexTification extends our previous AuTexTification shared task in three dimensions: (i) more domains, (ii) more languages from the Iberian Peninsula, and (iii) more prominent LLMs. This shared task frames a multilingual, multi-domain, and multi-model setting consisting of two subtasks. For Subtask 1, participants have to determine whether a text’s author is a human or machine. For Subtask 2, participants have to attribute a machine-generated text to a large language model. Our IberAuTexTification dataset contains about 168,000 texts across six languages (English, Spanish, Portuguese, Catalan, Basque, and Galician) and seven domains (chat, news, literary, reviews, tweets, wikipedia, and how-to articles). A total of 21 teams participated in the task with 68 runs, 54 for Subtask 1 and 14 for Subtask 2. In this overview, we present the IberAuTexTification task, the submitted participating systems, and the results.

Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus