Identificando cambios de autor en un texto mediante codificación de embeddings de tokens iniciales de las capas de atención.

César Humberto Espin Riofrio; Fernando Alvear Ferrín; Bolívar Pazmiño Bermúdez; Tania Peralta Guaraca; Rocío Carchi Encalada

Ayuda

Identificando cambios de autor en un texto mediante codificación de embeddings de tokens iniciales de las capas de atención.

Espín Riofrio, César ^[1] ; Alvear Ferrín, Fernando ^[1] ; Pazmiño Bermúdez, Bolívar ^[1] ; Peralta Guaraca, Tania ^[1] ; Carchi Encalada, Rocío Carchi Encalada ^[1]
1. [1] Universidad de Guayaquil
  
  Universidad de Guayaquil
  
  Guayaquil, Ecuador
Localización: Polo del Conocimiento: Revista científico - profesional, ISSN-e 2550-682X, Vol. 8, Nº. 8 (AGOSTO 2023), 2023, págs. 2552-2565
Idioma: español
Títulos paralelos:
- Identifying author changes in a text by encoding embeddings of initial tokens from the attention layers
Enlaces
- Texto completo (pdf)
Resumen
- español
  La determinación de autoría es una herramienta esencial en la detección de plagio y atribución errónea de autor en diversas áreas. En este trabajo, se aborda la problemática de determinar cambios de autor en un texto. Tradicionalmente, muchas investigaciones utilizan la salida final de codificación de las capas de atención en tareas de clasificación de textos. Proponemos extraer los embeddings de codificación de los tokens iniciales de las capas de atención de modelos Transformer pre entrenados basados en BERT, aplicando aprendizaje por transferencia para realizar un ajuste fino del modelo y luego proceder a la predicción. Los modelos mDeBERTa y DeBERTa se seleccionan para la experimentación. El enfoque se valida utilizando un dataset de las campañas PAN 2023 para determinar cambios de autor, que contiene pares de textos en inglés de distintos dominios. Este estudio tiene una importancia significativa en diversas disciplinas que requieran la verificación de autoría. Si bien los resultados obtenidos no fueron los esperados, el método propuesto es un prometedor punto de partida para futuras investigaciones sobre el tema.
- English
  The determination of authorship is an essential tool in the detection of plagiarism and erroneous author attribution in various areas. In this paper, the problem of determining author changes in a text is addressed. Traditionally, many investigations use the final encoding output of attentional layers in text classification tasks. We propose to extract the encoding embeddings of the initial tokens from the attention layers of pre-trained BERT-based Transformer models, applying transfer learning to fine tune the model and then proceed to prediction. The mDeBERTa and DeBERTa models are selected for experimentation. The approach is validated using a dataset from the PAN 2023 campaigns to determine author changes, which contains pairs of texts in English from different domains. This study has significant importance in various disciplines that require verification of authorship. Although the results obtained were not as expected, the proposed method is a promising starting point for future research on the subject.