Resumen de Alineando un modelo mediano GPT en inglés a un dominio cerrado y pequeño en españ

Multiple
En este artículo se propone una metodología para alinear un modelo GPT de tamaño mediano, entrenado originalmente en inglés y de dominio abierto, a un dominio cerrado y pequeño en español. La aplicación para la cual se afina el modelo es para una tarea de preguntas y respuestas. Para lograr este objetivo también fue necesario entrenar e implementar otra red neuronal (a la cual llamamos modelo de recompensas) que pudiera calificar y determinar si una respuesta es adecuada para una determinada pregunta. Este componente sirvió para mejorar la decodificación y generación de las respuestas del sistema. Para la evaluación del modelo se utilizaron métricas numéricas como BLEU y perplejidad, y también se utilizó la evaluación a juicio humano, comparando la técnica de decodificación con otras. Finalmente, los resultados favorecieron el método propuesto, y se determinó que es factible utilizar un modelo de recompensas para alinear la generación de respuestas.
English
In this paper, we propose a methodology to align a medium-sized GPT model, originally trained in English for an open domain, to a small closed domain in Spanish. The application for which the model is finely tuned is the question answering task. To achieve this we also needed to train and implement another neural network (which we called the reward model) that could score and determine whether an answer is appropriate for a given question. This component served to improve the decoding and generation of the answers of the system. Numerical metrics such as BLEU and perplexity were used to evaluate the model, and human judgment was also used to compare the decoding technique with others. Finally, the results favored the proposed method, and it was determined that it is feasible to use a reward model to align the generation of responses.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: