Víctor Uc Cetina, Jorge Reyes Magaña, Oscar Navarrate Parra
En este artículo se propone una metodología para alinear un modelo GPT de tamaño mediano, entrenado originalmente en inglés y de dominio abierto, a un dominio cerrado y pequeño en español. La aplicación para la cual se afina el modelo es para una tarea de preguntas y respuestas. Para lograr este objetivo también fue necesario entrenar e implementar otra red neuronal (a la cual llamamos modelo de recompensas) que pudiera calificar y determinar si una respuesta es adecuada para una determinada pregunta. Este componente sirvió para mejorar la decodificación y generación de las respuestas del sistema. Para la evaluación del modelo se utilizaron métricas numéricas como BLEU y perplejidad, y también se utilizó la evaluación a juicio humano, comparando la técnica de decodificación con otras. Finalmente, los resultados favorecieron el método propuesto, y se determinó que es factible utilizar un modelo de recompensas para alinear la generación de respuestas.
In this paper, we propose a methodology to align a medium-sized GPT model, originally trained in English for an open domain, to a small closed domain in Spanish. The application for which the model is finely tuned is the question answering task. To achieve this we also needed to train and implement another neural network (which we called the reward model) that could score and determine whether an answer is appropriate for a given question. This component served to improve the decoding and generation of the answers of the system. Numerical metrics such as BLEU and perplexity were used to evaluate the model, and human judgment was also used to compare the decoding technique with others. Finally, the results favored the proposed method, and it was determined that it is feasible to use a reward model to align the generation of responses.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados