En el presente trabajo se abordó el reconocimiento automático del idioma hablado en señales de corta duración, empleando una red neuronal convolucional pre-entrenada sobre un conjunto de imágenes. Partiendo del conocimiento transferido del dominio de imágenes reales a la clasificación de tareas sobre audio, se evaluó el impacto del aprendizaje multitarea tomando el reconocimiento de idioma como tarea principal y el reconocimiento del locutor como tarea auxiliar. Los experimentos se llevaron a cabo sobre un subconjunto del corpus Voxforge, y con una cantidad de señal significativamente menor a las empleadas por sistemas análogos de referencia. La evaluación se realizó sobre espectrogramas conformados con 3 segundos de señal. Los resultados arrojan que el reconocimiento del idioma hablado se beneficia del aprendizaje multitarea al usar como tarea auxiliar la identidad del locutor.
In the present work, spoken language recognition in short utterances was addressed using a convolutional neural network pre-trained on a set of images. Starting from the knowledge transferred from the domain of real images to the audio classification tasks, we assess the impact of multitask learning, taking language recognition as the main task and speaker recognition as auxiliary task. The experiments were carried out on a subset of the Voxforge corpus, and with a significantly lower amount of signals than those used by analog reference systems. The evaluation was done over spectrograms conformed with 3 seconds signal. The results show that the spoken language recognition task benefits from multitasking learning by using the identity of the speaker as an auxiliary task.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados