Self-Supervised audio spectrogram transformer para el reconocimiento de emociones en señales de voz: un enfoque de entrenamiento semi-supervisado

Autores: Óscar Vallés, María Rocío del Amor del Amor, Adrián Colomer Granero, Valeriana Naranjo Ornedo
Localización: CASEIB 2023. Libro de Actas del XLI Congreso Anual de la Sociedad Española de Ingeniería Biomédica: Contribuyendo a la salud basada en valor / coord. por Joaquín Roca González, Dolores Ojados González, Juan Suardíaz Muro, 2023, ISBN 978-84-17853-76-1, págs. 666-669
Idioma: español
Enlaces
- Texto completo
Resumen
- La detección de emociones en señales de voz es un campo de las tecnologías de reconocimiento automático del discurso. Conforme los algoritmos de aprendizaje profundo han ido evolucionando, los servicios de reconocimiento de voz son cada vez mas precisos. La señal de voz puede informar acerca del estado emocional del hablante. Variaciones en el tono, cadencia del habla o volumen de la voz, son algunas de las características que transmiten parte del contenido emocional del mensaje transmitido. Los sistemas de reconocimiento de emociones abren un amplio campo de aplicaciones en el ámbito de la psicología ya que pueden facilitar el reconocimiento del estado emocional del paciente, así como asistir en decisiones, diagnósticos y motorización. Las arquitecturas basadas en transformers, gracias al entrenamiento semi-supervisado, pueden emplearse para múltiples tareas de reconocimiento del discurso, en este caso, el reconocimiento de emociones. En este articulo se presentan las técnicas empleadas ...

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: