Resumen de Self-Supervised audio spectrogram transformer para el reconocimiento de emociones en señales de voz: un enfoque de entrenamiento semi-supervisado

La detección de emociones en señales de voz es un campo de las tecnologías de reconocimiento automático del discurso. Conforme los algoritmos de aprendizaje profundo han ido evolucionando, los servicios de reconocimiento de voz son cada vez mas precisos. La señal de voz puede informar acerca del estado emocional del hablante. Variaciones en el tono, cadencia del habla o volumen de la voz, son algunas de las características que transmiten parte del contenido emocional del mensaje transmitido. Los sistemas de reconocimiento de emociones abren un amplio campo de aplicaciones en el ámbito de la psicología ya que pueden facilitar el reconocimiento del estado emocional del paciente, así como asistir en decisiones, diagnósticos y motorización. Las arquitecturas basadas en transformers, gracias al entrenamiento semi-supervisado, pueden emplearse para múltiples tareas de reconocimiento del discurso, en este caso, el reconocimiento de emociones. En este articulo se presentan las técnicas empleadas ...

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: