Ayuda
Ir al contenido

Dialnet


Affective computing: emotional facial sensing and multimodal fusion

  • Autores: Isabelle Hupont
  • Directores de la Tesis: Sandra Silvia Baldassarri (dir. tes.), Eva Mónica Cerezo Bagdasari (dir. tes.)
  • Lectura: En la Universidad de Zaragoza ( España ) en 2010
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: Francisco José Serón Arbeloa (presid.), Francisco José Perales López (secret.), Antoni Gomila Benejam (voc.), José Luis Pelegay Quintana (voc.), Angélica de Antonio Jiménez (voc.)
  • Materias:
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • La Computación Afectiva es un campo emergente cuyo objetivo es el desarrollo de sistemas inteligentes capaces de dotar a un ordenador con la habilidad de reconocer, interpretar y procesar las emociones humanas. La Interacción Persona-Ordenador proporciona medios naturales para que los seres humanos puedan interaccionar con las computadoras de una manera sencilla e intuitiva. Para que un ordenador sea capaz de interactuar con las personas de forma natural, debe poseer capacidades comunicativas humanas. Una de esas capacidades es el aspecto emocional de la comunicación. Por ese motivo, la detección automática de afecto en el usuario se está convirtiendo en una parte indispensable de las interfaces persona-ordenador avanzadas. Esta Tesis Doctoral se centra en los dos principales focos de investigación relativos a la Computación Afectiva: el reconocimiento de emociones a partir del análisis de las expresiones faciales del usuario y la fusión multimodal de información afectiva extraída de diferentes canales de comunicación humanos. Con esta finalidad, se ha desarrollado un sistema eficiente y novedoso para la detección de emociones faciales, posteriormente ampliado para afrontar el problema del reconocimiento afectivo multimodal.

      Esta memoria de Tesis presenta en primer lugar un reconocedor de afecto facial capaz de detectar las emociones del usuario a partir de una imagen estática de su rostro. Sus entradas son un conjunto de parámetros faciales, ángulos y distancias entre ciertos puntos característicos de la cara, elegidas de manera que el rostro queda modelado de una manera sencilla sin por ello perder información relevante de la expresión facial. El sistema implementa un mecanismo de clasificación emocional que combina de una manera robusta y novedosa los cinco clasificadores más utilizados en el campo del reconocimiento afectivo, asignando a su salida un peso a cada una de las seis categorías emocionales universales de Ekman más la "neutra". Ha sido entrenado con una extensa base de datos universal que muestra imágenes de más de 60 personas, de diferentes razas, edades y géneros. De esta manera, el sistema es capaz de analizar a cualquier sujeto, hombre o mujer, de cualquier edad, etnia y fisonomía. Ha sido validado de forma exhaustiva gracias a estrategias de evaluación estadística, como la validación cruzada, tasas de acierto y matrices de confusión. Se ha tenido en cuenta la opinión humana en la evaluación del sistema, demostrando que el mecanismo de clasificación diseñado trabaja de una forma similar a la del cerebro humano, tendiendo a llegar a las mismas confusiones.

      En segundo lugar, se define una novedosa metodología para hacer frente a la fusión multimodal de información afectiva procedente de diferentes canales. Dicha metodología permite, inicialmente, pasar del reconocimiento emocional facial estático al dinámico, posibilitando posteriormente la inclusión a lo largo del tiempo de cualquier otra entrada afectiva proveniente de otras modalidades. Esta expansión a la Computación Afectiva dinámica y multimodal se logra gracias al uso de un nivel de descripción del afecto bidimensional, que proporciona al sistema un álgebra matemática para lidiar con la multimodalidad y la temporalidad de las emociones. La metodología propuesta es capaz de fusionar cualquier número de módulos categóricos, que manejen escalas de tiempo y etiquetas de salida muy diferentes, sin tener que redefinir todo el sistema cada vez que se incluye nueva información emocional. El paso clave de una perspectiva categórica de las emociones a un espacio afectivo continuo se consigue gracias al uso del Diccionario de Afecto en el Lenguaje de Whissell, que permite mapear cualquier etiqueta emocional a un punto en el espacio afectivo 2D. La metodología propuesta proporciona como salida una trayectoria en el plano 2D que representa el progreso emocional del usuario. Una técnica basada en el filtrado de Kalman controla esta trayectoria en tiempo real para garantizar la robustez y coherencia temporal del sistema. Además, la metodología es capaz de adaptarse a los posibles cambios en la calidad y fiabilidad de las diferentes entradas a fusionar.

      Por último, las técnicas y metodologías propuestas son aplicadas a diferentes contextos de interacción persona-ordenador reales. La información afectiva extraída se utiliza para mejorar la interacción con agentes virtuales 3D, para aumentar las tasas de acierto de un analizador automático de opiniones y para el desarrollo de una herramienta de tutoría en la que el profesor a distancia puede estar al tanto del progreso emocional del alumno a lo largo del curso. El potencial de la metodología de fusión multimodal propuesta se demuestra también fusionando la información afectiva proveniente de los diferentes canales de una herramienta de mensajería instantánea: vídeo, texto y "emoticones".

      La presente Tesis Doctoral contribuye al estado del arte actual en el campo de la Computación Afectiva facial y multimodal en varios aspectos relevantes. Por un lado, el reconocedor de afecto facial desarrollado plantea nuevas cuestiones acerca de las estrategias de validación a utilizar para definir y evaluar adecuadamente un reconocedor de afecto humano. En comparación con otros trabajos existentes, ha sido entrenado y validado con una base de datos más amplia y universal. Por otra parte, ha tenido en consideración el criterio humano para la validación de sistema. Este tipo de estudio es novedoso, no habiendo sido adoptado en otros trabajos, y aporta un importante valor añadido a un sistema que trata la interacción persona-ordenador. Además, a pesar de que la estrategia de evaluación definida es en general más estricta, los resultados de la clasificación emocional -tanto en términos de tasas de acierto como de matrices de confusión- superan a los obtenidos por los trabajos más representativos de la literatura.

      Por otra parte, esta memoria presenta el primer sistema capaz de aprovechar de manera eficiente el potencial del nivel de descripción bidimensional del afecto. La salida final no se limita a ofrecer una clasificación en términos de un conjunto de etiquetas emocionales discretas como en la mayoría de los trabajos existentes, sino que va más allá ampliando la información afectiva a un rango infinito de estados emocionales intermedios. El álgebra proporcionada por el espacio afectivo 2D es explotada para llevar a cabo un reconocimiento emocional dinámico y proporcionar a la salida una trayectoria 2D que representa de una forma novedosa y efectiva el progreso afectivo del usuario a través del tiempo. Gracias a ello, la metodología propuesta es capaz de hacer frente a la multimodalidad de una manera general, permitiendo que diferentes reconocedores de afecto unimodales se añadan al sistema de una manera escalable. Otros métodos se limitan a proponer soluciones de fusión multimodal ad-hoc y altamente dependientes de contexto.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno