Técnicas de procesado y representación de la señal de voz para el reconocimiento del habla en ambientes ruidosos

Francisco Javier Hernando Pericás

Ayuda

Técnicas de procesado y representación de la señal de voz para el reconocimiento del habla en ambientes ruidosos

Autores: Francisco Javier Hernando Pericás
Directores de la Tesis: Climent Nadeu Camprubí (dir. tes.)
Lectura: En la Universitat Politècnica de Catalunya (UPC) ( España ) en 1993
Idioma: español
Tribunal Calificador de la Tesis: José Bernardo Mariño Acebal (presid.), Eduardo Lleida Solano (secret.), Enrique Masgrau Gómez (voc.), Juan Gómez Mena (voc.), Francisco Casacuberta Nolla (voc.)
Materias:
- Ciencias tecnológicas
  - Tecnología de las telecomunicaciones
Enlaces
- Tesis en acceso abierto en: TDX
Resumen
- El comportamiento de los sistemas actuales de reconocimiento del habla se degrada rápidamente en presencia de ruido de fondo cuando las etapas de entrenamiento y de test no pueden llevarse a cabo en las mismas condiciones ambientales. El propósito de esta tesis es el estudio y la aplicación al reconocimiento automático del habla en ambientes ruidosos de nuevas representaciones de la señal de voz que sean robustas por sí mismas al ruido y reflejen exactamente las diferencias fonéticas entre espectros de voz. De forma natural, la estrecha relación existente entre el tipo de representación de la señal y la medida de distancia idónea para confrontar los vectores de parámetros ha conducido también al estudio de distancias en esta tesis.Para la evaluación de las técnicas propuestas se ha utilizado un sistema de reconocimiento de palabras aisladas mediante modelos ocultos de Markov. El hecho de que el sistema sea de palabras aisladas permite prescindir de las implicaciones de los niveles de conocimiento superiores al acústico: sintáctico, semántico, pragmático,... Por otro lado, los modelos ocultos de Markov son los que en estos momentos proporcionan unas mejores prestaciones en todos los sistemas en desarrollo.La aportación fundamental de esta tesis es la introducción de la predicción lineal de la parte causal de la secuencia de autocorrelación de la señal de voz como una técnica de parametrización robusta del habla en presencia de ruido. Esta técnica está estrechamente relacionada con la representación SMC y con el uso de un sistema sobredeterminado de ecuaciones de Yule-Walker. Su uso en reconocimiento de habla ruidosa es muy interesante debido a su simplicidad, su eficiencia computacional y sus altas tasas de acierto, que superan ampliamente a las técnicas mencionadas y a la clásica predicción lineal sobre la señal en condiciones severas de ruido. A partir de un estudio comparativo de distintas técnicas en el caso de ruido blanco y ruido real, se han extraído las siguientes conclusiones fundamentales: es preferible el uso de un orden de predicción relativamente alto y ventanas cepstrales crecientes para desenfatizar los coeficientes de orden inferior; las representaciones instantáneas de la señal son menos robustas que a las dinámicas, por lo cual resulta de gran utilidad el uso de parámetros regresivos; el etiquetado múltiple supera ampliamente en prestaciones a la cuantificación vectorial clásica; y, finalmente, la representación cepstral basada en la predicción lineal de la parte causal de la autocorrelación alcanza excelentes resultados en condiciones severas de ruido y es menos sensible a los factores anteriores que la predicción lineal clásica.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: