Analyzing of the vocal fold dynamics using laryngeal videos

Gustavo Xavier Andrade Miranda

Ayuda

Analyzing of the vocal fold dynamics using laryngeal videos

Autores: Gustavo Xavier Andrade Miranda
Directores de la Tesis: Juani Godino (dir. tes.), Nathalia Henrich (codir. tes.)
Lectura: En la Universidad Politécnica de Madrid ( España ) en 2017
Idioma: español
Tribunal Calificador de la Tesis: Philippe Henri Dejonckere (presid.), Luis Alfonso Hernández Gómez (secret.), Arrate Muñoz Barrutia (voc.), José María Martínez Sánchez (voc.), Norberto Antonio Malpica Gonzalez (voc.)
Programa de doctorado: Programa de Doctorado en Ingeniería Biomédica por la Universidad Politécnica de Madrid
Enlaces
- Tesis en acceso abierto en: Archivo Digital UPM
Resumen
- La voz es una herramienta esencial en la que se fundamenta la comunicación de los seres humanos por este motivo tener una voz saludable es importante para el diario vivir de las personas, y más aún si esta es utilizada como una herramienta profesional de trabajo. Por tal motivo, es imperioso encontrar nuevas y mejores técnicas para comprender los mecanismos usados para la producción de la voz y sobretodo para entender el comportamiento vibratorio de los pliegues vocales utilizando Videos Laríngeos de Alta Velocidad (Laryngeal High-Speed Videoendoscopy (LHSV)). A partir de los antecedentes anteriormente mencionados, el presente trabajo tiene como objetivo contribuir al análisis de la función vibratoria de los pliegues vocales mediante la implementación de nuevas y más robustas herramientas basadas en el uso de técnicas de procesado de imágenes. Debido a la gran cantidad de información que debe ser evaluada tanto cualitativa como cuantitativamente es necesario sintetizar esta información espacio-temporal en pocas representaciones estáticas que reflejen inequívocamente el movimiento de los pliegues vocales. Hasta el momento la mayoría de los hitos han sido alcanzados gracias al uso de la segmentación y del seguimiento de la abertura glotal. Dichas tareas no son fáciles debido a factores como ruido en las imágenes, variación en la iluminación, diferentes niveles de grises presentes en la abertura glotal, borrosidad de las imágenes, borrosidad de los contornos de la abertura glotal, movimiento de la cámara y/o de los pacientes. Con la finalidad de solucionar los problemas citados anteriormente se presentan dos algoritmos para segmentar la abertura glotal. El primero, recibe el nombre de Segmentación Glotal Basada en Transformación Divisoria y Contornos Activos (Glottal Segmentation Based on Watershed Transform and Active Contours (SnW)), la cual identifica una Región de Interés (Region of Interest (ROI)) que se actualiza automáticamente. Este método combina el uso de Modelos Deformables (Deformable Models) y la Transformación Divisoria (Watershed Transform) para realizar la delimitación final de la abertura glotal. Gracias a la implementación del ROI, SnW es robusto a los movimientos de la cámara. El segundo método recibe el nombre de Segmentación Glotal Basada en Sustracción de Fondo e Restauración de Imagen (Glottal Segmentation Based on Background Subtraction and Inpainting (InP)), en el que se presenta un algoritmo cuasi-automático para segmentar con precisión la abertura glotal mediante la introducción de técnicas que no habían sido exploradas antes en la literatura. La metodología propuesta en InP permite que el usuario realice una intervención mínima en los casos donde la segmentación automática falla. Adicionalmente se propone el uso de un conjunto de directrices para poder evaluar la precisión y eficiencia de las segmentaciones glotales. Estas directrices se dividen en tres grupos: analíticas, subjetivas y objetivas. Los resultados obtenidos a partir de estas directrices sugieren que el método más confiable para la segmentación de la abertura glotal es InP, logrando una mejora de un 13% con respecto a otras técnicas en la cuestión del arte y 18% con respecto a SnW. También quedo demostrado que el conjunto de directrices pueden ser usadas para estandarizar los criterios de precisión y eficiencia en la evaluación de los algoritmos de segmentación glotal. Por último, se investigó el uso del Flujo Óptico (Optical Flow (OF)) para resolver los problemas relacionados con la segmentación glotal. A partir del OF tres nuevas representaciones son presentadas para comprender la dinámica de los pliegues vocales. Dos de ellas analizan la dinámica global, Flujo Óptico del Glotovibrograma (Optical Flow Glottovibrogram (OFGVG)) y el Flujo Óptico de la Forma de Onda Glotal (Glottal Optical Flow Waveform (GOFW)); el restante recibe el nombre de Flujo Óptico del Quimograma (Optical Flow Kymogram (OFKG)) y analiza las dinámicas locales de los pliegues vocales. Las ventajas, inconvenientes y como complementan a los métodos ya existentes son discutidos. Las nuevas representaciones fueron evaluadas utilizando una base de datos compuesta por 60 LHSV, la misma que incluye diferentes calidades de voz tanto en voz hablada como en voz cantada. La nuevas representaciones basadas en OF fueron comparadas con las obtenidas mediante segmentación, mostrando que proporcionan información adicional sobre la dinámica temporal de los movimientos vibratorios glotales durante las fases de cierre y apertura glotal.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: