La mejora de la calidad de la voz es un problema que, aunque ha sido abordado durante muchos años, aún sigue abierto. El creciente auge de aplicaciones tales como los sistemas manos libres o de reconocimiento de voz automático y las cada vez mayores exigencias de las personas con pérdidas auditivas han dado un impulso definitivo a este área de investigación. Esta tesis doctoral se centra en la mejora de la calidad de la voz en aplicaciones audiológicas. La mayoría del trabajo de investigación desarrollado en esta tesis está dirigido a la mejora de la inteligibilidad de la voz en audífonos digitales, teniendo en cuenta las limitaciones de este tipo de dispositivos. La combinación de técnicas de separación de fuentes y filtrado espacial con técnicas de aprendizaje automático y computación evolutiva ha originado novedosos e interesantes algoritmos que son incluidos en esta tesis. La tesis esta dividida en dos grandes bloques. El primer bloque contiene un estudio preliminar del problema y una exhaustiva revisión del estudio del arte sobre algoritmos de mejora de la calidad de la voz, que sirve para definir los objetivos de esta tesis. El segundo bloque contiene la descripción del trabajo de investigación realizado para cumplir los objetivos de la tesis, así como los experimentos y resultados obtenidos. En primer lugar, el problema de mejora de la calidad de la voz es descrito formalmente en el dominio tiempo-frecuencia. Los principales requerimientos y restricciones de los audífonos digitales son definidas. Tras describir el problema, una amplia revisión del estudio del arte ha sido elaborada. La revisión incluye algoritmos de mejora de la calidad de la voz mono-canal y multi-canal, considerando técnicas de reducción de ruido y técnicas de separación de fuentes. Además, la aplicación de estos algoritmos en audífonos digitales es evaluada. El primer problema abordado en la tesis es la separación de fuentes sonoras en mezclas infra-determinadas en el dominio tiempo-frecuencia, sin considerar ningún tipo de restricción computacional. El rendimiento del famoso algoritmo DUET, que consigue separar fuentes de voz con solo dos mezclas, ha sido evaluado en diversos escenarios, incluyendo mezclas lineales y binaurales no reverberantes, mezclas reverberantes, y mezclas de voz con otro tipo de fuentes tales como ruido y música. El estudio revela la falta de robustez del algoritmo DUET, cuyo rendimiento se ve seriamente disminuido en mezclas reverberantes, mezclas binaurales, y mezclas de voz con música y ruido. Con el objetivo de mejorar el rendimiento en estos casos, se presenta un novedoso algoritmo de separación de fuentes que combina la técnica de clustering mean shift con la base del algoritmo DUET. La etapa de clustering del algoritmo DUET, que esta basada en un histograma ponderado, es reemplazada por una modificación del algoritmo mean shift, introduciendo el uso de un kernel Gaussiano ponderado. El análisis de los resultados obtenidos muestran una clara mejora obtenida por el algoritmo propuesto en relación con el algoritmo DUET original y una modificación que usa k-means. Además, el algoritmo propuesto ha sido extendido para usar un array de micrófonos de cualquier tamaño y geometría. A continuación se ha abordado el problema de la enumeración de fuentes de voz, que esta relacionado con el problema de separación de fuentes. Se ha propuesto un novedoso algoritmo basado en un criterio de teoría de la información y en la estimación de los retardos relativos causados por las fuentes entre un par de micrófonos. El algoritmo ha obtenido excelente resultados y muestra robustez en la enumeración de mezclas no reverberantes de hasta 5 fuentes de voz. Además se demuestra la potencia del algoritmo para la enumeración de fuentes en mezclas reverberantes. El resto de la tesis esta centrada en audífonos digitales. El primer problema tratado es el de la mejora de la inteligibilidad de la voz en audífonos monoaurales. En primer lugar, se realiza un estudio de los recursos computacionales disponibles en audífonos digitales de ultima generación. Los resultados de este estudio se han utilizado para limitar el coste computacional de los algoritmos de mejora de la calidad de la voz para audífonos propuestos en esta tesis. Para resolver este primer problema se propone un algoritmo mono-canal de mejora de la calidad de la voz de bajo coste computacional. El objetivo es la estimación de una mascara tiempo-frecuencia continua para obtener el mayor parámetro PESQ de salida. El algoritmo combina una versión generalizada del estimador de mínimos cuadrados con un algoritmo de selección de características a medida, utilizando un novedoso conjunto de características. El algoritmo ha obtenido resultados excelentes incluso con baja relación señal a ruido. El siguiente problema abordado es el diseño de algoritmos de mejora de la calidad de la voz para audífonos binaurales comunicados de forma inalámbrica. Estos sistemas tienen un problema adicional, y es que la conexión inalámbrica aumenta el consumo de potencia. El objetivo en esta tesis es diseñar algoritmos de mejora de la calidad de la voz de bajo coste computacional que incrementen la eficiencia energética en audífonos binaurales comunicados de forma inalámbrica. Se han propuesto dos soluciones. La primera es un algoritmo de extremado bajo coste computacional que maximiza el parámetro WDO y esta basado en la estimación de una mascara binaria mediante un discriminante cuadrático que utiliza los valores ILD e ITD de cada punto tiempo-frecuencia para clasificarlo entre voz o ruido. El segundo algoritmo propuesto, también de bajo coste, utiliza además la información de puntos tiempo-frecuencia vecinos para estimar la IBM mediante una versión generalizada del LS-LDA. Además, se propone utilizar un MSE ponderado para estimar la IBM y maximizar el parámetro WDO al mismo tiempo. En ambos algoritmos se propone un esquema de transmisión eficiente energéticamente, que se basa en cuantificar los valores de amplitud y fase de cada banda de frecuencia con un numero distinto de bits. La distribución de bits entre frecuencias se optimiza mediante técnicas de computación evolutivas. El ultimo trabajo incluido en esta tesis trata del diseño de filtros espaciales para audífonos personalizados a una persona determinada. Los coeficientes del filtro pueden adaptarse a una persona siempre que se conozca su HRTF. Desafortunadamente, esta información no esta disponible cuando un paciente visita el audiólogo, lo que causa perdidas de ganancia y distorsiones. Con este problema en mente, se han propuesto tres métodos para diseñar filtros espaciales que maximicen la ganancia y minimicen las distorsiones medias para un conjunto de HRTFs de diseño.
The improvement of speech intelligibility is a traditional problem which still remains open and unsolved. The recent boom of applications such as hands-free communications or automatic speech recognition systems and the ever-increasing demands of the hearing-impaired community have given a definitive impulse to the research in this area. This PhD thesis is focused on speech enhancement for audiological applications. Most of the research conducted in this thesis has been focused on the improvement of speech intelligibility in hearing aids, considering the variety of restrictions and limitations imposed by this type of devices. The combination of source separation techniques and spatial filtering with machine learning and evolutionary computation has originated novel and interesting algorithms which are included in this thesis. The thesis is divided in two main parts. The first one contains a preliminary study of the problem and a thorough review of the state of the art in this field, from which the goals of the thesis are defined. The second part contains a description of the research conducted to fulfill the objectives of this thesis, including the experimental work and the results obtained. In a first stage, the speech enhancement problem is formally described and studied in the time-frequency domain. The particular engineering constraints and requirements demanded by hearing aids are also defined. Once the problem has been described, a review of the state of the art has been carried out. The review includes existing solutions to both the single-channel and multichannel speech enhancement problem, considering the noise reduction and the source separation approaches, as well as a review of the application of such algorithms in hearing aids.
The first problem addressed in this thesis is the sound source separation of undetermined mixtures in the time-frequency domain, without considering any type of computational restriction. The performance of the so-called DUET algorithm, which performs speech separation with only two microphones, has been evaluated in a variety of scenarios including linear and binaural anechoic mixtures, echoic mixtures, and mixtures of speech with other types of sources such as noise and music. The study reveals the lack of robustness of the original DUET algorithm, whose performance is notably decreased in echoic and binaural mixtures and when mixing speech with noise and music. In order to overcome this problem, a novel source separation algorithm that combines the mean shift clustering technique with the basis of DUET has been proposed. The clustering step in DUET, which is based on a weighted histogram, is replaced by a weighted-Gaussian kernel mean shift algorithm, which has been inferred for the problem at hand. The analysis of the results obtained demonstrates that the proposed algorithm clearly outperforms the original DUET and a modification thereof using k-means. Additionally, the proposed algorithm has been extended to the case of using any number of microphones and array geometry. The automatic speech source enumeration problem, which is related to the source separation problem, has also been tackled. A novel algorithm based on information theoretic criteria and the estimation of the source delays between the signals received by two microphones has been proposed. The algorithm has obtained very good results and it has shown good robustness in the enumeration of anechoic mixtures up to 5 speech sources. Additionally, the potential of the algorithm to enumerate sources in echoic mixtures has been demonstrated.
The remaining of the thesis has been focused on hearing aids. The first problem related to hearing aids addressed in this thesis is the improvement of speech intelligibility in monaural hearing aids. First, a study of the computational resources available for signal processing in state-of-the-art commercial hearing aids has been carried out. The result of this study has been used to limit the computational cost of the speech enhancement algorithms for hearing aids proposed in this thesis. After that, a low-cost algorithm for single-channel speech enhancement has been proposed. The algorithm combines a generalized version of the LS estimator with a tailored feature selection algorithm based on evolutionary computation, with the purpose of estimating a time-frequency soft mask that maximizes the output PESQ value, which is a metric highly correlated with intelligibility. The mask is estimated using a novel set of features extracted from the STFT of the mixture. Excellent results are obtained even with low SNRs. The next work approaches the speech enhancement problem in wireless-communicated binaural hearing aids. In this case, the two devices are connected with a wireless link, which increases the power consumption. The objective in this thesis is the design of low-cost speech enhancement algorithms that increase the energy efficiency of the wireless-communicated binaural hearing aids. First, an extremely low-cost binaural speech separation system that maximizes the WDO has been proposed. It is based on a quadratic discriminant that uses the ILD and ITD cues to classify each time-frequency point between speech or noise. The weights of the discriminant are calculated using a tailored evolutionary algorithm. The second low-cost algorithm uses the information from neighbor time-frequency points to estimate the IBM, using a generalized version of the LS-LDA, introducing a weighted MSE metric that allows estimating the IBM and maximizing the WDO factor at the same time. In both algorithms, a transmission schema to enhance the energy efficiency of the wireless system has been proposed. The schema quantizes the amplitude and phase values of each frequency band with a different number of bits. The bit distribution among frequency bands is optimized by evolutionary computation. Finally, the last work included in this thesis concerns the design of beamformers for hearing aids fitted to a determined person. The beamforming filter coefficients can be easily fitted to a specific subject as long as the HRTF of that person is known.
Unfortunately, this information is not available for every person that needs a new device, and the lack of this knowledge causes gain reduction and distortions. With this problem in mind, three different approaches to optimize the beamforming filter coefficients in case of unknown HRTF have been proposed. The three methods aim at maximizing the average array gain while minimizing the average speech distortions, using a design dataset. The experimental work has demonstrated that the proposed methods decrease significantly the gain reduction and distortions caused by computing the filter coefficients with unknown HRTF of the subject.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados