La localización de las personas a partir de información acústica es cada vez más importante en aplicaciones del mundo real como la seguridad, la vigilancia y la interacción entre personas y robots. En muchos casos, es necesario localizar con precisión personas u objetos en función del sonido que generan, especialmente en entornos ruidosos y reverberantes en los que los métodos de localización tradicionales pueden fallar, o en escenarios en los que los métodos basados en análisis de vídeo no son factibles por no disponer de ese tipo de sensores o por la existencia de oclusiones relevantes.
Por ejemplo, en seguridad y vigilancia, la capacidad de localizar con precisión una fuente de sonido puede ayudar a identificar posibles amenazas o intrusos. En entornos sanitarios, la localización acústica puede utilizarse para controlar los movimientos y actividades de los pacientes, especialmente los que tienen problemas de movilidad. En la interacción entre personas y robots, los robots equipados con capacidades de localización acústica pueden percibir y responder mejor a su entorno, lo que permite interacciones más naturales e intuitivas con los humanos. Por lo tanto, el desarrollo de sistemas de localización acústica precisos y robustos utilizando técnicas avanzadas como el aprendizaje profundo es de gran importancia práctica.
Es por esto que en esta tesis doctoral se aborda dicho problema en tres líneas de investigación fundamentales: (i) El diseño de un sistema extremo a extremo (end-to-end) basado en redes neuronales capaz de mejorar las tasas de localización de sistemas ya existentes en el estado del arte. (ii) El diseño de un sistema capaz de localizar a uno o varios hablantes simultáneos en entornos con características y con geometrías de arrays de sensores diferentes sin necesidad de re-entrenar. (iii) El diseño de sistemas capaces de refinar los mapas de potencia acústica necesarios para localizar a las fuentes acústicas para conseguir una mejor localización posterior.
A la hora de evaluar la consecución de dichos objetivos se han utilizado diversas bases de datos realistas con características diferentes, donde las personas involucradas en las escenas pueden actuar sin ningún tipo de restricción. Todos los sistemas propuestos han sido evaluados bajo las mismas condiciones consiguiendo superar en términos de error de localización a los sistemas actuales del estado del arte.
Locating people from acoustic information is becoming increasingly important in real world applications such as security, surveillance,and human-robot interaction. In many cases, there is a need to accurately locate people or objects based on the sound they produce, especially in noisy and reverberant environments where traditional localization methods may fail, or in scenarios where video analytics-based methods are not feasible due to lack of such sensors or relevant occlusions.
For instance, in security and surveillance, the ability to accurately locate a sound source can help identify potential threats or intruders. In healthcare, acoustic localization can be used to monitor the movement sand activities of patients, especially those with mobility issues. In human-robot interaction, robots equipped with acoustic localization capabilities can better sense and respond to their environment, enabling more natural and intuitive interactions with humans. Hence, the development of accurate and robust acoustic localization systems using advanced techniques such as deep learning is of great practical importance.
Therefore, this thesis addresses this problem in three fundamental researchlines: (i) The design of anend-to-end system based on neural networks capable of improving the localization accuracy rates ofexisting state-of-the-art systems. (ii)The design of a system capable of simultaneously localizing one or more speakers in environments with different characteristics and sensor array geometries without the need for retraining. (iii)The design of systems capable of refining the acoustic power maps required for acoustic source localization in order to achieve better localization rates later. In order to evaluate the achievement of these objectives, several realistic databases with different characteristics have been used,where the people involved in the scenes can act without any constraints. All the proposed systems have been evaluated under the same conditions and have out performed the current state-of-the-art systems in terms of localization error.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados