Ayuda
Ir al contenido

Dialnet


Resumen de Source separation methods for orchestral music timbre-informed and score-informed strategies

Marius Miron

  • Los humanos tenemos la capacidad de diferenciar distintas fuentes sonoras del entorno y focalizar nuestra atención selectivamente en algunas de ellas en particular. Sin embargo, enseñar a un ordenador a separar automáticamente una escena acústica en distintas fuentes y focalizarse en una de ellas es aún una tarea difícil. Esta tarea de procesado de señal se conoce comúnmente como separación de fuentes sonoras e implica recuperar las diversas fuentes originales de una mezcla sonora.

    La tesis que aquí se presenta se centra en la separación de fuentes sonoras de música clásica occidental o música orquestal. La capacidad de separar el audio de los diferentes instrumentos musicales permite aplicaciones interesantes como la escucha augmentada de una sección particular de la orquesta o la recreación de un concierto en un entorno de realidad virtual. Además, las distintas pistas de instrumento pueden ser analizadas posteriormente por otros algoritmos de extracción sonora que funcionan mejor en este tipo de señales comparado en como funcionan en la señal mezclada.

    La separación de fuentes sonoras musicales mejora tanto si tenemos conocimiento previo de los instrumentos presentes en la pieza musical como si disponemos de la partitura. De hecho, como más información tengamos sobre la música, más podremos restringir nuestro modelo y mejor será la separación resultante. En la música orquestal los instrumentos son conocidos de antemano, de tal manera que podemos entrenar modelos de timbre para cada instrumento. Esta técnica se conoce como separación de fuentes informada con timbre. Además, este género musical acostumbra a usar partituras, cuya información puede puede ser usada para mejorar la separación. Esta técnica se conoce como separación de fuentes sonoras informada con partitura.

    De cara a una evaluación objetiva, en la segunda parte de la tesis proponemos un conjunto de datos de música orquestal con partituras y una metodología de evaluación para comprobar la influencia de las distintas partes de la arquitectura de separación.

    En la tercera parte de la tesis, nuestras contribuciones se centran en arreglar diversos problemas específicos del contexto como los errores que se dan en el alineamiento entre la partitura y las diversas interpretaciones musicales que se pueden hacer de ella. Además, mientras trabajamos en mejorar los modelos de separación existentes, en el cuarto capítulo proponemos un modelo de baja latencia basado en aprendizaje profundo. Con este modelo pretendemos superar el problema de la falta de datos en los modelos de separación supervisada de fuentes sonoras aprovechando las características de la música clásica para generar datos que pueden entrenar mejor las redes neuronales. Además, en el quinto capítulo de la tesis introducimos una arquitectura de separación de fuentes sonoras en la nube y sus aplicaciones asociadas.

    La mayor parte de la investigación de esta tesis sigue los principios de reproducibilidad ya que los conjuntos de datos, el código, los prototipos de programación, las publicaciones y los informes de proyecto están disponibles abiertamente, conjuntamente con las instrucciones necesarias para usarlos.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus