El sonido es un activo fundamental en la creación audiovisual que requiere de un tratamiento minucioso para ajustarse a las expectativas de los consumidores. Los artistas tienen a su disposición numerosas bases de datos y gran número de registros. Sin embargo, en la práctica resulta imposible manejar toda esta variabilidad. Los Autocodificadores Variacionales (VAEs) son sistemas generativos que condensan la información en un pequeño vector de variables latentes. Modificar este vector da lugar a nuevas observaciones (sonidos) que se asemejan a las referencias e incorporan rasgos propios de los efectos deseados, sin necesidad de agregarlas a las bases de datos y con claras diferencias. Presentamos una plataforma web que conecta mediante la API de Freesound y se aloja íntegramente en el navegador (sin ningún backend), que permite trabajar y explorar el espacio latente de cualquier VAE orientado al audio generativo. La contribución se centra en el diseño y evaluación de una solución para la exploración del espacio latente partiendo de la interactúan los usuarios. Se evalúan representaciones que permiten situarnos en una zona compacta del espacio latente que asegure buenos resultados en generación. Los resultados se incluyen en un demostrador online.
Sound is a fundamental asset in audiovisual creation that requires meticulous treatment to match consumers’ expectations. Artists have at their disposal numerous databases and records. However, in practice it is impossible to store all this variability. Variational Autoencoders (VAEs) are generative systems that condense information into a small vector of latent variables. Modifying this vector provides new observations (sounds) that resemble references without the need to incorporate them into databases and display differences that match desired effects. We present a web platform that connects via API to Freesound and is hosted entirely in the browser (without any backend), which allows work and exploration of the latent space of any VAE oriented to generative audio. This contribution reports on the design and evaluation of a solution for the exploration of the latent space starting from the two-dimensional plane in which users interact. We address expanded representations for placing new sounds within a compact area of the latent space that ensures high-quality generation. The results have been included in our online demonstrator
© 2001-2024 Fundación Dialnet · Todos los derechos reservados