Sistema de conversión texto-voz en lengua gallega basado en la selección combinada de unidades acústicas y prosódicas

Francisco Méndez Pazó; Elisa Fernández Rei; Eduardo Rodríguez Banga; Francisco Campillo Díaz

Ayuda

Sistema de conversión texto-voz en lengua gallega basado en la selección combinada de unidades acústicas y prosódicas

Autores: Francisco Méndez Pazó, Elisa Fernández Rei, Eduardo Rodríguez Banga, Francisco Campillo Díaz
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 29, 2002 (Ejemplar dedicado a: XVII Congreso de la SEPLN. Universidad de Valladolid, 11-13 septiembre 2002), págs. 153-158
Idioma: español
Enlaces
- Texto completo
Resumen
- español
  En esta comunicación se describe un sistema de conversión texto-voz en lengua gallega basado en las denominadas "técnicas de síntesis basadas en corpus". A diferencia de los tradicionales sintetizadores de voz por concatenación, que normalmente utilizan un conjunto de unidades de síntesis reducido, los sistemas de síntesis basados en corpus consideran múltiples realizaciones de cada unidad y, mediante técnicas de programación dinámica, seleccionan aquella secuencia de unidades que minimiza una función de coste. Por otro lado, tradicionalmente, la generación de la información prosódica se realiza en una etapa previa a la selección de unidades, lo que ocasiona que en muchas ocasiones sea necesario manipular en exceso las unidades seleccionadas con el fin de ajustarlas a la entonación, duración y energía deseadas. En este artículo también se propone la selección conjunta del contorno entonativo y de las unidades de síntesis, con objeto de minimizar la distorsión causada por las modificaciones prosódicas.
- English
  In this contribution we describe a corpus-based text-to-speech system for Galician. While traditional concatenative speech-synthesis systems generally employ a quite reduced set of speech units, corpus-based synthesis systems consider many instances of every unit and, by means of dynamic programming techniques, select the sequence of units that minimizes a cost function. With reference to prosody, traditionally, the generation of the prosodic information is carried out in a previous stage to unit selection. This fact implies that, in many cases, the selected speech units must be manipulated in excess in order to fit the desired prosody. In this paper we also propose a method for combined selection of the intonation contour and the sequence of speech units in order to minimize the distortion due to prosodic modifications.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: