Esta tesis aborda la problemática de la síntesis de voz, es decir, la conversión de un mensaje escrito en oral parte de una máquina, Dentro de las diferentes técnicas, existentes, se centra en la síntesis basada en selección de unidades, que es la tecnología sobre la que más se trabaja en la actualidad, y en la que se genera la voz sintética mediante la concatenación de segmentos de voz extraídos de la grabación de un conjunto de frases denominado corpus por un único locutor. De esta forma, el problema de la síntesis se traslada a la selección de la secuencia de unidades de dicho corpus que mejor se adapta a aquello que se desea pronunciar.
Esto hace que dos puntos fundamentales sean la correcta parametrización de los segmentos acústicos, y el diseño de las funciones de coste a partir de las cuales se realiza dicha selección, temas que se tratan de formar pormenorizada en esta tesis.
Otro de los problemas no solucionados satisfactoriamente es el relacionado con la estimación de la prosodia de la frases, donde destaca especialmente la entonación, pueto que está reconocida como una de las partes más importantes de la oración. En este sentido, otro de los objetivos de esta tesis consiste endesarrollar un modelo entonativo que saque partido de la variabilidad existente en la voz natural para aprovechar al máximo la información del recurso finito que es el corpues de voz.
Por último, dado que la síntesis de voz no tiene más información que la presente en el texto de entrada, una de las fases más importantes del procesado lingúistico es la del morfosintáctico, por su estreca relación con aspectos tales como el acento léxico o la distribución de las pusas, fundamentales para otras etapas como la caracterización de las unidades acústicas o la estimación de los correlatos prosódicos. Por ello, en esta tesis también se presenta un nuevo método de análisis morfosintáctico adaptado al entorno concreto
© 2001-2024 Fundación Dialnet · Todos los derechos reservados