Ayuda
Ir al contenido

Dialnet


Fusing prosodic and acoustic information for speaker recognition

  • Autores: Mireia Farrús i Cabeceran
  • Directores de la Tesis: Francisco Javier Hernando Pericás (dir. tes.)
  • Lectura: En la Universitat Politècnica de Catalunya (UPC) ( España ) en 2008
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: José Bernardo Mariño Acebal (presid.), Climent Nadeu Camprubí (secret.), Javier Rodríguez Saeta (voc.), Ramón Cerdá Massó (voc.), Elisabeth Zetterholm (voc.)
  • Materias:
  • Enlaces
    • Tesis en acceso abierto en: TDX
  • Resumen
    • El reconeixement automàtic del locutor és la utilització d’una màquina per identificar un individu a partir de d’un missatge parlat. Recentment, aquesta tecnologia ha experimentat un increment en l’ús de diverses aplicacions com el control d’accés, l’autenticació de transaccions, la cooperació amb la justícia, l’analítica forense o la personalització de serveis, entre d’altres. Una de les qüestions centrals que es tracten en aquest camp és el fet de saber quina part del senyal de veu conté informació del locutor. Tradicionalment, els sistemes de reconeixement automàtic del locutor s’han basat principalment en característiques relacionades amb l’espectre de la veu. No obstant, els humans utilitzen altres fonts d’informació per reconèixer locutors, de manera que hi ha motius per pensar que aquestes fonts poden tenir un paper important en la tasca de reconeixement automàtic del locutor, aportar coneixement complementari als sistemes de tradicionals basats en l’espectre de la veu i millorar-ne la precisió. L’objectiu principal d’aquesta tesi és incorporar informació prosòdica a un sistema espectral tradicional per tal de millorar-ne el funcionament. Amb aquesta finalitat, diverses característiques relacionades amb la prosòdia – constituïda per elements d’entonació, ritme i accent – es seleccionen i es combinen amb les característiques espectrals existents. A més a més, la tesi també es centra en la utilització de característiques acústiques addicionals – a saber, jitter i shimmer – per millorar el funcionament del sistema de verificació espectral-prosòdic proposat. Totes dues característiques estan relacionades amb la forma i dimensió del tracte vocal, i s’han utilitzat en gran part per detectar patologies de la veu. La majoria d’aplicacions que s’han esmentat abans es poden utilitzar en un entorn multimodal; per aquest motiu, les característiques de veu utilitzades en el sistema de reconeixement del locutor també es combinen amb altres identificadors biomètrics – concretament, la cara – per tal de millorar el funcionament global del sistema. Amb aquest objectiu, s’utilitzen diverses tècniques de normalització i de fusió, i els resultats de la fusió final es milloren aplicant diferents estratègies de fusió basades en seqüències de passos. A més a més, la fusió multimodal també es millora aplicant una equalització d’histogrames com a tècnica de normalització a les distribucions de puntuacions unimodals. Per altra banda, és sabut que els humans poden identificar els altres a partir de la veu fins i tot quan aquestes veus estan alterades d’alguna manera. La qüestió rau en quina mesura els sistemes automàtics de reconeixement del locutor són vulnerables a les diferents alteracions de la veu, com ara la imitació humana o la conversió artificial. L’última part de la tesi consisteix en una anàlisi de la robustesa d’aquests sistemes a les imitacions de veu humanes i a les veus convertides sintèticament, i de la influència dels accents estrangers – com a tipus d’imitació – en el reconeixement auditiu del locutor.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno