Ayuda
Ir al contenido

Dialnet


Resumen de AutoPunct: Sistema de Puntuación y Mayusculización Automático basado en BERT para Castellano y Euskera

Haritz Arzelus, Aitor Alvarez Muniain, Ander González Docasal, Aitor García Pablos

  • español

    La salida en bruto de un sistema de Reconocimiento Automático del Habla generalmente consiste en una secuencia de palabras sin mayúsculas ni signos de puntuación. Para mejorar la legibilidad y posibilitar posteriores usos de esta salida es necesario incluir la puntuación y las mayúsculas. En este contexto, presentamos AutoPunct, un modelo para puntuación y mayusculización basado en arquitecturas de Transformers que combina tanto información acústica (silencios) como léxica (palabras). Hemos comparado su desempeño con un sistema basado en redes neuronales recursivas bidireccionales (BRNN) en euskera (un idioma de pocos recursos) y castellano, así como combinando ambos idiomas. El resultado es un sistema que obtiene buenos resultados aplicando mayusculización y puntuación de manera simultánea en dos idiomas diferentes, con una velocidad de proceso que alcanza varios miles de palabras por segundo en una GPU estándar.

  • English

    he raw output of an Automatic Speech Recognition system usually consists in a stream of words without any casing nor punctuation. In order to improve the readability and enable further uses of this output, punctuation and capitalisation have to be included. In this context, we present AutoPunct, a Transformers-based automatic punctuation and capitalisation model that combines both acoustic (i.e. silences duration) and lexical information (the words themselves). We compared its performance with a system based on Bidirectional Recurrent Neural Networks (BRNN) on Basque (a low-resource language) and Spanish, both individually and simultaneously. The result is a system that achieves high accuracy for punctuation and capitalisation in both languages at the same time, with a throughput of several thousand words per second using a standard GPU.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus