CNN–LSTM con mecanismo de atención suave para el reconocimiento de acciones humanas en videos

Carlos Ismael Orozco; María Elena Buemi; Julio Jacobo Berlles

Ayuda

CNN–LSTM con mecanismo de atención suave para el reconocimiento de acciones humanas en videos

Orozco, Carlos Ismael ^[1] ; Buemi, María Elena ^[2] ; Jacobo Berlles, Julio ^[3]
1. [1] Universidad Nacional de Salta
  
  Universidad Nacional de Salta
  
  Argentina
2. [2] Universidad de Buenos Aires
  
  Universidad de Buenos Aires
  
  Argentina
3. [3] Departamento de Computación. Universidad de Buenos Aires.CNN--LSTM con Mecanismo de Atención Suave para el Reconocimiento de Acciones Humanas en Videos
Mostrar afiliaciones +
Localización: Elektron: ciencia y tecnología en la electrónica de hoy, ISSN-e 2525-0159, Vol. 5, Nº. 1, 2021, págs. 37-44
Idioma: español
Títulos paralelos:
- CNN–LSTM with Soft Attention Mechanism for Human Action Recognition in Videos
Enlaces
- Texto completo (pdf)
Resumen
- español
  El reconocimiento de acciones en videos es actualmente un tema de interés en el área de la visión por computador, debido a potenciales aplicaciones como: indexación multimedia, vigilancia en espacios públicos, entre otras. Los mecanismos de atención se han convertido en un concepto muy importante dentro del enfoque de aprendizaje profundo, su operación intenta imitar la capacidad visual de las personas que les permite enfocar su atención en partes relevantes de una escena para extraer información importante. En este artículo proponemos un mecanismo de atención suave adaptado para degradar la arquitectura CNN–LSTM. Primero, una red neuronal convolucional VGG16 extrae las características del video de entrada. Para llevar a cabo las fases de entrenamiento y prueba, usamos los conjuntos de datos HMDB-51 y UCF-101. Evaluamos el desempeño de nuestro sistema usando la precisión como métrica de evaluación, obteniendo 40,7 % (enfoque base), 51,2 % (con atención) para HMDB-51 y 75,8 % (enfoque base), 87,2 % (con atención) para UCF-101.
- English
  Action recognition in videos is currently a topic of interest in the area of computer vision, due to potential applications such as: multimedia indexing, surveillance in public spaces, among others. Attention mechanisms have become a very important concept within deep learning approach, their operation tries to imitate the visual capacity of people that allows them to focus their attention on relevant parts of a scene to extract important information. In this paper we propose a soft attention mechanism adapted to a base CNN–LSTM architecture. First, a VGG16 convolutional neural network extracts the features from the input video. Then an LSTM classifies the video into a particular class. To carry out the training and testing phases, we used the HMDB-51 and UCF-101 datasets. We evaluate the performance of our system using accuracy as an evaluation metric, obtaining 40,7 % (base approach), 51,2 % (with attention) for HMDB-51 and 75,8 % (base approach), 87,2 % (with attention) for UCF-101.