Portoviejo, Ecuador
En el contexto actual, donde las interacciones humanas se expanden en la era digital, la detección de emociones en discursos se establece como un área de investigación crucial. Este artículo se enfoca en emplear técnicas avanzadas de Machine Learning y procesamiento de audio para discernir emociones en diversos discursos. La investigación subraya la influencia de las emociones en la comunicación y señala la falta de una teoría integral que abarque el espectro emocional completo. Desde la búsqueda en fuentes académicas hasta la implementación en Google Colab con herramientas como Pydub y Librosa, la metodología abarca todas las etapas. Se recopilan discursos de distintas categorías, etiquetados manualmente en emociones positivas, negativas y neutras. El procesamiento de datos implica la conversión a formato WAV, segmentación y etiquetado. Se implementa una Red Neuronal Convolucional (CNN) para la clasificación, con una precisión del 74.07% en el conjunto de prueba, respaldando la eficacia del modelo. El análisis incluye visualizaciones de la matriz de confusión y presentación de informes de clasificación. Las conclusiones destacan la viabilidad del ML y procesamiento de audio en la detección de emociones en discursos en español, resaltando la importancia del procesamiento de datos y sugiriendo mejoras para futuras investigaciones. Este trabajo se presenta como una contribución significativa al análisis emocional del habla en español, proporcionando un sólido marco para investigaciones posteriores.
In the current context, where human interactions are expanding in the digital era, emotion detection in speeches is established as a crucial area of research. This paper focuses on employing advanced Machine Learning and audio processing techniques to discern emotions in various speeches. The research highlights the influence of emotions on communication and points out the lack of a comprehensive theory that encompasses the full emotional spectrum. From the search in academic sources to the implementation in Google Colab with tools such as Pydub and Librosa, the methodology covers all stages. Speeches are collected from different categories, manually labeled into positive, negative and neutral emotions. Data processing involves conversion to WAV format, segmentation and labeling. A Convolutional Neural Network (CNN) is implemented for classification, with an accuracy of 74.07% on the test set, supporting the effectiveness of the model. The analysis includes visualizations of the confusion matrix and classification reporting. The conclusions highlight the feasibility of ML and audio processing in detecting emotions in Spanish speech, highlighting the importance of data processing and suggesting improvements for future research. This work is presented as a significant contribution to the emotional analysis of Spanish speech, providing a solid framework for further research.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados