Resumen de Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca

Ayuda

Resumen de Obtención de un modelo de minería de datos aplicado a la deserción universitaria del programa de Ingeniería de Sistemas de la Universidad de Cundinamarca

Holmes Yesid Ayala Yaguara, Gina Maribel Valenzuela Sabogal, Alexander Espinosa García

español
En el presente artículo se describe la obtención de un modelo de minería de datos aplicado al problema de la deserción universitaria en el programa de Ingeniería de Sistemas de la Universidad de Cundinamarca, extensión Facatativá. El modelo se estructuró mediante la metodología de minería de datos KDD (knowledge discovery in databases) haciendo uso del lenguaje de programación Python, la librería de procesamiento de datos Pandas y de machine learning Sklearn. Para el proceso se tuvieron en cuenta problemas adicionales al proceso de minería, como, por ejemplo, la alta dimensionalidad, por lo cual se aplicaron los métodos de selección de las variables estadístico univariado, feature importance y SelectFromModel (Sklearn). En el proyecto se seleccionaron cinco técnicas de minería de datos para evaluarlas: vecinos más cercanos (K nearest neighbors, KNN), árboles de decisión (decision tree, DT), árboles aleatorios (random forest, RF), regresión logística (logistic regression, LR) y máquinas de vectores soporte (support vector machines, SVM). Respecto a la selección del modelo final se evaluaron los resultados de cada modelo en las métricas de precisión, matriz de confusión y métricas adicionales de la matriz de confusión. Por último, se ajustaron los parámetros del modelo seleccionado y se evaluó la generalización del modelo al graficar su curva de aprendizaje.
português
Este artigo descreve a obtenção de um modelo de mineração de dados aplicado ao problema da evasão universitária no curso de Engenharia de Sistemas da Universidade de Cundinamarca, campus Facatativá. O modelo foi estruturado utilizando a metodologia de mineração de dados KDD (Knowledge Discovery in Databases) utilizando também a linguagem de programação Python, a biblioteca de processamento de dados Pandas e a Machine Learning Sklearn. Para o processo, foram levados em consideração os problemas adicionais ao processo de mineração, como, por exemplo, a alta dimensão, para a qual foram aplicados os métodos de seleção das variáveis estatísticas univariadas, feature importance e SelectFromModel (Sklearn). No projeto, foram selecionadas cinco técnicas de mineração de dados para avaliá-las: vizinhos mais próximos (K Nearest Neighbors, KNN), árvores de decisão (DT), árvores aleatórias (Random Forest, RF), regressão logística, (Logistic Regression LR) e máquinas de vetores de suporte (Support Vector Machines, SVM). No que diz respeito à seleção do modelo final, foram avaliados os resultados de cada modelo nas métricas de precisão, matriz de confusão e métricas adicionais da matriz de confusão. Por fim, os parâmetros do modelo selecionado foram ajustados e a generalização do modelo foi avaliada no momento de diagramar sua curva de aprendizado.
English
This article describes how a data mining model was obtained and applied to the problem of university dropout in the Systems Engineering program of the University of Cundinamarca, in Facatativá. The model was structured by means of the KDD (knowledge discovery in databases) data mining methodology using Python programming language, Pandas data processing library, and the Sklearn machine learning. For the process, we took into account problems that are additional to the ones specific to the mining process, such as high dimensionality, reason why the methods of selection of the univariate statistical variables, feature importance, and SelectFromModel (Sklearn) were applied. In the project, five data mining techniques were selected for evaluation: nearest neighbors (KNN), decision tree (DT), random forest (RF), logistic regression (LR), and support vector machines (SVM). Regarding the selection of the final model, the results of each model were tested on the precision metrics, confusion matrix, and additional metrics of the confusion matrix. Finally, the parameters of the selected model were adjusted and the generalization of the model was evaluated by plotting its learning curve.
français
Cet article décrit l'obtention d'un modèle d’exploitation des données appliqué à la problématique du décrochage universitaire du cursus d'ingénierie informatique du campus de Facatativá de l'université de Cundinamarca. Le modèle a été structuré à l'aide de la méthodologie d'exploitation de données KDD (knowledge discovery in databases) utilisant le langage de programmation Python, la bibliothèque de traitement de données Pandas et l'apprentissage automatique Sklearn. Lors de ce processus, des indicateurs supplémentaires d'extraction ont été retenus comme la dimensionnalité élevée, les méthodes de sélection des variables statistiques univariées ou l'importance des caractéristiques du SelectFromModel (Sklearn). Dans ce projet, cinq techniques d'exploitation des données ont été sélectionnées et soumises à évaluation: les parentés les plus proches (KNN), les matrices de décision (DT), les arbres aléatoires (RF), la régression logistique (LR) et les supports de machines vectorielles (SVM). Pour la sélection du modèle final, chaque résultat des différents modèles a été évalué grâce aux métriques de précision, à la matrice de confusion et aux métriques supplémentaires de la matrice de confusion. Enfin, les paramètres du modèle sélection of the final model, the results of each model were tested on the precision metrics, confusion matrix, and additional metrics of the confusion matrix. Finally, the parameters of the selected model were adjusted and the generalization of the model was evaluated by plotting its learning curve.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: