Shabely Avellán Valdés, Cristopher Agustín Holguín Intriago, Marely del Rosario Cruz Felipe
Las principales enfermedades que afectan a los ecuatorianos son: las enfermedades cardiovasculares, la diabetes mellitus, las enfermedades cerebrovasculares y la hipertensión arterial, es por esto que el control del crecimiento de las mismas se ha vuelto un problema tanto de salud como social, que es necesario afrontar, ya que, además de las campañas sobre el cuidado para su prevención, no existe una herramienta tecnológica que permita identificar y detectar, de forma temprana y eficiente, estas enfermedades en personas independientemente de sus edades. En esta investigación se realizó un análisis de diferentes modelos de machine learning capaces de predecir el riesgo a padecer estas 4 enfermedades en el Ecuador. Se implementaron las metodologías Crisp-DM (Cross – Industry Standard Process for Data Mining) y el proceso KDD (Knowledge Discovery Databases). Los resultados obtenidos mostraron que el modelo Random Forest es el que posee mejor rendimiento para las enfermedades cerebrovasculares, con un valor F1_Score de 0,927; el modelo de Regresión Logística tiene un mayor desempeño en la diabetes mellitus, con un F1_Score de 0,781 y el modelo Bayes Naives en las enfermedades cardiovasculares, con un F1_Score de 0,836. El índice de Shapley fue usado para explicar los factores de riesgo que más influyeron en la aparición de las mismas.
The main diseases that affect Ecuadorians are: cardiovascular diseases, diabetes mellitus, cerebrovascular diseases and high blood pressure, which is why the control of their growth has become both a health and social problem, which is necessary to face, since, in addition to campaigns on care for its prevention, there is no technological tool that allows early and efficient identification and detection of these diseases in people regardless of their ages. In this research, an analysis of different machine learning models capable of predicting the risk of suffering from these 4 diseases in Ecuador was carried out. The Crisp-DM (Cross–Industry Standard Process for Data Mining) methodologies and the KDD (Knowledge Discovery Databases) process were implemented. The results obtained showed that the Random Forest model is the one with the best performance for cerebrovascular diseases, with an F1_Score value of 0.927; the Logistic Regression model has a better performance in diabetes mellitus, with an F1_Score of 0.781, and the Bayes Naives model in cardiovascular diseases, with an F1_Score of 0.836. The Shapley index was used to explain the risk factors that most influenced their appearance.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados