Alberto Verdecia Cabrera, Isvani Frías Blanco, Luis A. Quintero-Domínguez, Yanet Rodríguez Sarabia
Muchas fuentes generan grandes cantidades de datos constantemente en el tiempo, los cuales son conocidos como flujos de datos. Debido a que estos son adquiridos a lo largo del tiempo y a la dinámica de muchas situaciones reales, la distribución de probabilidades (concepto objetivo) que rige los datos puede cambiar en el tiempo, un problema comúnmente denominado cambio de concepto. Este artículo presenta un nuevo algoritmo basado en ensambles de clasificadores para el aprendizaje a partir de flujos de datos con posibles cambios de concepto. El algoritmo propuesto usa meta-clasificadores para combinar las predicciones de los clasificadores bases del ensamble, y mantiene un conjunto de clasificadores adaptativos para manipular posibles cambios de concepto. El método propuesto cumple con los requerimientos comunes para el aprendizaje en línea a partir de flujos de datos: es capaz de procesar los datos de entrada con complejidad temporal y espacial constante, y además solo procesa cada ejemplo de entrenamiento una vez. En este trabajo se compara empíricamente el nuevo algoritmo con los métodos de ensamble existentes más conocidos para el aprendizaje en línea. Los experimentos realizados muestran que el algoritmo propuesto frecuentemente alcanza mayores niveles de precisión en los conjuntos de datos seleccionados
Many sources generate large amounts of data constantly over time, which are known as data streams. Because of these are acquired over time and the dynamics of many real situations, the distribution of probabilities (target concept) that governs the data can change over time, a problem commonly called concept drift. This article presents a new algorithm based on classifiers ensembles for learning from data streams with possible concept drifts. The proposed algorithm uses meta-classifiers to combine the predictions of the base classifiers of the ensemble, and maintains a set of adaptive classifiers to manipulate possible concept drifts. The proposed method meets the common requirements for online learning from data streams: it is capable of processing input data with constant temporal and spatial complexity, and also only processes each training example once. In this work, we compared the new algorithm empirically with the most known existing ensemble methods for online learning. The experiments carried out show that the proposed algorithm frequently reaches higher levels of accuracy in the selected data sets.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados