Jacinto Rivero Hernández, Jimmy Linares Lagarto, Antonio Lamazares Fernández, Lester Guerra Denis, Humberto Díaz Pando
El aprendizaje por refuerzo es una forma de aprendizaje basado en la prueba y error. Este tipo de aprendizaje se aplica a problemas complejos que requieren en la actualidad procesar grandes volúmenes de datos. Algunas de estos problemas sonadministración de recursos, problemas de planificación, control de tráfico, robótica, detección de intrusos, control de sistemas energéticos, detección de fraude en banca online, etc.Los algoritmos de aprendizaje por refuerzo tradicionales no están preparados para tratar conentornos big data, desde el enfoque de un único agente. Aprovechando las capacidades de computo de los sistemas multicomputadorse diseñó una variante del algoritmo Q-Learningenfocada a sistemas multiagentes. Luego con ambas variantes se realizó un experimento para validar que la solución acelera el proceso de aprendizaje basado en la cantidad de iteraciones que tardan las soluciones en completar un episodio. Finalmente se valida la solución a partir de la aplicación de una prueba estadística con los resultados obtenidos.
Reinforcement learning is a kind of learning based on trial and error. This kind of learning is applied to complexproblems that requires to process big data nowadays. Some of these problemsare resources management, scheduling problems, traffic control, robotics, intrusion detection systems, energy systems, fraud in online banking, etc. Traditional reinforcement learning algorithms are not prepared to interact with big data environments, from an only agent approach. We designed a Q-Learning variant for multi-agent system that exploits the computation capabilitiesof multi-computer systems. After that, we carry out an experiment with both variantsto validatethat the solutionimproves the learning process speed, based on the iteration quantity that delaysto finish an episode. Finally, thesolution is validated applying a statistic test with the obtained results.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados