Aprendizaje por refuerzo con múltiples usuarios para un generador de rutas destinado a ciclistas en ambientes urbanos

Antonio Cervera Muñoz; Alfonso Gago Calderón

Ayuda

Aprendizaje por refuerzo con múltiples usuarios para un generador de rutas destinado a ciclistas en ambientes urbanos

Autores: Antonio Cervera Muñoz, Alfonso Gago Calderón
Localización: Greencities & sostenibilidad: Málaga, 2-3 oct 2014 : inteligencia aplicada a la sostenibilidad urbana : comunicaciones y 2ª bienal de proyectos de edificación y urbanismo sostenible, 2014, ISBN 978-84-697-0799-9, págs. 405-425
Idioma: español
Texto completo no disponible (Saber más ...)
Resumen
- español
  El presente trabajo propone un generador de rutas para ciclistas que implementa un método de aprendizaje por refuerzo (RL) inspirado en Q-learning. Su objetivo es minimizar el tiempo empleado en recorrer cada trayecto dentro de un ambiente urbano gracias a una red de datos multiusuario.
  
  El sistema está compuesto por una aplicación local ejecutada en dispositivos en manos del usuario, un servidor central y una base de datos. Cada uno de los dispositivos de usuario se conecta con el servidor, solicita la ruta y este devuelve la más adecuada en función de los parámetros actuales del entorno. Del mismo modo, a medida que va circulando por la ruta seleccionada o por cualquier otra, envía al servidor el tiempo empleado en recorrer cada segmento de recorrido.
  
  Con estos valores de localización y tiempos enviados por los usuarios, el servidor ajusta los niveles de bondad de cada tramo posible de recorrido (valores �Q�) según se adelanten o se retrasen los usuarios en recorrer los diferentes tramos con respecto al tiempo previsto. Con esta información se actualiza la base de datos para cada segmento implicado, en función de la hora y día de la semana y se usará para calcular las mejores rutas para futuros usuarios.
  
  Este método permite al sistema reconocer tramos problemáticos por tráfico denso o una alta concentración de peatones o tramos recomendables por la ausencia de estos mismos eventos en determinadas horas del día. Con esta información el sistema será capaz de trazar las rutas más rápidas en cada momento ofreciendo alternativas a estos tramos conflictivos y adaptarse a cambios en las circunstancias del mapa tras pocas iteraciones.
  
  El trabajo comprende una demostración del método de enrutado diseñado conjuntamente con su algoritmo de aprendizaje generado con C y MySQL. De estos se realiza un análisis de su funcionamiento a través de la realización de múltiples simulaciones e iteraciones de posibles situaciones reales en un sistema y escenario limitados definidos para la ocasión.
  
  La memoria del proyecto incluye un estudio del arte de los algoritmos de enrutamiento y los métodos de aprendizaje Q-learning, un análisis detallado de los resultados que se obtienen con los algoritmos diseñados y las conclusiones y líneas de trabajo futuras que se extraen a lo largo del presente trabajo.
- English
  This paper proposes a cycle-path-finding reinforcement learning algorithm, inspired by Q-learning, designed to reduce the time spent at each route within urban environments and multi-user networks.
  
  The system is made of a local application executed by the user, a central server and a data base. With the purpose of getting the route, the user connects the server and makes an order. The server sends back the most suitable route according to the current environment�s conditions. The user return to the server the time needed to pass through each of the segments in the route.
  
  These time values are used by the server to set a goodness level (or Q-value) of each segment depending on whether the user was advanced or delayed to the scheduled time.
  
  Goodness levels are updated in the data base, considering time and day of the week in which they were gathered. The data base is checked when any other user order a new route, so the original path could be modified if previous users found problematic sections.
  
  This method allows detection of slow segments by traffic congestions at certain times of day, positive slopes, concentration of traffic lights and crosswalks that make the cyclist stops, etc., being able to generate alternatives to conflicting sections and adapt to changes on the map�s conditions in a few iterations.
  
  This work involves a demonstration of performance. Simulations of real inspired cases have been carried out in a limited system and scenario which have been built for that purpose using C and MySQL programing.
  
  This paper includes a preliminary study of routing methods and reinforcement learning algorithms, a new method proposition, a detailed analysis of results with the proposed method, conclusions and future work.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: