Ayuda
Ir al contenido

Dialnet


Resumen de Predicting pedestrian crossing intentions using contextual information

Javier Lorenzo Diaz

  • español

    El entorno urbano es uno de los escenarios más complejos para un vehículo autónomo, ya que lo comparte con otros tipos de usuarios conocidos como usuarios vulnerables de la carretera, con los peatones como mayor representante. Estos usuarios se caracterizan por su gran dinamicidad. A pesar del gran número de interacciones entre vehículos y peatones, la seguridad de estos últimos no ha aumentado al mismo ritmo que la de los ocupantes de los vehículos. Por esta razón, es necesario abordar este problema. Una posible estrategia estaría basada en conseguir que los vehículos anticipen el comportamiento de los peatones para minimizar situaciones de riesgo, especialmente presentes en el momento de cruce.

    El objetivo de esta tesis doctoral es alcanzar dicha anticipación mediante el desarrollo de técnicas de predicción de la acción de cruce de peatones basadas en aprendizaje profundo.

    Previo al diseño e implementación de los sistemas de predicción, se ha desarrollado un sistema de clasificación con el objetivo de discernir a los peatones involucrados en la escena vial. El sistema, basado en redes neuronales convolucionales, ha sido entrenado y validado con un conjunto de datos personalizado. Dicho conjunto se ha construido a partir de varios conjuntos existentes y aumentado mediante la inclusión de imágenes obtenidas de internet. Este paso previo a la anticipación permitiría reducir el procesamiento innecesario dentro del sistema de percepción del vehículo.

    Tras este paso, se han desarrollado dos sistemas como propuesta para abordar el problema de predicción. El primer sistema, basado en redes convolucionales y recurrentes, obtiene una predicción a corto plazo de la acción de cruce realizada un segundo en el futuro. La información de entrada al modelo está basada principalmente en imagen, que permite aportar contexto adicional del peatón. Además, el uso de otras variables relacionadas con el peatón junto con mejoras en la arquitectura, permiten mejorar considerablemente los resultados en el conjunto de datos JAAD.

    El segundo sistema se basa en una arquitectura end-to-end basado en la combinación de redes neuronales convolucionales tridimensionales y/o el codificador de la arquitectura Transformer.

    En este modelo, a diferencia del anterior, la mayoría de las mejoras están centradas en transformaciones de los datos de entrada. Tras analizar dichas mejoras, una serie de modelos se han evaluado y comparado con otros métodos utilizando tanto el conjunto de datos JAAD como PIE. Los resultados obtenidos han conseguido liderar el estado del arte, validando la arquitectura propuesta.

  • English

    The urban environment is one of the most complex scenarios for an autonomous vehicle, as it is shared with other types of users known as vulnerable road users, with pedestrians as their principal representative. These users are characterized by their great dynamicity.

    Despite a large number of interactions between vehicles and pedestrians, the safety of pedestrians has not increased at the same rate as that of vehicle occupants. For this reason, it is necessary to address this problem. One possible strategy would be anticipating pedestrian behavior to minimize risky situations, especially during the crossing.

    The objective of this doctoral thesis is to achieve such anticipation through the development of crosswalk action prediction techniques based on deep learning.

    Before the design and implementation of the prediction systems, a classification system has been developed to discern the pedestrians involved in the road scene. The system, based on convolutional neural networks, has been trained and validated with a customized dataset. This set has been built from several existing sets and augmented by including images obtained from the Internet. This pre-anticipation step would reduce unnecessary processing within the vehicle perception system.

    After this step, two systems have been developed as a proposal to solve the prediction problem.

    The first system is composed of convolutional and recurrent encoder networks. It obtains a short-term prediction of the crossing action performed one second in the future. The input information to the model is mainly image-based, which provides additional pedestrian context. In addition, the use of pedestrian-related variables and architectural improvements allows better results on the JAAD dataset.

    The second system is an end-to-end architecture based on the combination of threedimensional convolutional neural networks and/or the Transformer architecture encoder. In this model, most of the proposed and investigated improvements are focused on transformations of the input data. After an extensive set of individual tests, several models have been trained, evaluated, and compared with other methods using both JAAD and PIE datasets. Obtained results are among the best state-of-the-art models, validating the proposed architecture.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus