Esta tesis se centra en dos grandes problemas en el área de los sistemas de transportes inteligentes (STI): el conteo de vehículos en escenas de congestión de tráfico; y la detección y estimación del punto de vista, de forma simultánea, de los objetos en una escena.
Respecto al problema del conteo, este trabajo se centra primero en el diseño de arquitecturas de redes neuronales profundas que tengan la capacidad de aprender representaciones multi-escala profundas, capaces de estimar de forma precisa la cuenta de objetos, mediante mapas de densidad. Se trata también el problema de la escala de los objetos introducida por la gran perspectiva típicamente presente en el área de recuento de objetos. Además, con el éxito de las redes hourglass profundas en el campo del conteo de objetos, este trabajo propone un nuevo tipo de red hourglass profunda con conexiones de corto circuito auto-gestionadas. Los modelos propuestos se evalúan en las bases de datos públicas más utilizadas y logran los resultados iguales o superiores al estado del arte en el momento en que fueron publicadas.
Para la segunda parte, se realiza un estudio comparativo completo del problema de detección de objetos y la estimación de la pose de forma simultánea. Se expone el compromiso existente entre la localización del objeto y la estimación de su pose. Un detector necesita idealmente una representación que sea invariable al punto de vista, mientras que un estimador de poses necesita ser discriminatorio. Por lo tanto, se proponen tres nuevas arquitecturas de redes neurales profundas en las que el problema de la detección de objetos y la estimación de la pose se van desacoplando progresivamente. Además, se aborda la cuestión de si la pose debe expresarse como un valor discreto o continuo. A pesar de ofrecer un rendimiento similar, los resultados muestran que los enfoques continuos son más sensibles al sesgo del punto de vista principal de la categoría del objeto. Se realiza un análisis comparativo detallado en las dos bases de datos principales, es decir, PASCAL3D+ y ObjectNet3D. Se logran resultados competitivos con todos los modelos propuestos en ambos conjuntos de datos.
This thesis tackles two major problems of the Intelligent Transportation Systems (ITS): the vehicle counting in traffic congestion scenes, and the simultaneous object detection and pose estimation in images.
For the vehicle counting problem, this thesis is first focused on the design of new deep neural networks architectures that have the ability to learn deep multi-scale representations able to perform a precise estimation of the object count in the form of density maps. It deals with the problem of the object scale introduced by the large perspective typically present in the object counting problem. In addition, with the success of the deep hourglass networks in the object counting field, this work proposes a new type of deep hourglass network with learnable self-gated short-cut connections. The proposed models are evaluated in the most commonly used benchmarks and achieve results equal to or greater than the state of the art at the time they were published.
For the second problem, the thesis offers a complete comparative study of the simultaneous object detection and pose estimation problem. The existing compromise between the object localization and the pose estimation task is exposed. A detector ideally needs a representation which is invariant to the viewpoint, while a pose estimator needs to be discriminative. Hence, we introduce three new deep neural networks architectures where the problems of the object detection and pose estimation are progressively decoupled. Moreover, the question of whether the pose should be expressed as a discrete or a continuous variable is addressed. Despite the similar performance, the results show that the continuous approaches are more sensitive to the bias of the main viewpoint of the object category. A detailed comparative analysis is performed on the two main datasets, i.e. PASCAL3D+ and ObjectNet3D. Competitive results are achieved by the proposed models in both datasets.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados