Ayuda
Ir al contenido

Dialnet


Face pose estimation with automatic 3D model creation for a driver inattention monitoring application

  • Autores: Pedro Jiménez Molina
  • Directores de la Tesis: Luis M. Bergasa Pascual (dir. tes.)
  • Lectura: En la Universidad de Alcalá ( España ) en 2011
  • Idioma: inglés
  • Tribunal Calificador de la Tesis: Miguel Angel Sotelo Vázquez (presid.), Daniel Pizarro Pérez (secret.), Enrique Cabello Pardos (voc.), Jonas Sjöberg (voc.), Luis Baumela Molina (voc.)
  • Materias:
  • Enlaces
  • Resumen
    • español

      Recientes estudios han identificado la inatención (incluyendo distracción y somnolencia) como la mayor causa de accidentes, siendo responsable de al menos un 25% de ellos. La distracción en conductores se ha estudiado menos, ya que depende de muchos factores, aunque representa un mayor riesgo que la fatiga. Además, la distracción está presente en más de la mitad de los accidentes causados por algún tipo de inatención. Cada día existen más sistemas de información embarcados en los vehículos (In Vehicle Information Systems, IVIS), lo que incrementa el riesgo de provocar distracciones y modifica el comportamiento de los conductores. Esto hace que las investigaciones en este ámbito sean de vital importancia. Para abordar el análisis de las distracciones durante la conducción, distintos grupos de investigadores han trabajo en diversas técnicas, entre las que destaca la Visión por Computador dado que permite, mediante el uso de tecnología relativamente barata, la monitorización del conductor de forma no intrusiva. Mediante técnicas de visión como el seguimiento facial se puede evaluar su movimiento con objeto de caracterizar el estado de atención del conductor. En esta tesis se presentan varias técnicas de visión 3D usando una cámara estéreo para obtener en tiempo real y de forma completamente automática la dirección de la cara y de la mirada de una persona. A partir de esta información se infieren las distracciones en el conductor. Los métodos aquí mostrados funcionan de forma completamente automática e independiente del usuario. Para detectar la dirección de la cara del conductor, primero se crea un modelo 3D no denso usando las coordenadas de puntos característicos de la misma, obtenidos gracias al par de cámaras estéreo. Durante la ejecución del algoritmo, se hace un seguimiento de los puntos característicos, mientras el modelo se va ampliando y corrigiendo automáticamente cuando nuevas partes de la cara, previamente ocultas, se hacen visibles a las cámaras. Se evalúan varias técnicas para la determinación y seguimiento de los puntos del modelo. Primeramente se estudia el comportamiento de un seguidor basado en descriptores SURF, por ser una de las técnicas más ampliamente usadas en visión. Sin embargo, debido a las condiciones de baja iluminación y lo suaves que son los contornos de una cara, esta técnica no produce buenos resultados. Este hecho, unido al elevado coste computacional de la misma, hacen que dicha técnica sea descartada. Por ello, se diseña una técnica de seguimiento mediante correlación multisize (multitamaño), basada en el uso de parches de distintos tamaños a una misma escala. Esta técnica ofrece una leve mejora en el posicionamiento y tiempos de ejecución con respecto al uso de parches multiescala. Esta técnica es robusta gracias a la aportación de los parches más grandes, y es de más precisión gracias a los parches más pequeños. La cara puede rotar en un rango horizontal de ±90◦, lo que hace que la apariencia de los puntos característicos cambie notablemente. Para abordar este problema, se introduce una técnica novedosa de re-registering para robustecer el seguimiento de las características que forman el modelo, aprovechando las vistas que se tienen de la cara desde las distintas cámaras. La muestra de cada característica que se tiene almacenada y se usa para la localizaci´on del punto 2D sobre la cara se va actualizando conforme la cara rota, aprovechando los puntos de mínimo error en la estimación de la pose. De este modo, cada muestra solo se usa en el tracking en un rango de ±7, 5◦. Puesto que el modelo se crea inicialmente con una vista frontal de la cara, solo se pueden capturar puntos característicos de la parte frontal. Cuando se producen rotaciones, algunos de esos puntos se ocultan, por lo que se hace necesario añadir nuevos puntos al modelo para evitar que el número de puntos visibles disminuya. Tras añadir puntos de partes de la cara previamente ocultas, se ejecuta un Bundle Adjustment para reducir el error acumulativo que se puede producir al añadir puntos. El modelo 3D de la cara sirve de apoyo para reconstruir la posición 3D de la misma usando uno de los dos algoritmos evaluados, bien sea POSIT o Levenberg-Marquardt, siendo el primero más rápido, y LM más preciso. Además, un proceso RANSAC permite detectar puntos incorrectos o outliers, y descartarlos para la estimación de la pose. Gracias a la unión de todos los métodos mencionados, se consigue un sistema de seguimiento que funciona en el rango completo de rotación de la cara, y que mejora los resultados del estado del arte. A la estimación de la pose de la cara se añade una estimación de la dirección de la mirada y del punto de focalización de la misma. Estos datos aportan gran información sobre el comportamiento del conductor y su grado de distracción. En el desarrollo de la tesis se evalúan y comparan las distintas técnicas mencionadas, usando para ello una extensa colección de vídeos. El algoritmo de estimación de la mirada propuesto en esta tesis se valida mediante un conjunto de experimentos de conducción en un simulador realista, definidos por un equipo de psicólogos. Se han simulado cambios climatológicos, maniobras y distracciones debidas a IVIS. Las pruebas han sido realizadas por conductores profesionales. Los resultados estadísticos obtenidos sobre la fijación de la mirada muestran cómo la utilización de IVIS influye en el comportamiento de los conductores, incrementando sus tiempos de reacción y afectando a la fijación de su mirada sobre la carretera y sus alrededores.

    • English

      Recent studies have identified inattention (including distraction and drowsiness) as the main cause of accidents, being responsible of at least 25% of them. Driving distraction has been less studied, since it is more diverse and exhibits a higher risk factor than fatigue. In addition, it is present over half of the inattention involved crashes. The increased presence of In Vehicle Information Systems (IVIS) adds to the potential distraction risk and modifies driving behaviour, and thus research on this issue is of vital importance. Many researchers have been working on different approaches to deal with distraction during driving. Among them, Computer Vision is one of the most common, because it allows for a cost effective and non-invasive driver monitoring and sensing. Using Computer Vision techniques it is possible to evaluate some facial movements that characterise the state of attention of a driver. This thesis presents methods to estimate the face pose and gaze direction of a person in real-time, using a stereo camera as a basic for assessing driver distractions. The methods are completely automatic and user-independent. A set of features in the face are identified at initialisation, and used to create a sparse 3D model of the face. These features are tracked from frame to frame, and the model is augmented to cover parts of the face that may have been occluded before. The algorithm is designed to work in a naturalistic driving simulator, which presents challenging low light conditions. We evaluate several techniques to detect features on the face that can be matched between cameras and tracked with success. Well-known methods such as SURF do not return good results, due to the lack of salient points in the face, as well as the low illumination of the images. We introduce a novel multisize technique, based on Harris corner detector and patch correlation. This technique benefits from the better performance of small patches under rotations and illumination changes, and the more robust correlation of the bigger patches under motion blur. The head rotates in a range of ±90º in the yaw angle, and the appearance of the features change noticeably. To deal with these changes, we implement a new re-registering technique that captures new textures of the features as the face rotates. These new textures are incorporated to the model, which mixes the views of both cameras. The captures are taken at regular angle intervals for rotations in yaw, so that each texture is only used in a range of ±7.5º around the capture angle. Rotations in pitch and roll are handled using affine patch warping. The 3D model created at initialisation can only take features in the frontal part of the face, and some of these may occlude during rotations. The accuracy and robustness of the face tracking depends on the number of visible points, so new points are added to the 3D model when new parts of the face are visible from both cameras. Bundle adjustment is used to reduce the accumulated drift of the 3D reconstruction. We estimate the pose from the position of the features in the images and the 3D model using POSIT or Levenberg-Marquardt. A RANSAC process detects incorrectly tracked points, which are not considered for pose estimation. POSIT is faster, while LM obtains more accurate results. Using the model extension and the re-registering technique, we can accurately estimate the pose in the full head rotation range, with error levels that improve the state of the art. A coarse eye direction is composed with the face pose estimation to obtain the gaze and driver's fixation area, parameter which gives much information about the distraction pattern of the driver. The resulting gaze estimation algorithm proposed in this thesis has been tested on a set of driving experiments directed by a team of psychologists in a naturalistic driving simulator. This simulator mimics conditions present in real driving, including weather changes, manoeuvring and distractions due to IVIS. Professional drivers participated in the tests. The driver's fixation statistics obtained with the proposed system show how the utilisation of IVIS influences the distraction pattern of the drivers, increasing reaction times and affecting the fixation of attention on the road and the surroundings.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno