Ayuda
Ir al contenido

Dialnet


Resumen de Real time sequential non rigid structure from motion using a single camera

Sebastián Bronte Palacios

  • español

    En la actualidad las aplicaciones que basan su funcionamiento en una correcta localización y reconstrucción dentro de un entorno real en 3D han experimentado un gran interés en los últimos años, tanto por la comunidad investigadora como por la industrial. Estas aplicaciones varían desde la realidad aumentada, la robótica, la simulación, los videojuegos, etc. Dependiendo de la aplicación y del nivel de detalle de la reconstrucción, se emplean diversos dispositivos, algunos específicos, más complejos y caros como las cámaras estéreo, cámara y profundidad (RGBD) con Luz estructurada y Time of Flight (ToF), así como láser y otros más avanzados. Para aplicaciones sencillas es suficiente con dispositivos de uso común, como los smartphones, en los que aplicando técnicas de visión artificial, se pueden obtener modelos 3D del entorno para, en el caso de la realidad aumentada, mostrar información aumentada en la ubicación seleccionada.

    En robótica, la localización y generación simultáneas de un mapa del entorno en 3D es una tarea fundamental para conseguir la navegación autónoma. Este problema se conoce en el estado del arte como Simultaneous Localization And Mapping (SLAM) o Structure from Motion (SfM). Para la aplicación de estas técnicas, el objeto no ha de cambiar su forma a lo largo del tiempo. La reconstrucción es unívoca salvo factor de escala en captura monocular sin referencia. Si la condición de rigidez no se cumple, es porque la forma del objeto cambia a lo largo del tiempo. El problema sería equivalente a realizar una reconstrucción por fotograma, lo cual no se puede hacer de manera directa, puesto que diferentes formas, combinadas con diferentes poses de cámara pueden dar proyecciones similares. Es por esto que el campo de la reconstrucción de objetos deformables es todavía un área en desarrollo. Los métodos de SfM se han adaptado aplicando modelos físicos, restricciones temporales, espaciales, geométricas o de otros tipos para reducir la ambigüedad en las soluciones, naciendo así las técnicas conocidas como Non-Rigid SfM (NRSfM).

    En esta tesis se propone partir de una técnica de reconstrucción rígida bien conocida en el estado del arte como es PTAM (Parallel Tracking and Mapping) y adaptarla para incluir técnicas de NRSfM, basadas en modelo de bases lineales para estimar las deformaciones del objeto modelado dinámicamente y aplicar restricciones temporales y espaciales para mejorar las reconstrucciones, además de ir adaptándose a cambios de deformación que se presenten en la secuencia. Para ello, hay que realizar cambios de manera que cada uno de sus hilos de ejecución procesen datos no rígidos.

    El hilo encargado del seguimiento ya realizaba de manera nativa seguimiento basado en un mapa de puntos 3D, proporcionado a priori. La modificación más importante propuesta para este hilo es la integración de un modelo de deformación lineal para que se realice el cálculo de la deformación del objeto en tiempo real, asumiendo fijas las formas básicas de deformación. El cálculo de la pose de la cámara está basado en el sistema de estimación rígido, por lo que la estimación de pose y coeficientes de deformación se hace de manera alternada usando el algoritmo E-M (Expectation-Maximization). También, se imponen restricciones temporales y de forma para minimizar las ambigüedades inherentes en las soluciones y mejorar la calidad de la estimación 3D.

    Respecto al hilo que gestiona el mapa, se actualiza en función del tiempo para que sea capaz de mejorar las bases de deformación cuando éstas no son capaces de explicar las formas que se ven en las imágenes actuales. Para ello, se sustituye la técnica de optimización del modelo rígido, Sparse Bundle Adjustment (SBA), por un método de procesamiento exhaustivo no rígido NRSfM para mejorar las bases acorde a las imágenes con gran error de reconstrucción que llegan desde el hilo de seguimiento. Con esto, el modelo se consigue adaptar a nuevas deformaciones de manera secuencial, permitiendo al sistema evolucionar y ser estable a largo plazo.

    A diferencia de una gran parte de los métodos de la literatura, el sistema propuesto aborda el problema de la proyección perspectiva de forma nativa, minimizando los problemas de ambigüedad y de distancia al objeto existente en la proyección ortográfica. El sistema propuesto maneja centenares de puntos y está preparado para cumplir con las restricciones de tiempo real necesarias para su aplicación en sistemas con recursos hardware limitados. Además, presenta un buen equilibrio entre error de reconstrucción y tiempo de procesamiento respecto a otras propuestas del estado del arte.

  • English

    There are applications based in a correct localization and reconstruction of a scene in a real 3D environment, which has experienced a great interest in the latest years by researchers and industrial community. These applications cover from augmented reality, robotics, simulation, video-games, etc. Depending on the application and the required reconstruction detail level, different devices can be used such as: stereo cameras, Red Green Blue and Depth (RGBD) sensors using Structured Light, Time of Flight (ToF) cameras, 2D / 3D lasers, etc. Simpler applications can use less complex hardware, i.e. commonly use devices, like smartphones, and applying computer vision techniques, 3D models of the workspace can be obtained with quality enough to render augmented information.

    In robotics, localization and simultaneous 3D map generation using a camera is a fundamental task for autonomous navigation. To that end, Simultaneous Localization And Mapping (SLAM) or Structure from Motion (SfM) techniques have been used. The condition for applying these techniques is the target object must not change its shape along the time, so it must be rigid. In this case, the reconstruction is unique up to scale, given that for a monocular capture is not possible to recover it unless there is a fixed reference.

    In case the rigidity condition does not apply on the scene, the object changes its shape along the time, so it is deformable. Therefore the problem would be equivalent to perform a reconstruction per frame, which is an ill posed problem and so ambiguous, as different shapes combined with certain camera poses could lead to similar projections. This is why deformable object reconstruction is an active research field nowadays. To perform the reconstructions, SfM methods have been adapting to the non-rigid reconstruction of deformable objects by incorporating physical models, temporal, spacial and geometrical priors or other kinds of restrictions to reduce the solutions and better conform the reconstruction, giving as a result the Non-Rigid Structure from Motion (NRSfM) techniques.

    In this Thesis, we propose to depart from a well known state-of-the-art technique PTAM (Parallel Tracking and Mapping) and adapt it to include NRSfM techniques, based on linear bases model to estimate the object deformations dynamically and apply temporal and spacial restrictions to improve the reconstruction. Additionally it is modified to adapt to changes on the deformation types of the sequence. To that end, there has been changes to be applied to each of PTAM execution thread to process the incoming non-rigid data of the scene in a natural way. Data association problems are faced as well.

    The tracking thread was already doing tracking from template in a native way, based on 3D map points, previously provided. The main modification proposal of this thread is the integration of a linear shape bases model to perform the computation of the shape deformations in real time assuming the deformation bases fixed. The pose computation is based on the previous rigid estimation system, so the whole state estimation is done alternating pose and deformation coefficient steps by using an Expectation-Maximization (EM) algorithm. Temporal and shape smoothness priors are also imposed to minimize the ambiguities inherent to the solutions and to improve the 3D estimations quality.

    Regarding the mapping thread, it is modified so that it can handle deformation bases improvements when the current set of bases are not able to explain the currently seen deformations on the image. To that end, the rigid optimization technique of Sparse Bundle Adjustment (SBA) is substituted by an exhaustive non-rigid NRSfM batch algorithm to improve the bases according to the images having a great reprojection error that are sampled from the tracking thread. With this setup, we are able to adapt to new deformations in a sequential way, allowing the system to evolve and being stable in the long term.

    Unlike some literature methods, the proposed system faces the perspective problem in a native way, minimizing the problems of the ambiguity on the distance to the object existing with the orthographic projection approaches. The proposed system also handles hundreds of points and is ready to comply with real-time restrictions for its application on limited hardware resources systems. Additionally, it presents a good trade-off between reconstruction error and processing time regarding other proposals of the state-of-the-art.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus