Jesús Moncada Ramírez, José Raúl Ruiz Sarmiento, José Luis Matez Bandera, Javier González Jiménez
La aparición de los modelos a gran escala permite abordar algunas de las principales limitaciones que presentan las técnicas de mapeo semántico tradicional en robótica móvil. Sin embargo, estos modelos son propensos a generar respuestas incorrectas, incoherentes o incluso inventadas, pudiendo ocasionar comportamientos erróneos del robot. Para poder desplegarse en aplicaciones reales, por tanto, es crucial desarrollar mecanismos que permitan mitigar estas errores. En este trabajo se utiliza \textit{ConceptGraphs}, un método del estado del arte basado en modelos a gran escala para construir mapas semánticos, sobre el que se plantean dos estrategias para reducir las respuestas erróneas. Primero, se propone adaptar el método para operar con modelos más recientes (por ejemplo, Gemini 1.5 y ChatGPT-4o). En segundo lugar, se incorpora una etapa de refinamiento de respuestas mediante la técnica denominada \textit{Reflexión}, que permite al modelo autoevaluar y mejorar sus propias respuestas. Finalmente, se validan las propuestas mediante experimentos en entornos reales del conjunto de datos ScanNet.
The advent of large models enables us to overcome some of the main limitations of traditional semantic mapping techniques in mobile robotics. However, such models can produce incorrect, incoherent, or made-up responses, leading to undesirable robot behaviors. Consequently, providing mechanisms to mitigate such responses is crucial before these models can be deployed inr eal-world applications. In this work, we build upon ConceptGraphs, a state-of-the-art method based on large models to create semantic maps, on which we propose two approaches to reduce misleading responses. First, we propose to adapt the method to operate on more recent models (e.g., Gemini 1.5 and ChatGPT-4o). Second, we incorporate a refinement stage for responses using the Reflection technique, which allows the model to self-evaluate and improve its responses. Finally, we validate the proposals through experiments in real-world environments from the ScanNet dataset.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados