Human Robot Interactions using Efficient Semantic Mapping

Author

Singh, Aditya

Director

Puig Valls, Domènec Savi

Nandi, Gora Chand

Date of defense

2024-04-08

Pages

255 p.



Department/Institute

Universitat Rovira i Virgili. Departament d'Enginyeria Informàtica i Matemàtiques

Abstract

El modelatge de l'espai de treball basat en la percepció és un requisit crucial perquè els robots mòbils naveguin per entorns interiors. Per tal que els robots puguin interactuar eficaçment amb els humans, també és necessari tenir una descripció semàntica de l'entorn. Aquesta tesi presenta tècniques de mapatge semàntic assequibles per a robots, que els permeten interpretar l'entorn i interactuar de manera significativa amb ell. Explorem diversos enfocaments per a l'aprenentatge de la semàntica, inclosos l'aprenentatge profund basat en xarxes neuronals i sistemes basats en regles. Com a alternativa als models d'aprenentatge profund intensius en recursos, proposem l'ús de models lleugers d'aprenentatge profund com ara TF-Lite i YOLOv3. Aquests models s'integren en el disseny i l'estètica robòtica per generar mapes semàntics d'objectes, centrats en representacions bidimensionals. Mitjançant la predicció de quadres delimitadors i el càlcul dels canvis en l'odometria mitjançant seqüències d'imatges capturades des de la càmera del robot, proporcionem una representació detallada de l'escena. Per millorar els detalls de l'escena i facilitar l'extracció de l'odometria, proposem un model de codificador-descodificador que prediu la profunditat i les etiquetes semàntiques per píxel.


Utilitzem el lleuger ORB-SLAM per extreure l'odometria de la sortida de profunditat generada pel nostre model. Comparem els resultats de l'odometria mitjançant el conjunt de dades Kitti, mentre que els conjunts de dades NYU-D i Camvid s'utilitzen per entrenar el model. Per al mapeig semàntic d'escena, proposem una arquitectura basada en Multi-model Fusion que utilitza tres troncs convolucionals per classificar les escenes amb les seves etiquetes corresponents. El LoCobot, un robot de codi obert i assequible disponible al CIR (Centre de robòtica intel·ligent), IIIT-A. El modelado del espacio de trabajo basado en la percepción es un requisito crucial para que los robots móviles naveguen por entornos interiores. Para permitir que los robots interactúen eficazmente con los humanos, también es necesario tener una descripción semántica del entorno. Esta tesis presenta técnicas de mapeo semántico asequibles para robots, permitiéndoles interpretar el entorno e interactuar de manera significativa con él. Exploramos varios enfoques para el aprendizaje de la semántica, incluido el aprendizaje profundo basado en redes neuronales y los sistemas basados ??en reglas. Como alternativa a los modelos de aprendizaje profundo que consumen muchos recursos, proponemos el uso de modelos ligeros de aprendizaje profundo como TF-Lite y YOLOv3. Estos modelos se integran en el diseño y la estética robótica para generar mapas semánticos de objetos, centrándose en representaciones bidimensionales. Al predecir cuadros delimitadores y calcular cambios en la odometría utilizando secuencias de imágenes capturadas por la cámara del robot, proporcionamos una representación detallada de la escena.


Comparamos los resultados de odometría utilizando el conjunto de datos de Kitti, mientras que los conjuntos de datos de NYU-D y Camvid se utilizan para entrenar el modelo. Para el mapeo semántico de escenas, proponemos una arquitectura basada en Fusion multimodelo que emplea tres columnas vertebrales convolucionales para clasificar escenas con sus etiquetas correspondientes. El LoCobot, un robot asequible y de código abierto disponible en el CIR (Centro de Robótica Inteligente), IIIT-A. Perception-based modeling of the workspace is a crucial requirement for mobile robots to navigate indoor environments. In order to enable robots to effectively interact with humans, it is also necessary to have a semantic description of the environment. This thesis presents affordable semantic mapping techniques for robots, enabling them to interpret the environment and interact meaningfully with it. We explore various approaches for learning semantics, including neural networks based deep learning, and rule-based systems. As an alternative to resource-intensive deep learning models, we propose the use of lightweight deep learning models such as TF-Lite and YOLOv3. These models are integrated into the robotic design and aesthetics to generate object-wise semantic maps, focusing on two-dimensional representations. By predicting bounding boxes and calculating changes in odometry using image sequences captured from the robot's camera, we provide a detailed representation of the scene. To enhance the scene's details and facilitate odometry extraction, we propose an encoder-decoder model that predicts depth and semantic labels per pixel.

Keywords

Aprenentatge profund; Robòtica; Cartografia; Aprendizaje Profundo; Deep Learning; Robotics; Mapping

Subjects

004 - Computer science and technology. Computing. Data processing; 51 - Mathematics; 62 - Engineering. Technology in general

Knowledge Area

Enginyeria i arquitectura

Documents

This document contains embargoed files until 2025-04-08

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)