Algorithms for the Multiple Variants of Registration in 3D Range Data

Author

Mateo Prous, Xavier

Director

Binefa Valls, Xavier

Tutor

Martí Gòdia, Enric

Date of defense

2013-11-28

ISBN

9788449041068

Legal Deposit

B-3363-2014

Pages

132 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Abstract

Des del naixement de la fotografia hi ha hagut sempre un gran interès en la possibilitat de detectar una tercera dimensió en les imatges obtingudes per una càmera. Aquesta tercera dimensió permetria la diferenciació i filtrat dels diferents objectes presents a una escena, i per tant facilitar molts del problemes actuals en la recerca de visió per computador. Per tal d'aconseguir-la, diverses tècniques s'han anat utilitzant a través del temps, des de la clàssica estereoscopia fins a altres mètodes més actuals com el Structure from Motion. Durant els darrers anys l'evolució de la tecnologia ha fet possible l'aparició de dispositius que permeten la captura directa d'aquesta informació 3D sense la necessitat d'una intervenció manual. L'ús de diferents espectres de llum com el làser o la llum infraroja, així com la seva integració en els dispositius, han possibilitat aquesta important millora, acompanyada al mateix temps d'una reducció en el preu dels components que ha fet possible el seu ús per gran part de la comunitat de recerca. Aquesta tesis està enfocada en el principals problemes derivats de l'ús de les anomenades càmeres range que, a més de la imatge RGB usual, ofereixen una imatge addicional indicant la distància als objectes de l'escena. Gràcies a l'aplicació directa d'aquestes imatges range, on cada píxel correspon a una distancia, una recreació 3D de l'escena capturada pot ser obtinguda fàcilment. Una de les seves principals avantatges és el fet de que, si la càmera està correctament calibrada, el 3D obtingut es troba expressat en unitat físiques reals (per exemple, en metres) i no pas en píxels. Tot i això, l'ús d'aquestes càmeres range no és tan ideal com es podria suposar. Normalment diverses captures d'una escena o objecte són necessàries per tal d'aconseguir una reconstrucció completa, i alguns materials poden produir problemes que interfereixen en el correcte posicionament dels objectes. Les particularitats de la representació 3D obtinguda fan que aquesta sigui apropiada per fer-la servir com a suport per afegir-hi altres fonts d'informació, com ara imatges RGB o imatges infraroges. L'estructura 3D obtinguda pot ser texturitzada amb aquestes fonts d'informació, donant un resultat integrat que pot ser molt útil per solucionar problemes que no serien possibles utilitzant les imatges de forma separada. Tot i això, diferències en el procés d'adquisició entre aquest tipus d'imatges poden produir alguns problemes quan són fusionades. A més, per tal d'obtenir una reconstrucció 3D completa d'una escena, normalment és necessari que la captura s'hagi fet des de múltiples punts de vista diferents. L'alineament de totes aquestes estructures 3D obtingudes és conegut com registració multivista, on és necessari identificar la posició i orientació de les càmeres range en cadascuna de les presses per tal de poder alinear-les correctament. Aquest alineament s'aconsegueix normalment fen servir dos passos diferenciats: la registració de imatges rang parell a parell, i la posterior minimització de l'error considerant simultàniament totes aquestes parelles.


Ever since the photography was born, there exists a high interest in the possibility of detecting a third dimension in the images obtained by a camera. This third dimension feature would allow the differentiation and easily filtering of the different objects present in the scene, and therefore to facilitate some of the main problematics in the computer vision research. In order to achieve this third dimension acquisition some techniques were historically applied, starting by the classical stereoscopy or other more current methods like Structure from Motion. During last years, the evolution of the technology has made possible the appearance of devices which allows the direct retrieval of 3D information without the manual intervention of the user. The use of different light spectrums like laser or infrared light and their integration inside the camera case have allowed this important improvement, accompanied at the same time by a reduction of the components price which allows its use for the vast majority of the research community. This thesis focuses on the main problems obtained in the use of the so-called range cameras, which, in addition to the usual RGB image, offers an additional image indicating the distance with respect to the objects in the scene. Thanks to the direct application of these range images, where each pixel corresponds to a distance, a 3D recreation of the observed scene can be directly obtained. One of the main advantages is that, if the camera is correctly calibrated, the 3D structure can be obtained with physical units of the real world (such as meters), and not with pixels. Nevertheless, the use of these range cameras was not as ideal as supposed. Usually some captures of every object in the scene are needed in order to obtain a full reconstruction, and different materials could produce problems that interferes the correct position of the object. The presence of these inconveniences produces the necessity of using some algorithms to produce a correct final 3D structure. The particularities of the 3D representation created from the range image become it appropriate to use as a support plate for placing other sources of information, like visible images or infrared images. The obtained 3D structure can be textured with these sources of information, giving an integrated result which could clarify some problems that cannot be solved by using the images separately. However, differences in the acquisition process between these types of images produce difficulties when they are fused. In addition, in order to obtain a full-side representation of a scene usually some 3D captures from different points of views are required. This addresses to the so-called multiview registration problem, where it is necessary to identify the position and orientation of the range camera for each viewpoint in order to correctly join the corresponding 3D structures. Current technology devices like GPSs or IMUs could give this information, but usually is not accurate enough, so common visual elements between different range images must be detected in order to align them. This alignment is usually achieved by using a two-steps procedure: the registration of pairs of range images between them, and the posterior minimization of the global error for the whole set of images.

Keywords

Range image; Registration; Bayesian

Subjects

68 - Industries, crafts and trades for finished or assembled articles

Knowledge Area

Tecnologies

Documents

xmp1de1.pdf

2.776Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)