Multi-modal pedestrian detection

dc.contributor
Universitat Autònoma de Barcelona. Departament de Ciències de la Computació
dc.contributor.author
González Alzate, Alejandro
dc.date.accessioned
2015-12-09T15:12:15Z
dc.date.available
2016-11-29T06:45:10Z
dc.date.issued
2015-11-30
dc.identifier.isbn
9788449056819
cat
dc.identifier.uri
http://hdl.handle.net/10803/325150
dc.description.abstract
La detección de peatones continua siendo un problema muy difícil en escenarios reales, donde diferentes situaciones como cambios en iluminación, imágenes ruidosas, objetos inesperados, escenarios sin control y la variabilidad en la apariencia de los objetos ocurren constantemente. Todos estos problemas fuerzan el desarrollo de detectores más robustos para aplicaciones relevantes como lo son los vehículos autónomos basados en visión, vigilancia inteligente y el seguimiento de peatones para el análisis del comportamiento. Los detectores de peatones basados en visión más confiables deciden basándose en descriptores extraídos usando un único sensor y capturando características complementarias, e.g., apariencia y textura. Estas características son extraídas de una única imagen, ignorando la información temporal, o incluyendo esta información en un paso de post procesamiento e.g., seguimiento o coherencia temporal. Teniendo en cuenta estos hechos, nos formulamos la siguiente pregunta: ¿Podemos generar detectores de peatones más robustos mediante la introducción de nuevas fuentes de información en el paso de extracción de características? Para responder a esta pregunta desarrollamos diferentes propuestas para introducir nuevas fuentes de información a detectores de peatones bien conocidos. Empezamos por la inclusión de información temporal siguiendo el paradigma del aprendizaje secuencial apilado (SSL siglas en inglés), el cual sugiere que la información extraída de las muestras vecinas en una secuencia pueden mejorar la exactitud de un clasificador base. Después nos enfocamos en la inclusión de información complementaria proveniente de sensores diferentes como nubes de puntos 3D (LIDAR - profundidad), imágenes infrarrojas (FIR) o mapas de disparidad (par estéreo de cámaras). Para tal fin desarrollamos un marco multimodal en el cual información proveniente de diferentes sensores es usada para incrementar la exactitud en la detección (aumentando la redundancia de la información). Finalmente proponemos un detector multi-vista, esta propuesta multi-vista divide el problema de detección en n sub-problemas. Cada uno de estos sub-problemas detectara objetos en una vista específica dada, reduciendo así el problema de la variabilidad que se tiene cuando un único detector es usado para todo el problema. Demostramos que estas propuestas obtienen resultados competitivos con otros métodos en el estado del arte, pero envés de diseñar nuevas características, reutilizamos las existentes para mejorar el desempeño.
spa
dc.description.abstract
Pedestrian detection continues to be an extremely challenging problem in real scenarios, in which situations like illumination changes, noisy images, unexpected objects, uncontrolled scenarios and variant appearance of objects occur constantly. All these problems force the development of more robust detectors for relevant applications like vision-based autonomous vehicles, intelligent surveillance, and pedestrian tracking for behavior analysis. Most reliable vision-based pedestrian detectors base their decision on features extracted using a single sensor capturing complementary features, e.g., appearance, and texture. These features usually are extracted from the current frame, ignoring temporal information, or including it in a post process step e.g., tracking or temporal coherence. Taking into account these issues we formulate the following question: can we generate more robust pedestrian detectors by introducing new information sources in the feature extraction step? In order to answer this question we develop different approaches for introducing new information sources to well-known pedestrian detectors. We start by the inclusion of temporal information following the Stacked Sequential Learning (SSL) paradigm which suggests that information extracted from the neighboring samples in a sequence can improve the accuracy of a base classifier. We then focus on the inclusion of complementary information from different sensors like 3D point clouds (LIDAR - depth), far infrared images (FIR), or disparity maps (stereo pair cameras). For this end we develop a multi-modal framework in which information from different sensors is used for increasing detection accuracy (by increasing information redundancy). Finally we propose a multi-view pedestrian detector, this multi-view approach splits the detection problem in n sub-problems. Each sub-problem will detect objects in a given specific view reducing in that way the variability problem faced when a single detectors is used for the whole problem. We show that these approaches obtain competitive results with other state-of-the-art methods but instead of design new features, we reuse existing ones boosting their performance.
eng
dc.format.extent
100 p.
cat
dc.format.mimetype
application/pdf
dc.language.iso
eng
cat
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/3.0/es/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-nd/3.0/es/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Detecció de vianants
cat
dc.subject
Detección de peatones
cat
dc.subject
Pedestrian detection
cat
dc.subject
Informació multimodal
cat
dc.subject
Información multimodal
cat
dc.subject
Multi-modal information
cat
dc.subject.other
Tecnologies
cat
dc.title
Multi-modal pedestrian detection
cat
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
6
cat
dc.contributor.authoremail
agalzate@cvc.uab.es
cat
dc.contributor.director
Vázquez Bermúdez, David
dc.contributor.codirector
López Peña, Antonio
dc.embargo.terms
12 mesos
cat
dc.rights.accessLevel
info:eu-repo/semantics/openAccess


Documents

aga1de1.pdf

1.812Mb PDF

This item appears in the following Collection(s)