Reconocimiento del andar humano mediante técnicas de aprendizaje profundo

dc.contributor
Universitat Politècnica de Catalunya. Institut d'Organització i Control de Sistemes Industrials
dc.contributor.author
Burruel Zazueta, José Misael
dc.date.accessioned
2025-10-17T06:21:15Z
dc.date.available
2025-10-17T06:21:15Z
dc.date.issued
2025-10-10
dc.identifier.uri
http://hdl.handle.net/10803/695513
dc.description.abstract
(English) The increase in crime and the limitations of traditional video surveillance systems to identify people non-intrusively in real time have prompted the search for new solutions in the field of security. In this context, Human Gait Recognition (HGR) emerges as an effective biometric alternative, allowing the identification of individuals through their walking patterns, without physical contact or active cooperation.This PhD thesis proposes the design and implementation of an intelligent human gait recognition module focused on real-time video surveillance scenarios. The solution combines appearance-based (silhouette) and model-based (estimated body pose) approaches, using computer vision and deep learning tools to achieve accurate identification even in uncontrolled visual conditions. As a central contribution, the TecNM Gait-DS dataset was developed, specifically designed to represent the morphology, clothing style and walking patterns characteristic of the Latin American population. This dataset includes more than 22,500 video sequences of 124 subjects captured from 13 viewing angles and under five walking variants: normal, with backpack, with coat, carrying box and briefcase.The proposed system incorporates a real-time feature extraction module based on DensePose and Detectron2 networks, which extract silhouettes and key points with an average processing time of 45 ms per frame. These features feed different deep learning architectures: convolutional (ResNet-50, 101 and 152), attention-based (DINO-ViT), and gait-specialized (GaitMix and GaitRef) models. Six experimental setups (A-F) combining silhouette preprocessing (with or without filling) and enrichment by angular convolutions from biomechanical motion matrices (joint angles) were defined. The evaluations were performed on the CASIA-B and TecNM Gait-DS arrays.The generalist models (ResNet and DINO-ViT) achieved more than 95 % effectiveness in CASIA-B and up to 87% in TecNM Gait-DS. The specialized models GaitMix and GaitRef exceeded 94 % in ideal conditions and reached 87.9% in the TecNM Gait-DS set, highlighting their robustness to variations in angle, clothing and type of walking. Likewise, the system demonstrated feasibility for real-time use, with inference times of less than 50 ms per image.Additionally, the Vapnik-Chervonenkis (VC) inequality was used to support that models trained with TecNM Gait-DS have better generalization capability. Despite a lower accuracy with respect to CASIA-B, the diversity of the Latin American set reduces the gap between the empirical error and the expected error, favoring its applicability in real scenarios. This work not only provides technical innovations in the field of biometric recognition, but also has a direct social impact by promoting technologies adapted to the Latin American context. The results lay the foundations for the development of an embedded intelligent video surveillance system based on RAH, aimed at improving security in public and strategic spaces.
dc.description.abstract
(Català) L’augment de la criminalitat i les limitacions dels sistemes tradicionals de videovigilància per identificar persones de forma no intrusiva en temps real han impulsat la cerca de noves solucions en l’àmbit de la seguretat. En aquest context, el Reconeixement de la Marxa Humana (RAH) emergeix com una alternativa biomètrica eficaç, permetent la identificació d’individus a partir dels seus patrons de caminar, sense contacte físic ni cooperació activa. Aquesta tesi doctoral proposa el disseny i la implementació d’un mòdul intel·ligent de reconeixement de la marxa humana enfocat a escenaris de videovigilància en temps real. La solució combina enfocaments basats en l’aparença (silüetes) i basats en model (posició corporal estimada), utilitzant eines de visió per computador i aprenentatge profund per aconseguir una identificació precisa fins i tot en condicions visuals no controlades. Com a contribució central, es va desenvolupar el conjunt de dades TecNM Gait-DS, dissenyat específicament per representar la morfologia, l’estil de vestir i els patrons de caminar característics de la població llatinoamericana. Aquest conjunt inclou més de 22.500 seqüències de vídeo de 124 subjectes capturades des de 13 angles de visió i sota cinc variants de marxa: normal, amb motxilla, amb abric, carregant una capsa i un maletí. El sistema proposat incorpora un mòdul d’extracció de característiques en temps real basat en les xarxes DensePose i Detectron2, que extreuen silüetes i punts clau amb un temps mitjà de processament de 45 ms per fotograma. Aquestes característiques alimenten diferents arquitectures d’aprenentatge profund: models convolucionals (ResNet-50, 101 i 152), basats en atenció (DINO-ViT), i especialitzats en marxa (GaitMix i GaitRef). Es van definir sis configuracions experimentals (A-F) que combinen preprocessament de silüetes (amb o sense ompliment) i enriquiment mitjançant convolucions angulars a partir de matrius de moviment biomecànic (angles articulars). Les avaluacions es van realitzar en els conjunts CASIA-B i TecNM Gait-DS. Els models generalistes (ResNet i DINO-ViT) van assolir més del 95 % d’efectivitat en CASIA-B i fins al 87  % en TecNM Gait-DS. Els models especialitzats GaitMix i GaitRef van superar el 94 % en condicions ideals i van assolir un 87,9 % en el conjunt TecNM Gait-DS, destacant la seva robustesa davant variacions d’angle, indumentària i tipus de marxa. Així mateix, el sistema va demostrar viabilitat per al seu ús en temps real, amb temps d’inferència inferiors a 50 ms per imatge. Addicionalment, es va utilitzar la desigualtat de Vapnik-Chervonenkis (VC) per sustentar que els models entrenats amb TecNM Gait-DS tenen millor capacitat de generalització. Malgrat una precisió lleugerament inferior respecte a CASIA-B, la diversitat del conjunt llatinoamericà redueix la bretxa entre l’error empíric i l’error esperat, afavorint la seva aplicabilitat en escenaris reals. Aquest treball no només aporta innovacions tècniques en el camp del reconeixement biomètric, sinó que també té un impacte social directe en promoure tecnologies adaptades al context llatinoamericà. Els resultats obtinguts assenten les bases per al desenvolupament d’un sistema empotrat de videovigilància intel·ligent basat en RAH, orientat a millorar la seguretat en espais públics i estratègics.
dc.description.abstract
(Español) El aumento de la criminalidad y las limitaciones de los sistemas tradicionales de videovigilancia para identificar personas de forma no intrusiva en tiempo real han impulsado la búsqueda de nuevas soluciones en el ámbito de la seguridad. En este contexto, el Reconocimiento del Andar Humano (RAH) surge como una alternativa biométrica eficaz, al permitir la identificación de individuos mediante sus patrones de caminata, sin contacto físico ni cooperación activa. Esta tesis doctoral propone el diseño e implementación de un módulo inteligente de reconocimiento del andar humano enfocado en escenarios de videovigilancia en tiempo real. La solución combina enfoques basados en apariencia (siluetas) y basados en modelo (pose corporal estimada), utilizando herramientas de visión por computador y aprendizaje profundo para lograr una identificación precisa incluso en condiciones visuales no controladas.Como contribución central, se desarrolló el conjunto de datos TecNM Gait-DS, diseñado específicamente para representar la morfología, estilo de vestimenta y patrones de caminata característicos de la población latinoamericana. Este conjunto incluye más de 22,500 secuencias de video de 124 sujetos capturados desde 13 ángulos de visión y bajo cinco variantes de caminata: normal, con mochila, con abrigo, cargando caja y maletín.El sistema propuesto incorpora un módulo de extracción de características en tiempo real basado en las redes DensePose y Detectron2, que extraen siluetas y puntos clave con un tiempo promedio de procesamiento de 45 ms por cuadro. Estas características alimentan diferentes arquitecturas de aprendizaje profundo: modelos convolucionales (ResNet-50, 101 y 152), basados en atención (DINO-ViT), y especializados en gait (GaitMix y GaitRef).Se definieron seis configuraciones experimentales (A–F) que combinan preprocesamiento de siluetas (con o sin relleno) y enriquecimiento mediante convoluciones angulares a partir de matrices de movimiento biomecánico (ángulos articulares). Las evaluaciones se realizaron en los conjuntos CASIA-B y TecNM Gait-DS.Los modelos generalistas (ResNet y DINO-ViT) lograron más del 95 % de efectividad en CASIA-B y hasta 87 % en TecNM Gait-DS. Los modelos especializados GaitMix y GaitRef superaron el 94 % en condiciones ideales y alcanzaron 87.9 % en el conjunto TecNM Gait-DS, destacando su robustez ante variaciones de ángulo, indumentaria y tipo de caminata. Asimismo, el sistema demostró viabilidad para su uso en tiempo real, con tiempos de inferencia menores a 50 ms por imagen.Adicionalmente, se utilizó la desigualdad de Vapnik-Chervonenkis (VC) para sustentar que los modelos entrenados con TecNM Gait-DS poseen mejor capacidad de generalización. A pesar de una menor precisión respecto a CASIA-B, la diversidad del conjunto latinoamericano reduce la brecha entre el error empírico y el error esperado, favoreciendo su aplicabilidad en escenarios reales.Este trabajo no solo aporta innovaciones técnicas en el campo del reconocimiento biométrico, sino que además tiene un impacto social directo al promover tecnologías adaptadas al contexto latinoamericano. Los resultados sientan las bases para el desarrollo de un sistema embebido de videovigilancia inteligente basado en RAH, orientado a mejorar la seguridad en espacios públicos y estratégicos.
dc.format.extent
135 p.
dc.language.iso
spa
dc.publisher
Universitat Politècnica de Catalunya
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc/4.0/
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Reconocimiento del Andar Humano (RAH)
dc.subject
Biometría
dc.subject
Aprendizaje Profundo
dc.subject
Inteligencia Artificial
dc.subject
Identificación Biométrica
dc.subject
Conjuntos de DatosTecNM Gait-DS
dc.subject
Siluetas
dc.subject
Pose estimada
dc.subject
DensePose
dc.subject
Detectron2
dc.subject
GEI (Gait Energy Image)
dc.subject
ResNet
dc.subject
DINO-ViTGaitMix / GaitRef
dc.subject
ClasificaciónTiempo-real
dc.subject
Generalización
dc.subject
One-shot learning
dc.subject
Desigualdad de Vapnik-Chervonenkis (VC)
dc.subject.other
Àrees temàtiques de la UPC::Informàtica
dc.title
Reconocimiento del andar humano mediante técnicas de aprendizaje profundo
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.date.updated
2025-10-17T06:21:14Z
dc.subject.udc
004 - Informàtica
dc.contributor.director
Puig Cayuela, Vicenç
dc.contributor.director
Rodríguez Rangel, Héctor
dc.embargo.terms
cap
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.doi
https://dx.doi.org/10.5821/dissertation-2117-443825
dc.description.degree
DOCTORAT EN AUTOMÀTICA, ROBÒTICA I VISIÓ (Pla 2013)


Documents

TJMBZ1de1.pdf

2.642Mb PDF

This item appears in the following Collection(s)