Model free approach towards human action recognition

Author

Chakraborty, Bhaskar

Director

Gonzàlez i Sabaté, Jordi

Roca i Marvà, Francesc Xavier

Date of defense

2012-10-22

Pages

166 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament de Ciències de la Computació

Abstract

La comprensio automatica de les accions humanes observades en sequencies d'imatges es molt important en el area de recerca de la Vision per Computador, amb aplicacions a gran escala en la vigilancia de video, analisi del moviment huma, interficies de realitat virtual, robots de navegacio, aixi com per al reconeixement, indexacio, i recuperacio de video. Aquesta tesi presenta una serie de tecniques per resoldre el problema del reconeixement de les accions humanes en video. El nostre primer enfocament cap a aquesta tema es basa en la optimitzacio d'un model probabilistic de les parts del cos utilitzant una Hidden Markov Model (HMM). Aquest enfocament es basa en un strong model, capac de distingir entre accions similars considerant nomes les parts del cos que tenen les majors aportacions en la realitzacio de certes accions, per exemple en cames per caminar i correr, o en bracos per a accions com boxa i aplaudir. El nostre seguent enfocament es basa en l'observacio de que el reconeixement d'accions es pot realitzar usant nomes informacio visual, ii la postura humana desenvolupada durant una accio, analitzant la la informacio d'uns quants frames en lloc d'examinar la sequencia completa. En aquest metode, les accions es representen mitjançant un model Bag-of-key-poses per poder capturar la variacio de la postura humana durant el desenvolupament d'una accio. Per fer front al problema del reconeixement de l'accio en escenes complexes, tot seguit es proposa una aproximacio model free basada en l'analisi de punts d'interes espai-temporals (STIPs) que disposen de molta informacio local. Amb aquesta finalitat, s'ha desenvolupat un nou detector de STIPs que es basa en el mecanisme de inhibicio del camp receptiu utilitzat en l'escorça primaria, en particular en l'orientacio selectiva visual de les neurones. A mes, hem estes el nostre reconeixement d'accions basat en STIPs selectius a sistemes multi-camera. En aquest cas, els STIPs selectius de cada punt de vista es combinen mitjançant les dades 3D reconstruïts per formar STIPs selectius 4D (espai 3D + temps). A la part final d'aquesta tesi, ens dediquem al reconeixement continu d'esdeveniments visuals (CVER) en bases de dades de videos de seguretat enormes, amb un gran conjunt de dades. Aquest problema es extremadament difícil a causa de l'alta escalabilitat de les dades, a les dificultats de l'entorn real en que es aplcia ja una variabilitat en escena molt ampli. Per abordar aquests problemes, les regions en moviment son detectades a partir d'una tecnica anomenada max margin generalized Hough transformation, que s'utilitza per aprendre aquella distribucio de característiques voltant d'una accio per reconeixer hipotesis que despres es verifiquen per Bag-of-words mes un classificador lineal. Hem validat les nostres tecniques en diversos conjunts de dades de vídeo vigilància que constitueixen l'estat de l'art actual en aquest tema. Els resultats obtinguts demostren que hem millorat la precisio en la deteccio d'accions humanes en video.


La comprension automatica de las acciones humanas observadas en secuencias de imagenes es muy importante en el area de investigacion de la Vision por Computador, con aplicaciones a gran escala en la vigilancia de video, analisis del movimiento humano, interfaces de realidad virtual, robots de navegacion, asi como para el reconocimiento, indexacion, y recuperacion de video. Esta tesis presenta una serie de tecnicas para resolver el problema del reconocimiento de las acciones humanas en video. Nuestro primer enfoque hacia esta tema se basa en la optimizacion de un modelo probabilístico de las partes del cuerpo utilizando una Hidden Markov Model (HMM). Este enfoque se basa en un strong model, capaz de distinguir entre acciones similares considerando solo las partes del cuerpo que tienen las mayores aportaciones en la realizacion de ciertas acciones, por ejemplo en piernas para caminar y correr, o en brazos para acciones como boxeo y aplaudir. Nuestro siguiente enfoque se basa en la observacion de que el reconocimiento de acciones se puede realizar usando solo informacion visual, i.e. la postura humana desarrollada durante una accion, analizando la la informacion de unos cuantos frames en lugar de examinar la secuencia completa. En este metodo, las acciones se representan mediante un modelo Bag-of-\textit{key-poses} para poder capturar la variaci\'{o}n de la postura humana durante el desarrollo de una accion. Para hacer frente al problema del reconocimiento de la accion en escenas complejas, a continuacion se propone una aproximacion model free basada en el analisis de puntos de interes espacio-temporales (STIPs) que disponen de mucha informacion local. Para este fin, se ha desarrollado un nuevo detector de STIPs que se basa en el mecanismo de inhibici\'{o}n del campo receptivo utilizado en la corteza primaria, en particular en la orientacion selectiva visual de las neuronas. Ademas, hemos extendido nuestro reconocimiento de acciones basado en STIPs selectivos a sistemas multi-camara. En este caso, los STIPs selectivos de cada punto de vista se combinan mediante los datos $3$D reconstruidos para formar STIPs selectivos 4D (espacio 3D + tiempo). En la parte final de esta tesis, nos dedicamos al reconocimiento continuo de eventos visuales (CVER) en bases de datos de videos de seguridad enormes, con un gran conjunto de datos. Este problema es extremadamente dificil debido a la alta escalabilidad de los datos, a las dificultades del entorno real en el que se aplcia y a una variabilidad en escena muy amplio. Para abordar estos problemas, las regiones en movimiento son detectadas a partir de una tecnica llamada max margin generalized Hough transformation, que se utiliza para aprender aquella distribucion de caracteristicas entorno a una accion para reconocer hipotesis que luego se verifican por Bag-of-words mas un clasificador lineal. Hemos validado nuestras tecnicas en varios conjuntos de datos de video vigilancia que constituyen el estado del arte actual en este tema. Los resultados obtenidos demuestran que hemos mejorado la precision en la deteccion de acciones humanas en video.


Automatic understanding of human activity and action is a very important and challenging research area of Computer Vision with wide scale applications in video surveillance, motion analysis, virtual reality interfaces, robot navigation and recognition, video indexing, content based video retrieval, HCI, health care, choreography and sports video analysis etc. This thesis presents a series of techniques to solve the problem of human action recognition in video. First approach towards this goal is based on the a probabilistic optimization model of body parts using hidden markov model (HMM). This strong model based approach is able to distinguish between similar actions by only considering the body parts having major contributions to the actions, for example legs for walking and jogging; arms for boxing and clapping. Next approach is based on the observation that the action recognition can be done using only the visual cue, i.e. human pose during the action, even with the information of few frames instead of examining the whole sequence. In this method, actions are represented by a Bag-of-key-poses model to capture the human pose variation during an action. To tackle the problem of recognizing the action in complex scenes, we propose a model free approach which is based on the Spatio-temporal interest point (STIP) and local feature. To this end, a novel STIP detector is proposed which uses a mechanism similar to that of the non-classical receptive field inhibition that is exhibited by most orientation selective neurons in the primary visual cortex. An extension of the selective STIP based action recognition is applied to the human action recognition in multi-camera system. In this case, selective STIPs from each camera view point are combined using the 3D reconstructed data, to form 4D STIPs [3D space + time] for multi-view action recognition. The concluding part of the thesis dedicates to the continuous visual event recognition (CVER) on large scale video dataset. This is an extremely challenging problem due to high scalability, diverse real environment state and wide scene variability. To address these issues, a motion region extraction technique is applied as a preprocessing step. A max-margin generalized Hough Transform framework is used to learn the feature vote distribution around the activity center to obtain an activity hypothesis which is verified by a Bag-of-words + SVM action recognition system. We validate our proposed approaches on several benchmark action recognition datasets as well as small scale and large scale activity recognition datasets. We obtain state-of-the results which shows a progressive improvement of our proposed techniques to solve human action and activity recognition in video.

Keywords

Action recognition; HMM; Keys-poses; Bag-of-woords models

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Tecnologies

Documents

bc1de1.pdf

18.80Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)