A Bitter-Sweet Symphony on Vision and Language: Bias andWorld Knowledge

dc.contributor.author
Biten, Ali Furkan
dc.date.accessioned
2023-05-21T05:58:28Z
dc.date.available
2023-05-21T05:58:28Z
dc.date.issued
2022-11-17
dc.identifier.uri
http://hdl.handle.net/10803/688319
dc.description.abstract
La visió i el llenguatge són àmpliament considerats com a pedres angulars de la intel·ligència. Tot i que el llenguatge i la visió tenen objectius diferents: el llenguatge té el propòsit de la comunicació, la transmissió d’informació i la visió té el propòsit de construir representacions mentals al nostre voltant per navegar i interactuar amb els objectes, interactuen i depenen els uns dels altres en moltes tasques que fem sense esforç. . Aquesta dependència està estudiant activament en diverses tasques de Computer Vision, p. subtítols d’imatges, resposta visual a preguntes, recuperació d’oracions amb imatges, posada a terra de frases, només per nomenar-ne alguns. Totes aquestes tasques comparteixen la dificultat inherent d’alinear les dues modalitats, alhora que són robustes als llenguatges previs i diversos biaixos existents als conjunts de dades. L’objectiu final de la investigació de la visió i el llenguatge és poder injectar coneixement del món mentre s’eliminen els biaixos que vénen amb els conjunts de dades. En aquesta tesi, ens centrem principalment en dues tasques de visió i llenguatge, és a dir, subtítols d’imatge i resposta visual a preguntes de text d’escena (STVQA). En tots dos dominis, comencem definint una nova tasca que requereix la utilització del coneixement mundial i en ambdues tasques trobem que els models comunament emprats són propensos als biaixos que hi ha a les dades. Concretament, presentem noves tasques i descobrim diversos problemes que impedeixen l’exercici a cada nivell i proporcionem remeis o possibles solucions a cada capítol: i) Definim una nova tasca per anar més enllà del subtitulat d’imatges a la interpretació d’imatges que pot utilitzar entitats anomenades en forma de coneixement del món. ii) Estudiem el problema de l’al·lucinació d’objectes als sistemes clàssics de subtítols d’imatges i desenvolupem una solució independent de l’arquitectura. iii) Definim una subtasca de Visual Question Answering que requereix llegir el text de la imatge (STVQA), on destaquem les limitacions dels models actuals. iv) Proposem una arquitectura per a la tasca STVQA que pot apuntar a la resposta a la imatge i mostrar com combinar-la amb els models clàssics de VQA. v) Mostrem fins on ens pot portar el llenguatge a STVQA i descobrim un altre biaix més que fa que els models ignorin la imatge mentre realitzen la Resposta Visual a Preguntes.
ca
dc.description.abstract
La visión y el lenguaje son ampliamente considerados como piedras angulares de la inteligencia. Aunque el lenguaje y la visión tienen objetivos diferentes: el lenguaje tiene el propósito de la comunicación, la transmisión de información y la visión tiene el propósito de construir representaciones mentales a nuestro alrededor para navegar e interactuar con los objetos, interactúan y dependen unos de otros en muchas tareas que realizamos sin esfuerzo. . Esta dependencia se está estudiando activamente en varias tareas de Computer Vision, p. subtítulos de imágenes, respuesta visual a preguntas, recuperación de oraciones con imágenes, puesta a tierra de frases, solo por nombrar algunos. Todas estas tareas comparten la dificultad inherente de alinear las dos modalidades, al mismo tiempo que son robustas a los lenguajes previos y varios sesgos existentes en los conjuntos de datos. El objetivo final de la investigación de la visión y el lenguaje es poder inyectar conocimiento del mundo mientras se eliminan los sesgos que vienen con los conjuntos de datos. En esta tesis, nos centramos principalmente en dos tareas de visión y lenguaje, a saber, subtítulos de imagen y respuesta visual a preguntas de texto de escena (STVQA). En ambos dominios, comenzamos definiendo una nueva tarea que requiere la utilización del conocimiento mundial y en ambas tareas encontramos que los modelos comúnmente empleados son propensos a los sesgos que existen en los datos. Concretamente, presentamos nuevas tareas y descubrimos varios problemas que impiden el desempeño en cada nivel y proporcionamos remedios o posibles soluciones en cada capítulo: i) Definimos una nueva tarea para ir más allá del subtitulado de imágenes a la interpretación de imágenes que puede utilizar entidades nombradas en forma de conocimiento del mundo. ii) Estudiamos el problema de la alucinación de objetos en los sistemas clásicos de subtítulos de imágenes y desarrollamos una solución independiente de la arquitectura. iii) Definimos una subtarea de Visual Question Answering que requiere leer el texto de la imagen (STVQA), donde destacamos las limitaciones de los modelos actuales. iv) Proponemos una arquitectura para la tarea STVQA que puede apuntar a la respuesta en la imagen y mostrar cómo combinarla con los modelos clásicos de VQA. v) Mostramos hasta dónde nos puede llevar el lenguaje en STVQA y descubrimos otro sesgo más que hace que los modelos ignoren la imagen mientras realizan la Respuesta Visual a Preguntas.
ca
dc.description.abstract
Vision and Language are broadly regarded as cornerstones of intelligence. Even though language and vision have different aims –language having the purpose of communication, transmission of information and vision having the purpose of constructing mental representations around us to navigate and interact with objects –they cooperate and depend on one another in many tasks we perform effortlessly. This reliance is actively being studied in various Computer Vision tasks, e.g. image captioning, visual question answering, image-sentence retrieval, phrase grounding, just to name a few. All of these tasks share the inherent difficulty of the aligning the two modalities, while being robust to language priors and various biases existing in the datasets. One of the ultimate goal for vision and language research is to be able to inject world knowledge while getting rid of the biases that come with the datasets. In this thesis, we mainly focus on two vision and language tasks, namely Image Captioning and Scene-Text Visual Question Answering (STVQA). In both domains, we start by defining a new task that requires the utilization of world knowledge and in both tasks, we find that the models commonly employed are prone to biases that exist in the data. Concretely, we introduce new tasks and discover several problems that impede performance at each level and provide remedies or possible solutions in each chapter: i) We define a new task to move beyond Image Captioning to Image Interpretation that can utilize Named Entities in the form of world knowledge. ii) We study the object hallucination problem in classic Image Captioning systems and develop an architecture-agnostic solution. iii) We define a sub-task of Visual Question Answering that requires reading the text in the image (STVQA), where we highlight the limitations of current models. iv) We propose an architecture for the STVQA task that can point to the answer in the image and show how to combine it with classic VQA models. v) We show how far language can get us in STVQA and discover yet another bias which causes the models to disregard the image while doing Visual Question Answering.
ca
dc.format.extent
152 p.
ca
dc.language.iso
eng
ca
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Visió i llenguatge
ca
dc.subject
Visión y lenguaje
ca
dc.subject
Vision and language
ca
dc.subject
Subtítols d’imatges
ca
dc.subject
Subtítulos de imagen
ca
dc.subject
Image captioning
ca
dc.subject
Text de l’escena pregunta visual resposta
ca
dc.subject
Escena texto visual pregunta respuesta
ca
dc.subject
Scene text visual question answering
ca
dc.subject.other
Ciències Experimentals
ca
dc.title
A Bitter-Sweet Symphony on Vision and Language: Bias andWorld Knowledge
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
ca
dc.contributor.authoremail
furkanbiten@gmail.com
ca
dc.contributor.director
Gomez Bigorda, Luis
dc.contributor.director
Karatzas, Dimosthenis
dc.embargo.terms
cap
ca
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica


Documents

afb1de1.pdf

15.60Mb PDF

This item appears in the following Collection(s)