Decision Making in complex scenarios: a Reinforcement Learning Approach

Author

Parra Tíjaro, Jeison

Director

Marco Pallarés, Josep

Tutor

Marco Pallarés, Josep

Date of defense

2022-11-25

Pages

206 p.



Department/Institute

Universitat de Barcelona. Departament de Cognició, Desenvolupament i Psicologia de l'Educació

Abstract

[eng] Our everyday actions are sequential and chained towards accomplishing goals. As an adaptive strategy, our tasks are divided and organised in stages leading up to an ultimate objective, which is specified by reaching progressive sub-goals. We create hierarchies in order to streamline our decision-making anytime an action has to be selected. Previous research has demonstrated that people chose alternatives with higher pseudo-rewards in order to achieve a sub-goal. As a behavioural strategy to reduce complexity, individuals break down routines in simpler stages and the completion of such intermediate states is reinforcing itself. Therefore, sub-goals are set hierarchically and their achievement act as pseudo-feedbacks that drives learning and influences decision-making. Still, this remarkable preference for pseudo-reward predictive stimuli has not been elucidated as a potential factor involved in sub-optimal choice behaviour. The goal of the present thesis is to investigate the behavioural and neural correlates of pseudo-feedback processing in sub-optimal decisions. To reach this goal, three studies are presented. In the first behavioural study, 226 university students participated in two experiments to test the hypothesis that pseudo rewards bias decisions. The task consisted of two alternatives, presented as two figures that were associated with different probabilities of obtaining pseudo-rewards. The results of this experiment revealed that people preferred the more pseudo-rewarding option even when this implied a reduction in the final global reward. In the second study, EEG was recorded from twenty-four healthy subjects who participated in a version of the two-step task used in the experiment 2 of Study 1. In particular, in this task, the probability of final reward decreased for the most-selected option (usually the one that provided more pseudo-rewards, as shown in study 1). Three different reinforcement learning approaches were used to model the behavioural data, and their results were used to study the oscillatory activity associated with reward and pseudo-reward prediction errors. Results showed that frontal theta oscillatory was associated with both reward and pseudo-reward prediction errors. Finally, in the third study, we examined the role of the Ventral Striatum in reward- and pseudo-reward prediction errors during decision-making in sub-optimal settings. Nineteen university students participated in a functional Magnetic Resonance study performing a modified version of the two-step monetary task. Results showed that Ventral Striatum was involved in the computation of the prediction errors of feedbacks and pseudo-feedbacks and that the preference for the most pseudo-rewarding option was related to the activity of this area with pseudo-reward prediction errors. Overall, the three studies showed that the attainment of sub-goals is reinforcing and might bias decisions towards sub-optimal choices. In addition, we have demonstrated the critical involvement of the reward network (ventral striatum) and the theta oscillatory activity in hierarchical reinforcement learning.


[spa] Nuestras acciones cotidianas son secuenciales y están encadenadas para lograr objetivos. Como estrategia de adaptación, nuestras tareas se dividen y organizan en etapas que conducen a un objetivo final, el cual se consigue alcanzando metas secundarias progresivas. En este contexto, la creación de jerarquías comportamentales permite agilizar la toma de decisiones cada vez que se debe seleccionar una acción. Investigaciones anteriores han demostrado que las personas eligen alternativas con pseudo-recompensas más altas para lograr una meta secundaria. Como estrategia conductual para reducir la complejidad, los individuos descomponen las rutinas en pasos más simples y la finalización de tales estados intermedios es gratificante en sí mismo. Por lo tanto, los subobjetivos se establecen de forma jerárquica y su consecución actúa como pseudo-retroalimentación, lo cual impulsa el aprendizaje e influye en la toma de decisiones. Aún así, esta notable preferencia por los estímulos predictivos de pseudo-recompensa no se ha dilucidado como un factor potencial involucrado en el comportamiento de elección subóptimo.El objetivo de la presente tesis es investigar los correlatos conductuales y neuronales del procesamiento de pseudo-feedback en decisiones subóptimas. Para alcanzar este objetivo, se presentan tres estudios. En el primer estudio de comportamiento, 226 estudiantes universitarios participaron en dos experimentos para probar la hipótesis de que las pseudo recompensas sesgan las decisiones. La tarea constaba de dos alternativas, presentadas como dos formas que se asociaban con diferentes probabilidades de obtener pseudo-recompensas. Los resultados de este experimento revelaron que las personas preferían la opción con más pseudo-recompensa incluso cuando esto implicaba una reducción en la recompensa final global. En el segundo estudio, se registró EEG de veinticuatro sujetos sanos que participaron en una versión de la tarea de dos pasos utilizada en el experimento 2 del Estudio 1. En particular, en esta tarea, la probabilidad de recompensa final disminuyó para la opción más seleccionada (generalmente la que proporcionó más pseudo-recompensas, como se muestra en el estudio 1). Se utilizaron tres modelos de aprendizaje por refuerzo diferentes para explicar los datos comportamentales y sus resultados se usaron para estudiar la actividad oscilatoria asociada con errores de predicción de recompensas y pseudo-recompensas. Los resultados mostraron que la oscilación theta frontal se asoció con errores de predicción de recompensa y pseudo-recompensa. Finalmente, en el tercer estudio, examinamos el papel del Estriado Ventral en los errores de predicción de recompensas y pseudo-recompensas durante la toma de decisiones en entornos subóptimos. Diecinueve estudiantes universitarios participaron en un estudio de Resonancia Magnética funcional realizando una versión modificada de la tarea monetaria de dos pasos. Los resultados mostraron que dicha estructura estuvo involucrado en el cálculo de los errores de predicción de feedbacks y pseudo-feedbacks, y que la preferencia por la opción que ofrecía más pseudo-recompensa estaba relacionada con la actividad de esta área con errores de predicción de pseudo-recompensa. En general, los tres estudios mostraron que el logro de los subobjetivos es un refuerzo y podría sesgar las decisiones hacia elecciones subóptimas. Además, hemos demostrado la participación crítica de la red de recompensas (en particular, el estriado ventral) y la actividad oscilatoria theta en el aprendizaje por refuerzo jerárquico.

Keywords

Presa de decisions; Toma de decisiones; Decision making; Objectiu (Psicologia); Objetivo (Psicología); Goal (Psychology); Aprenentatge cognitiu; Aprendizaje cognitivo; Cognitive learning

Subjects

159.9 - Psychology

Knowledge Area

Ciències de la Salut

Note

Programa de Doctorat en Cervell, Cognició i Conducta

Documents

JPT_PhD_THESIS.pdf

9.764Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)