Representation learning for hierarchical reinforcement learning

Autor/a

Steccanella, Lorenzo ORCID

Director/a

Jonsson, Anders

Fecha de defensa

2023-05-19

Páginas

127 p.



Departamento/Instituto

Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions

Programa de doctorado

Programa de Doctorat en Tecnologies de la Informació i les Comunicacions

Resumen

Hierarchical Reinforcement Learning (HRL) has the potential to simplify the solution of environments with long horizons and sparse rewards. The idea behind HRL is to decompose a complex decision-making problem into smaller, manageable sub-problems, allowing an agent to learn more efficiently and effectively. In this thesis, we aim to contribute to the field of HRL through the study of state space partition representations. We aim to discover representations that allow decomposing a complex state space in a set of small interconnected partitions. We start our work by presenting which are the properties of ideal state space partitions for HRL and then proceed to explore different methods for creating such partitions. We present algorithms able to leverage such representations to learn more effectively in sparse reward settings. Finally, we show how to combine the learned representation with Goal-Conditioned Reinforcement Learning (GCRL) and additionally we present state representations useful for GCRL.


El método Hiearchical Reinforcement Learning (HRL) tiene el potencial de simplificar la solución de entornos con escasas recompensas y horizontes a largo plazo. La idea detrás de HRL es descomponer un problema complejo de toma de decisiones en subproblemas más pequeños y manejables, lo que permite que un agente aprenda de manera más eficiente y efectiva. En esta tesis, pretendemos contribuir al campo del HRL a través del estudio de las representaciones de partición del espacio de estado. Nuestro objetivo es descubrir representaciones que permitan descomponer un espacio de estado complejo en un conjunto de particiones interconectadas. Comenzamos nuestro trabajo presentando cuáles son las propiedades de las particiones de espacio de estado ideales para HRL y luego procedemos a explorar diferentes métodos para crear dichas particiones. Presentamos algoritmos capaces de aprovechar tales representaciones para aprender de manera más efectiva en entornos de escasa recompensa. Finalmente, mostramos cómo combinar la representación aprendida con el método Goal-Conditioned Reinforcement Learning (GCRL) y, adicionalmente, presentamos representaciones de estado útiles para GCRL.

Palabras clave

Reinforcement learning; Hierarchical reinforcement learning; Goal-conditioned reinforcement learning; Representation learning; Options learning; Reward shaping; Sparse-reward environments

Materias

33 - Economía

Documentos

tls.pdf

7.341Mb

 

Derechos

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/

Este ítem aparece en la(s) siguiente(s) colección(ones)