Distributed large scale systems : a multi-agent RL-MPC architecture

Author

Javalera Rincón, Valeria

Director

Puig Cayuela, Vicenç

Codirector

Morcego Seix, Bernardo

Date of defense

2016-04-07

Pages

117 p.



Department/Institute

Universitat Politècnica de Catalunya. Institut d'Organització i Control de Sistemes Industrials

Abstract

This thesis describes a methodology to deal with the interaction between MPC controllers in a distributed MPC architecture. This approach combines ideas from Distributed Artificial Intelligence (DAI) and Reinforcement Learning (RL) in order to provide a controller interaction based on cooperative agents and learning techniques. The aim of this methodology is to provide a general structure to perform optimal control in networked distributed environments, where multiple dependencies between subsystems are found. Those dependencies or connections often correspond to control variables. In that case, the distributed control has to be consistent in both subsystems. One of the main new concepts of this architecture is the negotiator agent. Negotiator agents interact with MPC agents to determine the optimal value of the shared control variables in a cooperative way using learning techniques (RL). The optimal value of those shared control variables has to accomplish a common goal, probably different from the specific goal of each agent sharing the variable. Two cases of study, in which the proposed architecture is applied and tested are considered, a small water distribution network and the Barcelona water network. The results suggest this approach is a promising strategy when centralized control is not a reasonable choice.


Esta tesis describe una metodología para hacer frente a la interacción entre controladores MPC en una arquitectura MPC distribuida. Este enfoque combina las ideas de Inteligencia Artificial Distribuida (DIA) y aprendizaje por refuerzo (RL) con el fin de proporcionar una interacción entre controladores basado en agentes de cooperativos y técnicas de aprendizaje. El objetivo de esta metodología es proporcionar una estructura general para llevar a cabo un control óptimo en entornos de redes distribuidas, donde se encuentran varias dependencias entre subsistemas. Esas dependencias o conexiones corresponden a menudo a variables de control. En ese caso, el control distribuido tiene que ser coherente en ambos subsistemas. Uno de los principales conceptos novedosos de esta arquitectura es el agente negociador. Los agentes negociadores actúan junto con agentes MPC para determinar el valor óptimo de las variables de control compartidas de forma cooperativa utilizando técnicas de aprendizaje (RL). El valor óptimo de esas variables compartidas debe lograr un objetivo común, probablemente diferente de los objetivos específicos de cada agente que está compartiendo la variable. Se consideran dos casos de estudio, en el que la arquitectura propuesta se ha aplicado y probado, una pequeña red de distribución de agua y la red de agua de Barcelona. Los resultados sugieren que este enfoque es una estrategia prometedora cuando el control centralizado no es una opción razonable.

Subjects

68 - Industries, crafts and trades for finished or assembled articles

Knowledge Area

Àrees temàtiques de la UPC::Informàtica

Documents

TVJR1de1.pdf

2.612Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)