51
Cadenas de Markov controladas: Robustez distribucional y aplicaciones al control de posici´ on de un drone de 4 h´ elices Cristhian Camilo S´ anchez fino Universidad de los Andes Facultad de Ciencias, Departamento de Matem´ aticas Bogot´ a, Colombia 2019

Cadenas de Markov controladas: Robustez distribucional y

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Cadenas de Markov controladas: Robustez distribucional y

Cadenas de Markov controladas:Robustez distribucional y aplicacionesal control de posicion de un drone de

4 helices

Cristhian Camilo Sanchez fino

Universidad de los Andes

Facultad de Ciencias, Departamento de Matematicas

Bogota, Colombia

2019

Page 2: Cadenas de Markov controladas: Robustez distribucional y

Cadenas de Markov controladas:Robustez distribucional y aplicacionesal control de posicion de un drone de

4 helices

Cristhian Camilo Sanchez Fino

Trabajo de grado presentado como requisito para optar al tıtulo de:

Matematico

Director(a):

Mauricio Jose Junca Ph.D. Industrial engineering and operations research

Universidad de los Andes

Facultad de Ciencias, Departamento de Matematicas

Bogota, Colombia

2019

Page 3: Cadenas de Markov controladas: Robustez distribucional y

A mi familia

Page 4: Cadenas de Markov controladas: Robustez distribucional y

Agradecimientos

Agradezco profundamente al profesor Mauricio Junca, profesor asociado del departamento

de Matematicas de la Universidad de los Andes por su paciencia y apoyo en la comprension

de la teorıa involucrada y en la elaboracion de este proyecto. Tambien agradezco al profesor

Luis Felipe Giraldo, profesor asistente del departamento de Ingenierıa Electrica y Electroni-

ca, por su asesoramiento en la implementacion de este proyecto en un entorno de control.

Page 5: Cadenas de Markov controladas: Robustez distribucional y

v

Resumen

En el presente documento, se estudia el concepto de procesos de decision de Markov dentro de

un contexto de optimizacion y de control. Por un lado, se estudian problemas de optimizacion

estocastica. En particular, se estudian problemas de optimizacion robusta distribucional, en

los cuales se asume que la verdadera distribucion de la variable aleatoria involucrada subyace

en un conjunto conocido, denominado conjunto de ambiguedad. En este trabajo, se consi-

dera la estructura del conjunto de ambiguedad a partir de la metrica de Wasserstein en el

espacio de medidas de probabilidad. A partir de resultados de la optimizacion convexa, se

estudia el problema de optimizacion en concreto y su formulacion dual a partir del principio

de dualidad de Kantorovich. Ası, a partir de un enfoque centrado en los datos de muestreo,

se logra obtener un problema tratable que se puede resolver numericamente. Paralelamente,

se estudia la implementacion de la estructura de los procesos de decision de Markov de ho-

rizonte finito enmarcados en el contexto de control del vuelo de un drone de 4 helices.

Palabras clave: Optimizacion, probabilidad, distribuciones de probabilidad, procesos

de decision de Markov, Wasserstein.

Abstract

In this work, the Markov Decision Processes are studied from two different perspectives.

On one side, Stocastic Optimization problems are studied. Particularly, Distributionally ro-

bust optimization problems are studied, in which the real probability distribution of the

random variable is assumed to be part of a known set, which is called the ambiguity set. In

this work, the ambiguity set is defined by the Wasserstein metric on the probability measures

space. Based on the some results of convex optimization, the concrete optimization problem

is studied and its’ dual formulation based on the Kantorovich duality principle. Therefore,

from a data driven approach, a tractable version of the problem is achieved. Paralelly,the

finite horizon Markov Decision processes’ implementation is studied in the context of flight

control of a quadrotor drone.

Keywords: Optimization, probability, probability distributions, Markov decision pro-

cesses , Wasserstein.

Page 6: Cadenas de Markov controladas: Robustez distribucional y

Contenido

Agradecimientos IV

Resumen V

1 Introduccion 22 Preliminares 4

2.1 Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.1.1 Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 Resultados relevantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Procesos de decision de Markov(MDP) 9

3.1 Epocas de decision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.2 Conjunto de estados y acciones . . . . . . . . . . . . . . . . . . . . . . . . . 93.3 Recompensas y probabilidades de transicion . . . . . . . . . . . . . . . . . . 103.4 MDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.5 Reglas de decision markovianas . . . . . . . . . . . . . . . . . . . . . . . . . 103.6 Polıticas markovianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113.7 Procesos estocasticos inducidos . . . . . . . . . . . . . . . . . . . . . . . . . 113.8 MDPs de horizonte finito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.8.1 Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.8.2 Criterio de recompensa total esperada . . . . . . . . . . . . . . . . . 133.8.3 Ecuaciones de optimalidad . . . . . . . . . . . . . . . . . . . . . . . . 133.8.4 Optimalidad de polıticas markovianas determinısticas . . . . . . . . . 163.8.5 Algoritmo de induccion hacia atras . . . . . . . . . . . . . . . . . . . 18

4 Optimizacion convexa aplicada a MDPs distribucionalmente robustos usando

la metrica de Wasserstein 194.1 Robustez distribucional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.1.1 Notacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194.1.2 Proceso de decision de Markov distribucionalmente robustos . . . . . 194.1.3 Conjuntos ambiguos con metrica de Wasserstein . . . . . . . . . . . . 20

4.2 Optimalidad de polıticas Markovianas . . . . . . . . . . . . . . . . . . . . . . 214.3 Formulacion convexa usando dualidad de Kantorovich . . . . . . . . . . . . . 234.4 Distribucion nominal con soporte finito . . . . . . . . . . . . . . . . . . . . . 264.5 Construccion descentralizada de distribucion en el peor caso . . . . . . . . . 29

5 Aplicacion de MDPs al control de posicion de un drone de 4 helices 315.1 Modelo del drone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.1.1 Arquitectura del modelo . . . . . . . . . . . . . . . . . . . . . . . . . 315.1.2 Parametros de simulacion . . . . . . . . . . . . . . . . . . . . . . . . 33

5.2 Modelo del controlador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345.2.1 Definicion de estados y acciones . . . . . . . . . . . . . . . . . . . . . 345.2.2 Definicion de matriz de probabilidad de transicion . . . . . . . . . . . 365.2.3 Definicion de funciones de recompensa . . . . . . . . . . . . . . . . . 365.2.4 Definicion de polıtica de control . . . . . . . . . . . . . . . . . . . . . 36

5.3 Caso de estudio: Seguimiento de trayectoria con MDP de horizonte finito . . 365.3.1 Descripcion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.3.2 Funciones de recompensa . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375.4.1 Analisis de sensibilidad ante la matriz de perturbaciones . . . . . . . 385.4.2 Analisis de sensibilidad ante el tipo de perturbacion . . . . . . . . . . 40

6 Conclusiones y trabajo futuro 416.1 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Page 7: Cadenas de Markov controladas: Robustez distribucional y

Contenido 1

6.2 Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41A Optimizacion estocastica distribucionalmente robusta usando la metrica de

Wasserstein 43Bibliografıa 45

Page 8: Cadenas de Markov controladas: Robustez distribucional y

1. Introduccion

El presente documento busca comprender los procesos de decision de Markov en distintos

contextos. Los procesos de decision de Markov (MDPs) son una herramienta util para el

modelamiento de toma de decisiones secuenciales, en donde se consideran problemas del

estilo

supπ∈D

Eπ[Ψ(x, ζ)]

en donde la funcion Ψ(x, ζ) corresponde a una funcion que puede representar costos, utili-

dades o recompensas en las que incurre el agente que toma decisiones a lo largo del tiempo,

x las realizaciones de estados y acciones del sistema, ζ es un vector que contiene la infor-

macion de las probabilidades de transicion del sistema y π corresponde a una polıtica que

determina la manera en la que se toman decisiones y cuya estructura esta determinada por

el conjunto D. La principal motivacion para el estudio de los procesos de decision de Markov

es determinar la estructura de las polıticas optimas. Sin embargo, dada la estructura de los

MDPs, la resolucion de este tipo de problemas esta sujeta a la estructura de las probabilida-

des de transicion entre estados, y de las recompensas, que rigen la evolucion del sistema y las

acciones tomadas a lo largo del tiempo. En la gran mayorıa de aplicaciones, no se tiene una

informacion concreta de las probabilidades y las recompensas que rigen el sistema, por esto,

considere a ζ como un vector aleatorio en Rn para algun n adecuado, en el que sus entradas

corresponden a las probabilidades de transicion y las recompensas que rigen el sistema y

considere µ la distribucion de probabilidad de ζ. Entonces, se consideran problemas de la

forma

supπ∈Π

ınfµ∈D

Eπµ[Ψ(x, ζ)]

que se relaciona con los problemas robustos de optimizacion estocastica. En este caso, se

asume que la probabilidad conjunta de las funciones de probabilidad y de recompensas se

encuentran en un conjunto conocido Dde distribuciones de probabilidad. Segun la estructura

del conjunto D el problema adquiere ciertas propiedades que facilitan o dificultan su reso-

lucion. En este caso, varios metodos de rectangularidad han sido propuestos en [5], [4], [8]

para dar una estructura al conjunto D. Para el desarrollo de este trabajo, se quiere estudiar

cuando el conjunto D tiene una estructura derivada de la metrica de Wasserstein.

Finalmente, para comprender la utilidad de los MDPs, se quiere estudiar su aplicacion en el

contexto del vuelo de un drone de 4 helices a manera de motivacion para ilustrar la necesidad

Page 9: Cadenas de Markov controladas: Robustez distribucional y

3

de la implementacion de los metodos robustos.

El documento sigue la siguiente estructura: el capıtulo 2 introduce algunos conceptos y

resultados basicos de la teorıa de la optimizacion convexa que seran utilizados a lo largo

del documento. El capıtulo 3 introduce los principales conceptos y resultados de los MDPs

de horizonte finito. El capıtulo 4 introduce los resultados principales en cuanto al enfoque

de optimizacion convexa a los MDPs distribucionalmente robustos a partir de la metrica de

Wasserstein. Finalmente, el capıtulo 5 ilustra la aplicacion de conceptos y resultados de los

MDPs de horizonte finito al contexto de control de vuelo de un drone de 4 helices.

Page 10: Cadenas de Markov controladas: Robustez distribucional y

2. Preliminares

La presente seccion busca introducir algunos conceptos basicos de la optimizacion convexa

y alguna resultados relevantes para el desarrollo del proyecto de grado.

2.1. Definiciones

En esta seccion de introduciran definiciones relevantes para el desarrollo del proyecto.

2.1.1. Definiciones

Sea X ⊆ Rm para m ∈ N+. Sea f : X → R, donde R = R ∪ ∞,−∞

Definicion 2.1. f es una funcion cerrada si el conjunto

epi(f) := (x, y)|x ∈ X, y ∈ R, f(x) ≤ y

es cerrado en Rm+1.

Definicion 2.2. f es una funcion propia si f(x) <∞ para al menos un x ∈ X y ∀xf(x) >

−∞.

Definicion 2.3. f es una funcion convexa si para x1, x2 ∈ X, t ∈ [0, 1] se cumple que

f(tx1 + (1− t)x2) ≤ tf(x1) + (1− t)f(x2).

Definicion 2.4. f es una funcion concava si −f es una funcion convexa.

Definicion 2.5. f es una funcion inferiormente semicontinua en x si para toda su-

cesion xk ⊂ X y xk → x se cumple que

f(x) ≤ lım infk→∞

f(xk).

Se dice que f es inferiormente semicontinua en X si es inferiormente semicontinua para

todo x ∈ X.

Definicion 2.6. f es una funcion superiormente semicontinua si −f es inferiormente

semicontinua.

Page 11: Cadenas de Markov controladas: Robustez distribucional y

2.2 Resultados relevantes 5

Observacion 2.1. Note que, por la definicion de funciones inferiormente y superiormen-

te semicontinua, se sigue que f es una funcion continua, sı y solo sı f es inferiormente

semicontinua y superiormente semicontinua.

Definicion 2.7. f es una funcion coerciva si para cada secuencia xk tal que ||xk|| → ∞entonces lım

k→∞f(xk) =∞

2.2. Resultados relevantes

Esta seccion introduce resultados relevantes para el desarrollo del presente documento.

Proposicion 2.1. Sea A un conjunto finito. Se define el conjunto

∆(A) :=

x ∈ R|A||xi ∈ [0, 1],

|A|∑i=1

xi = 1

.

Entonces ∆(A)1 es un conjunto cerrado, convexo y acotado.

Demostracion. Cerrado:

Sea f : R|A| → R tal que f(x) =|A|∑i=1

xi. Entonces ∆(A) = f−1(1). El conjunto 1 es

cerrado en R. Luego, basta mostrar que f es una funcion continua, pues ası ∆(A) serıa

cerrado al ser preimagen de un conjunto cerrado. Para esto, note que para ε > 0 se tiene

que para x, y ∈ R|A|

||x− y||2 < δ ⇒|A|∑i=1

(xi − yi)2 < δ2 ⇒ ∀i ∈ 1, 2, . . . , |A| |xi − yi| < δ.

Luego,

|f(x)− f(y)| =

∣∣∣∣∣∣|A|∑i=1

xi −|A|∑i=1

yi

∣∣∣∣∣∣ =

∣∣∣∣∣∣|A|∑i=1

(xi − yi)

∣∣∣∣∣∣ ≤|A|∑i=1

|xi − yi| ≤ |A|δ2.

Entonces, tomando δ =√

ε|A| se obtiene que f es continua.

Convexo:

Sean x, y ∈ ∆(A), t ∈ [0, 1]. Luego,

|A|∑i=1

txi + (1− t)yi = t

|A|∑i=1

xi + (1− t)|A|∑i=1

yi = t · 1 + (1− t) · 1 = 1.

1El conjunto ∆(A) corresponde al simplex de probabilidad sobre el conjunto A

Page 12: Cadenas de Markov controladas: Robustez distribucional y

6 2 Preliminares

Entonces, tx+ (1− t)y ∈ ∆(A). Es decir, ∆(A) es un conjunto convexo.

Acotado:

Note que ∀x ∈ ∆(A) se tiene que ∀i = 1, . . . , |A| xi ≤ 1. Entonces,

|A|∑i=1

x2i ≤

|A|∑i=1

1 = |A| < |A|+ 1.

Luego x ∈ B√|A|+1(0), donde B√|A|+1

(0) es la bola abierta de radio√|A|+ 1 centrada en 0.

Es decir, ∆(A) es un conjunto acotado.

A manera de referencia, se enuncian los siguientes resultados del analisis real.

Proposicion 2.2. Sean f, g : X → R funciones con valores reales. Entonces

ınfx∈X

f(x) + ınfx∈X

g(x) ≤ ınfx∈X

f(x) + g(x).

Proposicion 2.3. Sea f : X → R una funcion y sean A ⊂ B ⊆ X. Entonces,

ınfx∈A

f(x) ≥ ınfx∈B

f(x).

Proposicion 2.4 (Proposicion 1.1.2 en [1]). Sea f : Rn → R una funcion propia. Entonces

los siguientes son equivalentes:

(i) El conjunto de nivel Vγ := x|f(x) ≤ γ es cerrado.

(ii) f es inferiormente semicontinua.

(iii) f es cerrada.

Proposicion 2.5 (Teorema de Weierstrass). [Proposicion 3.2.1 en [1]] Sea f : Rn ⊃ D → R,

donde D es el dominio de f y asuma que alguna de las siguientes condiciones se cumple:

1. El dominio de f es acotado

2. Existe un escalar γ tal que el conjunto de nivel

x|f(x) ≤ γ

es un acotado y no vacıo

3. f es una funcion coerciva

Page 13: Cadenas de Markov controladas: Robustez distribucional y

2.2 Resultados relevantes 7

Entonces el conjunto de mınimos de f sobre D es compacto y no vacıo.

En particular para X ⊂ Rn acotado y la funcion f definida por

f(x) =

f(x) si x ∈ X ∩D,∞ en caso contrario.

Entonces, El conjunto de mınimos de f sobre X ∩ D es no vacıo y compacto si X es un

conjunto cerrado y f una funcion inferiormente semicontinua en X.

Observacion 2.2. Note que en la proposicion anterior, al tomarse

f(x) =

f(x) si x ∈ X,−∞ en caso contrario,

si la funcion f es superiormente semicontinua y el conjunto X es cerrado, entonces el con-

junto maximos de f sobre X es no vacıo y compacto.

Proposicion 2.6. Sea I un conjunto de ındices y fii∈I , fi : X → R una familia de

funciones inferiormente semicontinuas. Entonces, la funcion

f(x) = supi∈I

fi(x)

es inferiormente semicontinua.

Demostracion. Sea x ∈ X y xkk∈N un sucesion de puntos que converge a x. Note que para

todo i ∈ I, al tenerse que fi es una funcion inferiormente semicontinua, se cumple que

fi(x) ≤ lım infk→∞

fi(xk).

Tomando el supremo sobre I a ambos lados de la desigualdad, se tiene que

supi∈I

fi(x) ≤ supi∈I

lım infk→∞

fi(xk). (2-1)

Por otro lado, sea n ∈ N+. Entonces, para todo k ≥ n, i ∈ I se cumple que

fi(xk) ≤ supi∈I

fi(xk).

Tomando el ınfimo sobre el conjunto k ≥ n a ambos lados de la desigualdad se tiene que

ınfk≥n

fi(xk) ≤ ınfk≥n

supi∈I

fi(xk).

Tomando el supremo sobre el conjunto n ≥ 0 a ambos lados de la desigualdad se tiene que

lım infk→∞

fi(xk) = supn≥0

ınfk≥n

fi(xk) ≤ supn≥0

ınfk≥n

supi∈I

fi(xk)

= lım infk→∞

supi∈I

fi(xk) = lım infk→∞

f(xk).(2-2)

Combinando las desigualdades (2-1), (2-2) se obtiene que

f(x) ≤ lım infk→∞

f(xk),

con lo cual se sigue el resultado.

Page 14: Cadenas de Markov controladas: Robustez distribucional y

8 2 Preliminares

Observacion 2.3. Note que la proposicon 2.6 es analoga a que si la familia fii∈I es

superiormente semicontinua entonces la funcion definida por

f(x) = ınfi∈I

fi(x)

es una funcion superiormente semicontinua.

Page 15: Cadenas de Markov controladas: Robustez distribucional y

3. Procesos de decision de

Markov(MDP)

El presente capıtulo introduce los procesos de decision de Markov, a partir de lo expuesto

en [6].Los procesos de decision de Markov modelan la toma de decisiones secuenciales de un

agente bajo condiciones inciertas. Estos se componen de cinco elementos: epocas de decision,

estados, acciones, probabilidades de transicion y recompensas. Cada elemento se describe a

continuacion, para luego dar una definicion formal de un proceso de decision de Markov

3.1. Epocas de decision

El conjuntgo de las epocas de decision es un conjunto T ⊂ R+ que se piensa los tiempos

en los cuales ocurre la toma de decisiones. Este conjunto puede ser discreto o un continuo,

al igual que un conjunto finito o infinito.

Los perıodos o etapas son el tiempo que transcurre entre epocas de decision en problemas

de tiempo discreto.

Si T es un conjunto discreto y |T | = N < ∞ se denomina un problema de horizonte

finito. En caso contrario, se denomina un problema de horizonte infinito.1

Observacion 3.1. Por convencion, en problemas de horizonte finito, no se toman decisiones

en la epoca de decision N , sino que dicha epoca se incluye unicamente para evaluar el estado

final del sistema.

3.2. Conjunto de estados y acciones

Sea S el conjunto de estados posibles del sistema. Ası mismo, considere el conjunto St co-

mo el conjunto de todos los estados posibles en el tiempo t, para el cual se cumple que St ⊆ S.

Sea As el conjunto de acciones disponibles para el agente al estar en el estado s. Sea

A :=⋃s∈S

As el conjunto de acciones disponibles para el agente.

1Para este trabajo, solo se consideran MDPs de horizonte finito.

Page 16: Cadenas de Markov controladas: Robustez distribucional y

10 3 Procesos de decision de Markov(MDP)

Observacion 3.2. En este caso, se asume que S, As no varıan con t ∈ T . Para el desarrollo

de este trabajo se asume que S y As son conjuntos discretos y finitos.

Una accion a es escogida aleatoriamente si existe una distribucion de probabilidad

q(·) ∈ P(A)2 tal que la probabilidad de escoger la accion a esta dada por q(a).

Observacion 3.3. Las acciones pueden tomarse de manera aleatoria o determinıstica. En

este caso, una accion determinıstica corresponde a una distribucion de probabilidad degene-

rada. Es decir, la probabilidad de tomar una accion determinıstica es igual a 1.

3.3. Recompensas y probabilidades de transicion

Definicion 3.1. Una funcion de recompensa es una funcion rt : S × As → R tal que

r(s, a) representa la recompensa recibida por el agente al estar en el estado s en el tiempo

t y tomar la accion a. En algunas ocasiones, la funcion de recompensa puede ser definida

como rt : S × As × S → R en donde rt(s, a, j) representa la recompensa obtenida por estar

en el estado s en el tiempo t, tomar la accion a y llegar al estado j.

Definicion 3.2. Una probabilidad de transicion es una distribucion de probabilidad

pt(·, s, a) ∈ P(S) tal que pt(j, s, a) = pt(j|s, a) representa la probabilidad de llegar al estado

j dado que se esta en el estado s en el tiempo t y se toma la accion a.

Observacion 3.4. Dado que en los MDPs de horizonte finito no se toma una decision en la

ultima epoca, la recompensa para t = N esta dada por una funcion rt : S → R donde rN(s)

representa la recompensa recibida dado que el estado final del sistema es s.

3.4. MDP

Definicion 3.3. La tupla T,S,A, pt(·|s, a), rt(s, a) es un proceso de decision de Mar-

kov (MDP).

3.5. Reglas de decision markovianas

Definicion 3.4. Una regla de decision markoviana determinıstica es una aplicacion dt : S→A en donde, ∀s ∈ S dt(s) ∈ As. Se entiende que dt(s) es la accion tomada dado que se esta

en el estado s en el tiempo t. Sea DMDt el conjunto de todas las polıticas markovianas deter-

minısticas en el tiempo t y DMD =⋃t∈T

DMDt el conjunto de todas las polıticas markovianas

determinısticas del MDP.

2P(X) es la coleccion de distribuciones de probabilidad sobre subconjuntos borelianos de X

Page 17: Cadenas de Markov controladas: Robustez distribucional y

3.6 Polıticas markovianas 11

Definicion 3.5. Una regla de decision markoviana aleatoria es una aplicacion dt : S →P(A), se tiene que ∀s ∈ S dt(s) = q(·) ∈ P(As). Es decir, la regla determina un distribucion

de probabilidad sobre el conjunto de acciones As dado que se esta en el estado s en el tiempo

t. La distribucion de probabilidad definida esta dada por qdt(s)(·). Sea DMAt el conjunto de

todas las polıticas markovianas aleatorias en el tiempo t DMA =⋃t∈T

DMAt el conjunto de todas

las polıticas markovianas aleatorias del MDP.

3.6. Polıticas markovianas

Definicion 3.6. La tupla π = (d1, d2, . . . , dN−1) es una polıtica markoviana, si para todo

t dt ∈ DMAt o dt ∈ DMD

t . Es decir, en el tiempo t se utiliza la regla de decision dt. Sea

ΠK = DK1 × · · · ×DK

N−1 el conjunto de polıticas del tipo K, donde K es MA si son polıticas

markovianas aleatorias o MD si son polıticas markovianas determinısticas.

Definicion 3.7. Una polıtica estacionaria es aquella polıtica π tal que para ∀i di = d

para algun d ∈ DK, donde K se define como en la definicion 3.6

3.7. Procesos estocasticos inducidos

Para construir un modelo de probabilidad, se considera el siguiente conjunto para el caso de

horizonte finito

Ω = S× AN−1 × S.

Note que como S y A son conjuntos finitos, entonces Ω es un conjunto finito. Sea B(Ω) el

conjunto de conjuntos borelianos sobre Ω, que al ser un conjunto finito es el conjunto de

subconjuntos de Ω. Un elemento ω ∈ Ω es de la forma

ω = (s1, a1, s2, a2, . . . , aN−1, sN).

Note que ω describe los estados ocupados por el sistema y las acciones tomadas en cada una

de las epocas de decision y recibe el nombre de camino de muestreo. Para toda epoca de

decision t se definen las variables aleatorias Xt : Ω→ S, Yt : Ω→ A respectivamente por

Xt(ω) = st y Yt(ω) = at.

Ası mismo, se define la historia del proceso Zt para la epoca decision t por

Z1(ω) = s1 y Zt(ω) = (s1, a1, . . . , st).

Sea ht = (s1, a1, . . . , st−1, at−1, st) la historia hasta el tiempo t. Sea P1(·) la distribucion de

probabilidad que denota la distribucion inicial de los estados del sistema (i.e el sistema co-

mienza en el estado s con probabilidad P1(s)). Una polıtica markoviana π = (d1, d2, . . . dN−1)

Page 18: Cadenas de Markov controladas: Robustez distribucional y

12 3 Procesos de decision de Markov(MDP)

induce una medida de probabilidad P π en el espacio medible (Ω, B(ω)) de la siguiente manera

P πX1 = s = P1(s),

P πYt = a|Zt = ht = P πYt = a|Xt = st = qdt(st)(a),

P πXt+1 = s|Zt = (ht−1, at−1, st), Yt = at = pt(s|st, at).

Luego, la probabilidad de un camino de muestreo ω = (s1, a1, s2, . . . , sN) esta dado por

P π(s1, a1, s2, . . . , sN) = P1(s1)qd1(s1)(a1)p1(s2|s1, a1) · · · p(sN |sN−1, aN−1).

A partir de esto, las probabilidades condicionales se calculan de la siguiente manera:

P π(at, st+1, . . . , sN |s1, a1, . . . , st) =P π(s1, a1, . . . , sN)

P π(s1, a1, . . . , st)

dado que la cantidad del denominador no es cero. En caso contrario, la probabilidad es cero.

3.8. MDPs de horizonte finito

3.8.1. Preliminares

Procesos estocasticos inducidos sobre las recompensas

Definicion 3.8. Sea ht = (s1, a1, s2, as, . . . , st−1, at−1, st) una historia hasta el tiempo t

y sea el conjunto Ht = S×A× S× · · · ×A× S el conjunto de todas las historias de acciones

y estados anteriores al tiempo t. Una regla de decision aleatoria dependiente de la

historia es una aplicacion dt : Ht → P(As).

Sea π(d1, d2, . . . , dN−1) una polıtica aleatoria que depende de la historia (i.e sus reglas depen-

den de la historia y son aleatorias). Esta polıtica induce una medida de probabilidad P π(·)sobre el espacio HN . Para cada hN = (s1, a1, . . . , sn) existe una sucesion correspondiente de

recompensas r1(s1, a1), r2(s2, a2), . . . , rN(sN). Sea Rt = rt(Xt, Yt) la recompensa aleatoria

recibida en el tiempo t < N y RN = rN(XN) la recompensa final. Sea R = (R1, R2, . . . , RN)

una secuencia de recompensas aleatorias y sea R el conjunto de todas las posibles secuencias

aleatorias con valores en R. La polıtica π induce una medida de probabilidad P πR(·) sobre el

espacio medible (R, B(R)) dada por

P πR(ρ1, . . . , ρN) = P π[(s1, a1, . . . , sN) : (r1(s1, a1), . . . , rN(sN)) = (ρ1, . . . , ρN))]

Sea ψ : R → R una funcion de utilidad. Es decir, si ψ(R1) > ψ(R2) se tiene que el agente

que toma decisiones prefiere R1. Si ψ(R1) = ψ(R2), entonces la preferencia del agente es

indiferente ante R1 y R2. Segun esto, la utilidad total esperada por la polıtica π esta dada

por

Eπ(ψ(R)) =∑

(ρ1,...,ρN )∈R

ψ(ρ1, . . . , ρN)P πR(ρ1, . . . , ρN).

Page 19: Cadenas de Markov controladas: Robustez distribucional y

3.8 MDPs de horizonte finito 13

Dada una polıtica ν, bajo el criterio de utilidad esperada el agente prefiere la polıtica π sobre

ν si

Eπ(ψ(R)) > Eν(ψ(R)).

En caso de igualdad, las polıticas son equivalentes.

3.8.2. Criterio de recompensa total esperada

Sea vπN(s) la recompensa total esperada sobre el horizonte de decision si la polıtica π es

utilizada y s1 = s. Para una polıtica π aleatoria y dependiente de la historia se tiene que

vπN(s) = EπN−1∑t=1

rt(Xt, Yt) + rN(XN)

.

Note que dada una cadena de recompensas (ρ1, . . . , ρN) ∈ R, la expresion anterior corres-

ponde a la funcion ψ(ρ1, . . . , ρN) =N∑i=1

ρi. Si |rt(s, a)| ≤ M <∞ para (s, a) ∈ S× A, t ≤ N

y S,A discretos, entonces vπN(s) existe y es acotado para toda π aleatoria dependiente de la

historia.

3.8.3. Ecuaciones de optimalidad

El objetivo de la teorıa de procesos de decision de Markov es encontrar una polıtica aleatoria

dependiente de la historia optima π∗ tal que para todo s ∈ S se tenga que

vπ∗

N (s) ≥ vπN(s)

para cualquier polıtica π aleatoria dependiente de la historia.

Definicion 3.9. Sea ΠHA,ΠHD los conjuntos de polıticas aleatorias dependientes de la his-

toria y polıticas determinısticas dependientes de la historia, respectivamente. El valor del

MDP v∗N esta definido por

v∗N(s) = supπ∈ΠHA

vπN(s),

y si existe π ∈ ΠHA tal que se alcanza el supremo, se reemplaza el supremo por el maximo.

Para una polıtica optima π∗ se cumple que

v∗N(s) = vπ∗

N (s).

Sea π = (d1, d2, . . . , dN−1) ∈ ΠHA. Sea uπt : Ht → R la recompensa total esperada por utilizar

la polıtica π en las epocas t, t+1, . . . , N−1. Si la historia en la epoca de decision t es ht ∈ Ht,

se define uπt para t < N por

uπt (ht) = Eπht

N−1∑n=t

rn(Xn, Yn) + rN(XN)

,

Page 20: Cadenas de Markov controladas: Robustez distribucional y

14 3 Procesos de decision de Markov(MDP)

donde

Eπht(W (Xt, Yt, . . . , XN)) =∑

W (st, at, . . . , sN)P π(at, st+1, . . . , sN |s1, a1, . . . st)

y la suma varıa sobre (at, st+1, . . . , sN) ∈ A× S× A× · · · × S. Sea uπN(hN) = rN(s) cuando

hN = (hN−1, aN−1, s). Cuando h1 = s, uπ1 (s) = vπN(s). En el caso en que π ∈ ΠHD se tiene

que

uπt (ht) = rt(st, dt(ht)) +∑j∈S

pt(j|st, dt(ht))uπt+1(ht, dt(ht), j).

Si π ∈ ΠHA entonces

uπt (ht) =∑a∈Ast

qdt(ht)(a)

rt(st, a) +

∑j∈S

pt(j|st, a)uπt+1(ht, a, j)

.

Se define

u∗t (ht) = supπ∈ΠHA

uπt (ht).

Las ecuaciones de optimalidad (o ecuaciones de Bellman) estan dadas por

ut(ht) = supa∈Ast

rt(st, a) +

∑j∈S

pt(j|st, a)ut+1(ht, a, j)

(3-1)

para t = 1, . . . , N−1 y ht = (ht−1, at−1, st) ∈ Ht. Para t = N se agrega la siguiente condicion

de frontera

uN(hN) = rN(sN) (3-2)

en donde el supremo es reemplazado en (3-1) por un maximo cuando el supremo es alcanzado.

Un caso particular de esto es cuando Ast es finito.

Las ecuaciones de optimalidad tienen las siguientes propiedades:

Sus soluciones son los retornos optimos del perıodo t en adelante para cada t.

Proveen un metodo para saber si una polıtica es optima. Si la recompensa total espera-

da de la polıtica π del perıodo t en adelante satisface las ecuaciones para t = 1, . . . , N ,

entonces es optima.

Se tienen los siguientes teoremas:

Teorema 3.1 (Teorema 4.3.2 en [6]). Suponga ut es una solucion de (3-1) para t = 1, . . . , N−1 y uN satisface (3-2). Entonces, ut(ht) = u∗t (ht) para todo ht ∈ Ht, t = 1, . . . , N

Demostracion. Se probara por induccion que un(hn) ≥ u∗n(hn) para todo hn ∈ Hn y n =

1, . . . , N . Dado que no se toman decisiones en el perıodo N , uN(hN) = rN(hN) = rN(sN) =

uπN(hN) para todo hN ∈ HN y π ∈ ΠHA. Entonces, uN(hN) = u∗N(hN) para todo hN ∈ HN .

Page 21: Cadenas de Markov controladas: Robustez distribucional y

3.8 MDPs de horizonte finito 15

Ahora, suponga por ut(ht) ≥ u∗t (ht) para todo ht ∈ Ht para t = n + 1, . . . , N . Sea π′ =

(d′1, d′2, . . . , d

′N−1) una polıtica arbitraria en ΠHA. Para t = n la ecuacion de optimalidad esta

dada por

un(hn) = supa∈Asn

rt(sn, a) +

∑j∈S

pt(j|sn, a)un+1(hn, a, j)

Luego, por la hipotesis de induccion, la definicion de u∗n+1 y el hecho de que la funcion

pt(·|sn, a) es no negativa, se sigue que

un(hn) ≥ supa∈Asn

rt(sn, a) +

∑j∈S

pt(j|sn, a)u∗n+1(hn, a, j)

≥ supa∈Asn

rt(sn, a) +

∑j∈S

pt(j|sn, a)uπ′

n+1(hn, a, j)

≥∑a∈Asn

qd′n(hn)(a)

rt(sn, a) +

∑j∈S

pt(j|sn, a)uπ′

n+1(hn, a, j)

= uπ

n (hn).

Como π′ era una polıtica arbitraria y por la definicion del supremo, se tiene que un(hn) ≥u∗n(hn). Se mostrara que para ε > 0 existe π′ ∈ ΠHD para la cual

uπ′

n (hn) + (N − n)ε ≥ un(hn) (3-3)

para cada hn ∈ Hn y n = 1, . . . , N . Para esto construya π′ = (d1, . . . , dN−1) para satisfacer

rn(sn, dn(hn)) +∑j∈S

pn(j|sn, dn(hn))un+1(sn, dn(hn), j) + ε ≥ un(hn)

esto se puede lograr por la definicion del supremo y la definicion de un(hn). Se probara (3-3)

por induccion. Dado que uπ′N (hN) = rN(hN), el resultado se cumple para t = N . Asuma que

uπ′t (ht) + (N − t)ε ≥ ut(ht) para t = n+ 1, . . . , N . Entonces,

uπ′

n (hn) = rn(sn, dn(hn)) +∑j∈S

pn(j|sn, dn(hn))uπ′

n+1(sn, dn(hn), j)

≥ rn(sn, dn(hn)) +∑j∈S

pn(j|sn, dn(hn))un+1(sn, dn(hn), j)− (N − n− 1)ε

≥ un(hn)− (N − n)ε.

Luego, (3-3) se sigue para n = 1, . . . , N . Luego, existe π′ ∈ ΠHR tal que

u∗n(hn) + (N − n)ε ≥ uπ′

n (hn) + (N − n)ε ≥ un(hn) ≥ u∗n(hn).

Haciendo tender ε a cero, se sigue el resultado.

Page 22: Cadenas de Markov controladas: Robustez distribucional y

16 3 Procesos de decision de Markov(MDP)

Teorema 3.2 (Teorema 4.3.3 en [6]). Suponga que u∗t , t = 1, . . . , N son soluciones de las

ecuaciones de optimalidad (3-1) (cambiando el supremo por un maximo) sujeto a la condicion

de frontera (3-2) y la polıtica π∗ = (d∗1, d∗2, . . . , d

∗N−1) ∈ ΠHD cumple que

rt(st, d∗t (ht)) +

∑j∈S

pt(j|, st, d∗t (ht))u∗t+1(ht, d∗t (ht), j)

= maxa∈Ast

rt(st, a) +

∑j∈S

pt(j|, st, a)u∗t+1(ht, a, j)

(3-4)

para t = 1, . . . , N − 1. Entonces,

1. Para todo t = 1, . . . , N,

uπ∗

t (ht) = u∗t (ht), ht ∈ Ht.

2. π∗ es una polıtica optima y

vπ∗

N (s) = v∗N(s), s ∈ S.

Demostracion. Se probara el resultado 1 por induccion. Por definicion, se tiene que

uπ∗

N (hn) = u∗N(hn), hn ∈ Hn

Supongase que el resultado se tiene para t = n+1, . . . , N . Entonces, para hn = (hn−1, d∗n−1(hn−1), sn),

u∗n(hn) = maxa∈As

rn(sn + a) +

∑j∈S

pn(j|sn, a)u∗n+1(hn, a, j)

= rn(sn, d

∗n(hn)) +

∑j∈S

pn(j|sn, d∗n(hn))uπ∗

n+1(hn, d∗n(hn), j)

= uπ∗

n (hn)

Luego, se sigue 1. Utilizando el teorema 3.1 se tiene que uπ∗t (ht) = ut(ht). Por definicion,

para t = 1 se obtiene el resultado 2.

3.8.4. Optimalidad de polıticas markovianas determinısticas

Es posible determinar la optimalidad de las polıticas markovianas determinısticas. Para ello,

considere el siguiente teorema

Teorema 3.3 (Teorema 4.4.1 en [6]). Sea u∗t solucion de las ecuaciones (3-1), (3-2) y suponga

que para todo t y st ∈ S, existe a′ ∈ Ast para el que

rt(st, a′)+

∑j∈S

pt(j|st, a′)u∗t+1(ht, a′, j) = sup

a∈Ast

rt(st, a) +

∑j∈S

pt(j|st, a)u∗t+1(ht, a, j)

(3-5)

para todo ht = (ht−1, at−1, st) ∈ Ht. Entonces, existe una polıtica determinıstica, que depende

de la historia, que es optima.

Page 23: Cadenas de Markov controladas: Robustez distribucional y

3.8 MDPs de horizonte finito 17

Se probara por induccion que existe una polıtica optima que es markoviana y determinıstica.

Teorema 3.4. Sea u∗t , t = 1, . . . , N soluciones de las ecuaciones (3-1),(3-2). Entonces,

1. Para cada t = 1, . . . , N, u∗t (ht) depende unicamente de ht a traves de st.

2. Si existe a′ ∈ Ast tal que (3-5) se cumple para todo st ∈ S y t = 1, . . . , N − 1, entonces

existe una polıtica optima que es determinıstica y Markov.

Demostracion. Se probara que (1) se cumple por induccion. Como u∗N(hN) = u∗N(hN−1, aN−1, s) =

rN(s) para todo hN−1 ∈ HN−1 y aN−1 ∈ AsN−1, u∗N(hN) = u∗N(sN). Suponga ahora que (1)

se cumpe para n = t+ 1, . . . , N . Entonces,

u∗t (ht) = supa∈Ast

rt(st, a) +

∑j∈S

pt(j|st, a)u∗t+1(ht, a, j)

,

que por hipotesis de induccion se tiene que

u∗t (ht) = supa∈Ast

rt(st, a) +

∑j∈S

pt(j|st, a)u∗t+1(j)

.

Como la cantidad que esta dentro de los corchetes depende de ht solo a traves de st, (1) se

cumple para todo t.

La parte (2) se sigue ya que para todo t y st ∈ S existe a′ ∈ Ast tal que (3-5) se cumple, en-

tonces, para cada t se puede definir d∗t (st) = a′. Entonces, la polıtica π = (d∗1, d∗2, . . . , d

∗N−1) ∈

ΠMD que satisface

rt(st, d∗t (st)) +

∑j∈S

pt(j|st, d∗t (st))u∗t+1(j) = maxa∈Ast

rt(st, a) +

∑j∈S

pt(j|st, a)u∗t+1(j)

(3-6)

Entonces, por la parte (1) y el teorema 3.2, π∗ es una polıtica optima.

Luego, se tiene que

v∗N(s) = supπ∈ΠHA

vπN(s) = supπ∈ΠMD

vπN(s).

Se tiene el siguiente teorema

Teorema 3.5 (Proposicion 4.4.3 en [6]). Suponga que S es finito o contable y que As es

finito para todo s ∈ S. Entonces, existe una polıtica Markoviana que es optima.

Demostracion. Por el teorema 3.4 2 basta mostrar que para todo s ∈ S existe a′ ∈ As tal

que la ecuacion

rt(s, a′) +

∑j∈S

pt(j|st, a′)u∗t+1(j) = supa∈As

rt(s, a) +

∑j∈S

pt(j|s, a)u∗t+1(j)

.

Page 24: Cadenas de Markov controladas: Robustez distribucional y

18 3 Procesos de decision de Markov(MDP)

Es claro que, si As es finito, el supremo del lado derecho de la ecuacion corresponde a evaluar

lo que esta dentro de los corchetes una cantidad finita de veces. Por lo tanto, tomando

a′ ∈ arg maxa∈As

rt(s, a) +

∑j∈S

pt(j|s, a)u∗t+1(j)

se cumple la ecuacion deseada y se puede construir la polıtica markoviana optima.

3.8.5. Algoritmo de induccion hacia atras

A continuacion se presenta el algoritmo de induccion hacia atras

1. Sea t = N y

u∗N(sN) = rN(sN) ∀sN ∈ S,

2. Substituya t por t− 1 y compute u∗t (st) para todo st ∈ S por

u∗t (st) = maxa∈Ast

rt(s, a) +

∑j∈S

pt(j|st, a)u∗t+1(j)

. (3-7)

Sea

A∗st,t = arg maxa∈Ast

rt(st, a) +

∑j∈S

pt(j|st, a)u∗t+1(j)

. (3-8)

3. Si t = 1, pare. En caso contrario, retorne al paso 2.

Se tiene las siguientes propiedades del algoritmo

Teorema 3.6 (Teorema 4.5.1 en [6]). Suponga que u∗t , t = 1, . . . , N y A∗st,t, t = 1, . . . , N − 1

satisfacen (3-7), (3-8). Entonces,

Para t = 1, . . . , N y ht = (ht−1, at−1, st)

u∗t (st) = supπ∈ΠHA

uπt (ht), st ∈ S.

Sea d∗t (s) ∈ A∗st,t para todo st ∈ S, t = 1, . . . , N−1, y sea π∗ = (d∗1, . . . , d∗N−1). Entonces,

π∗ ∈ ΠMD es optima y satisface

vπ∗

N (s) = supπ∈ΠHA

vπN(s), s ∈ S

y

uπ∗

t (st) = u∗t (st), st ∈ S

para t = 1, . . . , N.

Page 25: Cadenas de Markov controladas: Robustez distribucional y

4. Optimizacion convexa aplicada a

MDPs distribucionalmente robustos

usando la metrica de Wasserstein

El presente capıtulo toma como referencia los resultados expuestos en [9].

4.1. Robustez distribucional

4.1.1. Notacion

Para el desarrollo del presente capıtulo 4 se considera un MDP de horizonte finito de N

epocas de decision. Se asume que los conjuntos S y As son finitos para todo s ∈ S. Se

considera que P (s′|s, a) es la probabilidad de llegar al estado s′ dado que se esta en el estado

s y se estoma la accion a. Tambien se considera la funcion r : S × A → R, donde r(s, a) es

la recompensa de estar en el estado s y se toma la accion a. Se define la funcion rN : S→ Rtal que q(s) es la recompensa obtenida dado que el estado final del sistema es s. Se asume

que las funciones de recompensas r, rN son funciones acotadas. Para cada s ∈ S se definen

los vectores rs := r(s, a)a∈As ∈ R|As|, ps := P (s′|s, a)s′∈Sa∈As ∈ R|S||As|. El MDP se

asume no estacionario, en el sentido en que por cada vez que un estado s es visitado, se tiene

una realizacion diferente de rs y de ps. El estado en el tiempo t se denota st ∈ S. Dado un

espacio boreliano X, P(X) denota el conjunto de Borel de medidas de probabilidad sobre

X. Sea T := 1, . . . , N −1. Sea ei el i-esimo vector de la base canonica de R|As|. Para t ∈ Tse define vt+1 := vt+1(s)s∈S donde vt+1(s) es el vector de recompensas esperadas para el

tiempo t+ 1. Sea Mm×n(R) el espacio de matrices de tamano m× n con entradas en R. Se

define Vt+1 := [e1v>t+1 · · · e|As|v

>t+1] ∈ M|As|×|S||As|(R). Sean p ∈ M|S||As|×|S|(R), r ∈ M|As|×|S|

las matrices cuya columna s son los vectores ps, rs respectivamente.

4.1.2. Proceso de decision de Markov distribucionalmente robustos

Para el desarrollo del capıtulo 4, se considera un tipo especıfico de MDP en el que las proba-

bilidades de transicion ps y la recompensa rs no se conocen del todo. Sin embargo, se asume

que la distribucion conjunta pertenece a un conjunto de ambiguedad Ds ⊆ P(R|S||As|+|As|)

dado apriori. El objetivo de este tipo de procesos es construir una polıtica que maximice

Page 26: Cadenas de Markov controladas: Robustez distribucional y

204 Optimizacion convexa aplicada a MDPs distribucionalmente robustos usando la

metrica de Wasserstein

la recompensa total esperada en el peor de los casos, considerando restricciones sobre la

distribucion de ps y rs especificadas por el conjunto ambiguo Ds. Para esto, se plantea un

juego dinamico de suma cero, en el que el jugador 1 determina la polıtica de control para

maximizar la recompensa, mientras que el jugador 2 escoge la distribucion conjunta µt de

(pst , rst) para minimizar la recompensa total esperada.

Sea ht := (s1, a1, µ1, . . . , st−1, at−1, µt−1, st) la historia hasta la epoca t. Sea Ht el conjunto de

todas las historias hasta la epoca t. Sea Π el conjunto de todas las polıticas de control aleato-

rias dependientes de la historia disponibles para el jugador 1. Si π ∈ Π y π = (π1, . . . , πN−1)

se tiene que πt : Ht → ∆(As). Sea het := (ht, at) la historia extendida hasta la epoca t y el

conjunto Het de todas las historias extendidas hasta la epoca t. El conjunto de estrategias ad-

misibles para el jugador 2 esta definido por Γ := γ := (γ1, . . . , γN−1)|γt : Het → Dst∀t ∈ T .

Dados los parametros (p, r) y el par de estrategias (π, γ) ∈ Π×Γ, se tiene que la recompensa

total esperada esta dada por la expresion

Rs(π, γ) := Eπ,γ[N−1∑t=1

r(st, at) + rN(sN)|s1 = s

],

donde Eπ,γ denota el valor esperado tomado con respecto a la medida probabilidad inducida

por el par de estrategias (π, γ) y s es el estado inicial del sistema. La polıtica de control

optima es la resultante de resolver el juego de suma cero definido por

supπ∈Π

ınfγ∈Γ

Rs(π, γ).

En este contexto, se introduce la funcion vt : S→ R definida por

vt(s) := supπ∈Π

ınfγ∈Γ

Eπ,γ[N−1∑τ=t

r(sτ , aτ ) + rN(sN)|st = s

],

que representa la recompensa esperada en el estado s en la epoca de decision t. Utilizando

los principios de la programacion dinamica de [6] y expuestos en el capıtulo anterior se deriva

la siguiente version de la ecuacion de Bellman para t ∈ T

vt(s) = supπ∈∆(As)

ınfµ∈Ds

∫χs

(rs + Vt+1ps)>πdµ(ps, rs), (4-1)

y para t = N , vN(s) = rN(s). En este caso, la tratabilidad del problema de optimizacion

interior esta sujeta al conjunto ambiguo Ds. Si este es un conjunto infinito dimensional, el

problema se vuelve no tratable.

4.1.3. Conjuntos ambiguos con metrica de Wasserstein

Para el desarrollo de este proyecto, se definira la estructura de Ds a partir del uso de la metrica

de Wasserstein. Sea χs ⊂ R|S||As|+|As|. Para s ∈ S fijo, considerando xs := [p>s , r>s ]> ∈ χs y

Page 27: Cadenas de Markov controladas: Robustez distribucional y

4.2 Optimalidad de polıticas Markovianas 21

dada una medida nominal de probabilidad νs ∈ P(χs) y θ > 0 se define el conjunto ambiguo

Ds(νs, θ) := µ ∈ P(χs)|Wp(µ, νs) ≤ θ

como una vecindad (o bola) en la metrica de Wasserstein de radio θ y centrada en la

distribucion νs, donde

Wp(µ, νs)p := mın

κ∈P(χs×χs)

∫χs×χs

d(x, y)pdκ(x, y)|κ(· × χs) = µ(·), κ(χs × ·) = νs(·)

es la metrica de Wasserstein de orden p, con metrica d y p ≥ 1. Para la metrica de Wasserstein

se tiene la siguiente proposicion.

Proposicion 4.1 (Representacion dual de la distancia de Wasserstein, Teorema 5.10 en [7],

Dualidad de Kantorovich).

Wp(µ, νs)p = sup

(ϕ,ψ)∈Φd

∫χs

ϕ(x)dµ(x) +

∫χs

ψ(x)dνs(x)

,

donde

Φd := (ϕ, ψ) ∈ L1(dµ)× L1(dνs)|ϕ(x) + ψ(y) ≤ d(x, y)p∀x, y ∈ χs.

4.2. Optimalidad de polıticas Markovianas

Se probara que un problema MDP distribucionalmente robusto admite una polıtica de control

Markoviana optima. Es decir, que la ecuacion 4-1 alcanza un maximo sobre el simplex de

probabilidad ∆(As).

Teorema 4.1. Para todo (t, s) ∈ T × S, existe una funcion πoptt : S→ ∆(As) tal que

vt(s) = ınfµ∈Ds

∫χs

(rs + Vt+1ps)>πopt

t (s)dµ(ps, rs).

Demostracion. Sea s ∈ S fijo. Considere la funcion Ft : ∆(As)→ R definida por

Ft(π) = ınfµ∈Ds

∫χs

(rs + Vt+1ps)>πdµ(ps, rs).

Page 28: Cadenas de Markov controladas: Robustez distribucional y

224 Optimizacion convexa aplicada a MDPs distribucionalmente robustos usando la

metrica de Wasserstein

Note que para π1, π2 ∈ ∆(As), γ ∈ [0, 1], dada la linealidad de la integral se tiene que

Ft(γπ1 + (1− γ)π2) = ınfµ∈Ds

∫χs

(rs + Vt+1ps)>(γπ1 + (1− γ)π2)dµ(ps, rs),

= ınfµ∈Ds

∫χs

(rs + Vt+1ps)>γπ1dµ(ps, rs)

+

∫χs

(rs + Vt+1ps)>(1− γ)π2dµ(ps, rs),

≥ ınfµ∈Ds

∫χs

(rs + Vt+1ps)>γπ1dµ(ps, rs)

+ ınfµ∈Ds

∫χs

(rs + Vt+1ps)>(1− γ)π2dµ(ps, rs),

= γFt(π1) + (1− γ)Ft(π2).

Entonces Ft es una funcion concava. Dado que la funcion de recompensa es una funcion

acotada, al ser vt(s) un valor esperado de funciones acotadas, se tiene que vt(s) <∞. Como

∀π ∈ ∆(As), t ∈ T , s ∈ S se tiene que Ft(π) ≤ vt(s), entonces, Ft es una funcion propia.

Por otro lado, para µ ∈ Ds defina la funcion gµ : R|As| → R de la siguiente manera

gµ(x) =

∫χs

(rs + Vt+1ps)>xdµ(ps, rs).

Note que para t ∈ R, y ∈ R|As| se cumple que, por linealidad de la integral

gµ(tx+ y) =

∫χs

(rs + Vt+1ps)>(tx+ y)dµ(ps, rs)

= t

∫χs

(rs + Vt+1ps)>xdµ(ps, rs) +

∫χs

(rs + Vt+1ps)>ydµ(ps, rs)

= tgµ(x) + gµ(y).

Entonces, para todo µ ∈ Ds la funcion gµ es una funcion lineal. Luego, gµ es continua. De

esta manera, la funcion gµ|∆(As) (i.e la restriccion de gµ a ∆(As)) es una funcion continua.

En particular, gµ|∆(As) es una funcion superiormente semicontinua. Note que

Ft(π) = ınfµ∈Ds

gµ|∆(As)(π).

Entonces, por la proposicion 2.6 se sigue que Ft es una funcion superiormente semiconti-

nua. Luego, por la proposicion 2.4, Ft es una funcion cerrada. De lo anterior, la ecuacion de

Bellman se puede reescribir de la forma vt(s) = supπ∈∆(As) Ft(π). Dado que se esta optimi-

zando una funcion concava cerrada y propia sobre el conjunto convexo y cerrado ∆(As), por

la proposicion 2.5 se tiene que existe π∗ optimo tal que vt(s) = Ft(π∗). Luego, definiendo

πoptt (s) = π∗ se construye la funcion deseada.

Page 29: Cadenas de Markov controladas: Robustez distribucional y

4.3 Formulacion convexa usando dualidad de Kantorovich 23

El teorema 4.1 permite construir la polıtica optima Markoviana πopt := (πopt1 , . . . , πopt

N−1). Sin

embargo, este problema es difıcil de resolver, pues consta de un problema de optimizacion

minimax infinito dimensional para cada par (t, s) ∈ T × S.

4.3. Formulacion convexa usando dualidad de Kantorovich

Utilizando la dualidad de Kantorovich, se puede reformular el problema de vt(s) de la si-

guiente manera:

Teorema 4.2. La ecuacion de Bellman asociada con el problema del MDP distribucional-

mente robusto es equivalente a

vt(s) = maxπ∈∆(As),λ≥0

fs(π, λ; vt+1) (4-2)

para (t, s) ∈ T × S con la condicion de finalizacion vT (s) = q(s). donde fs(·, ·; vt+1) :

∆(As)× R+ → R esta definido por

fs(π, λ; vt+1) = −λθp +

∫χs

ınfx∈χs

(λd(x, y)p + (rs + Vt+1ps)

>π)

dνs(y).

En particular, fs es conjuntamente concava con respecto a (π, λ).

Demostracion. La proposicion 4.1 muestra que

Wp(µ, νs)p = sup

ϕ,ψ∈Φd

∫χs

ϕ(x)dµ(x) +

∫χs

ψ(x)dνs(x)

,

donde

Φd := (ϕ, ψ) ∈ L1(dµ)× L1(dνs)|ϕ(x) + ψ(y) ≤ d(x, y)p∀x, y ∈ χs. (4-3)

En particular, para (ϕ, ψ) ∈ Φd se tiene que ∀x, y ∈ χs ψ(y) ≤ d(x, y)p − ϕ(x). Luego,

∀y ∈ χs ψ(y) ≤ ınfx∈χs

d(x, y)p−ϕ(x). A partir de esto, note que para todo (ϕ, ψ) ∈ Φd se tiene

lo siguiente, ∫χs

ϕ(x)dµ(x) +

∫χs

ınfx∈χs

(d(x, y)p − ϕ(x)) dνs(y)dνs(y) ≤ θp

⇒∫χs

ınfx∈χs

(d(x, y)p − ϕ(x)) dνs(y)dνs(y) ≤ θp −∫χs

ϕ(x)dµ(x)

⇒∫χs

ψ(y)dνs(y) ≤ θp −∫χs

ϕ(x)dµ(x)

⇒∫χs

ϕ(x)dµ(x) +

∫χs

ψ(x)dνs(x) ≤ θp

⇒ Wp(µ, νs)p = sup

ϕ,ψ∈Φd

∫χs

ϕ(x)dµ(x) +

∫χs

ψ(x)dνs(x)

≤ θp.

(4-4)

Page 30: Cadenas de Markov controladas: Robustez distribucional y

244 Optimizacion convexa aplicada a MDPs distribucionalmente robustos usando la

metrica de Wasserstein

Por otro lado, considere κ ∈ P(χs × χs) tal que κ(· × χS) = µ(·), κ(χS × ·) = νs(·). Si

d(x, y)p ∈ L1(dκ), entonces dx(x, ·) ∈ L1(dνs). Ası mismo, para todo x ∈ χs y ϕ ∈ L1(dµ) al

tenerse que ϕ(x) es una constante, entonces la funcion definida por ψx(y) = ϕ(x) ∈ L1(dνs)

. Entonces, la funcion definida por ψx(y) = d(x, y)p − ϕ(x) ∈ L1(dνs). Luego, la funcion

definida por ψ(y) = ınfx∈χs d(x, y)p − ϕ(x) ∈ L1(νs). Luego, por definicion del ınfimo, se

tiene que

∀x ∈ χs ϕ(x) + ψ(y) = ϕ(x) + ınfx∈χs

d(x, y)p − ϕ(x) ≤ ϕ(x) + d(x, y)p − ϕ(x) = d(x, y)p.

Entonces, para esta ψ especıfica y para toda ϕ ∈ L1(dµ) se sigue que (ϕ, ψ) ∈ Φd. Luego,

por definicion del supremo se tiene que∫χs

ϕ(x)dµ(x) +

∫χs

ınfx∈χs

(d(x, y)p − ϕ(x)) dνs(y) ≤ Wp(µ, νs)p.

Es decir, la bola de la metrica de Wasserstein se puede escribir de la siguiente manera

Ds(νs, θ) =

µ ∈ P(χs)

∣∣∣∣∀ϕ ∈ L1(dµ)

∫χs

ϕ(x)dµ(x) +

∫χs

ınfx∈χs

(d(x, y)p − ϕ(x)) dνs(y) ≤ θp.

Fıjese (t, s) ∈ T × S y recuerde que x = [p>s r>s ]>. Para µ ∈ Ds, λ > 0 y ϕ ∈ L1(dµ) se sigue

que∫χs

ϕ(x)dµ(x) +

∫χs

ınfx∈χs

(d(x, y)p − ϕ(x)) dνs(y) ≤ θp

⇐⇒∫χs

ϕ(x)dµ(x) +

∫χs

ınfx∈χs

(d(x, y)p − ϕ(x)) dνs(y)− θp ≤ 0

⇐⇒ λ

(∫χs

ϕ(x)dµ(x) +

∫χs

ınfx∈χs

(d(x, y)p − ϕ(x)) dνs(y)− θp)≤ 0

⇐⇒∫χs

(rs + Vt+1ps)>πdµ(ps, rs) +

∫χs

λϕ(x)dµ(x) +

∫χs

ınfx∈χs

λd(x, y)p − λϕ(x)dνs(y)− λθp

≤∫χs

(rs + Vt+1ps)>πdµ(ps, rs).

En particular, para todo π ∈ ∆(As)

ınfµ∈Ds

∫χs

(rs+Vt+1ps)>πdµ(ps, rs)+

∫χs

λϕ(x)dµ(x)+

∫χs

ınfx∈χs

λd(x, y)p−λϕ(x)dνs(y)−λθp ≤ Ft(π).

Como Ds ⊆ P(χs) se tiene que,

Ft(π) ≥ ınfµ∈P(χs)

∫χs

(rs+Vt+1ps)>πdµ(ps, rs)+

∫χs

λϕ(x)dµ(x)+

∫χs

ınfx∈χs

λd(x, y)p−λϕ(x)dνs(y)−λθp.

(4-5)

Page 31: Cadenas de Markov controladas: Robustez distribucional y

4.3 Formulacion convexa usando dualidad de Kantorovich 25

Luego,

Ft(π) ≥ supλ≥0

ınfµ∈P(χs)

∫χs

(rs + Vt+1ps)>πdµ(ps, rs) +

∫χs

λϕ(x)dµ(x)

+

∫χs

ınfx∈χs

λd(x, y)p − λϕ(x)dνs(y)− λθp. (4-6)

Note que para todo (t, s) ∈ T ×S, π ∈ ∆(As), se tiene que (rs+Vt+1ps)>π ∈ R. En particular,

para λ > 0 y teniendo en cuenta que vt es acotado para todo t se tiene que∫χs

(rs + Vt+1ps)>πdµ(ps, rs) ≤ |As|(K +M)

∫χs

dµ(x) = |As|(K +M) <∞,

donde K,M ∈ R son cotas adecuadas para rs y vt+1. Entonces, ϕ = −1λ

(rs + Vt+1ps)>π ∈

L1(dµ). Con este ϕ, se obtiene en (4-6) que

Ft(π) ≥ supλ>0

fs(π, λ; vt+1).

Note que si λ = 0, fs(π, 0; vt+1) = ınfx∈χs

(rs + Vt+1ps)>π. Entonces, para cualquier x ∈ χs

fs(π, 0; vt+1) = ınfx∈χs

(rs+Vt+1ps)>π ≤ (rs+Vt+1ps)

>π ⇒ fs(π, 0; vt+1) ≤∫χs

(rs+Vt+1ps)>πdµ(x).

Entonces,

Ft(π) ≥ supλ≥0

fs(π, λ; vt+1).

Note que

supλ≥0

fs(π, λ; vt+1) = − ınfλ≥0

λθp −

∫χs

ınfx∈χs

(λd(x, y)p + (rs + Vt+1ps)

>π)

dνs(y)

. (4-7)

Ası mismo, note que

Ft(π) = − supµ∈Ds

∫χs

−(rs + Vt+1ps)>πdµ(ps, rs). (4-8)

Entonces, se tiene que

supµ∈Ds

∫χs

−(rs+Vt+1ps)>πdµ(ps, rs) ≤ ınf

λ≥0

λθp −

∫χs

ınfx∈χs

(λd(x, y)p + (rs + Vt+1ps)

>π)

dνs(y)

.

(4-9)

Note que los lados derecho e izquierda de la ecuacion (4-9) coinciden con las definiciones de

vP y vD dados en la proposicion (A.1), tomando Ψ(x) = −(rs + Vt+1ps)>π. Esta funcion es

una funcion acotada. Luego por el teorema (A.1) el problema supλ≥0

fs(π, λ; vt+1) admite una

solucion λ∗ y es equivalente al problema de la izquierda.

Page 32: Cadenas de Markov controladas: Robustez distribucional y

264 Optimizacion convexa aplicada a MDPs distribucionalmente robustos usando la

metrica de Wasserstein

Entonces, Ft(π) = supλ≥0

fs(π, λ; vt+1). Por lo tanto,

vt(s) = supπ∈∆(As)

maxλ≥0

fs(π, λ; vt+1).

El teorema 4.1 muestra que existe π∗ ∈ ∆(As) que es optimo para el problema de optimiza-

cion. Entonces,

vt(s) = maxπ∈∆(As),λ≥0

fs(π, λ; vt+1).

Para mostrar que fs es concava, sean π1, π2 ∈ ∆(As), λ1, λ2 ≥ 0, t ∈ [0, 1]. Sea πt = tπ1 +

(1 − t)π2, λt = tλ1 + (1 − t)λ2. Entonces, πt ∈ ∆(As) al ser un conjunto convexo y λt ≥ 0.

Para ε > 0, se tiene que existe xε ∈ χs tal que

f(πt, λt; vt+1) + ε > −λtθp +

∫χs

λtd(xε, y)p + (rs + Vt+1ps)>πtdνs

= t

(−λ1θ

p +

∫χs

λ1d(xε, y)p + (rs + Vt+1ps)>π1dνs

)+ (1− t)

(−λ2θ

p +

∫χs

λ2d(xε, y)p + (rs + Vt+1ps)>π2dνs

).

(4-10)

Por otro lado, como xε ∈ χs se tiene que para i = 1, 2 se cumple que

f(πi, λi; vt+1) ≤ −λiθp +

∫χs

λid(xε, y)p + (rs + Vt+1ps)>πidνs.

Luego,

fs(πt, λt; vt+1) + ε > tfs(π1, λ1, vt+1) + (1− t)fs(π2, λ2; vt+1)

Haciendo tender ε a cero, se obtiene que fs es conjuntamente concava.

Al utilizar la formulacion resultante del teorema 4.2, se puede resolver el MDP distribucio-

nalmente robusto a traves de programacion convexa finito dimensional. Note que el problema

original infinito dimensional se transfiere a la evaluacion de la funcion fs, que requiere resol-

ver un problema de minimizacion por cada y ∈ χs. En el caso en que se tiene una construccion

orientada a los datos, la distribucion nominal νs es de soporte finito.

4.4. Distribucion nominal con soporte finito

Suponga que a distribucion νs, que es el centro del conjunto Ds tiene soporte finito, xs,1, . . . , xs,M, xs,i :=

[p>s,i r>s,i]> ∈ R|S||As|+|As|, i.e

νs =1

N

M∑i=1

δxs,i , (4-11)

donde la funcion δxs,i(x) es 1 si x = xs,i y cero en caso contrario. Esta construccion corres-

ponde con la distribucion empırica en la que se tienen M observaciones de las probabilidades

y las recompensas. Con esta medida, se obtiene el siguiente resultado:

Page 33: Cadenas de Markov controladas: Robustez distribucional y

4.4 Distribucion nominal con soporte finito 27

Corolario 4.1. Con la medida dada por la ecuacion (4-11) se tiene que

vt(s) = maxπ∈∆(As),λ≥0

1

M

M∑i=1

fs,i(π, λ; vt+1), (4-12)

para (t, s) ∈ T ×S con vN(s) = rN(s), donde para i = 1, . . . ,M, fs,i(·, ·; vt+1) : ∆(As)×R+ →R definida por

fs,i(π, λ; vt+1) := −λθp + ınfx∈χs

(λd(x, xs,i)p + (rs + Vt+1ps)

>π)

Demostracion. Al considerar la ecuacion (4-10) con esta medida, se obtiene que para todo

(t, s) ∈ T × S y i = 1, . . . ,M se tiene que

fs(π, λ; vt+1) = −λθp +1

M

M∑i=1

ınfx∈χs

(λd(x, xs,i)p + (rs + Vt+1ps)

>π)

=1

M(−Mλθp +

M∑i=1

ınfx∈χs

(λd(x, xs,i)p + (rs + Vt+1ps)

>π))

=1

M

M∑i=1

−λθp + ınfx∈χs

(λd(x, xs,i)p + (rs + Vt+1ps)

>π)

=1

M

M∑i=1

fs,i(π, λ; vt+1)

En este caso, para poder evaluar la funcion objetivo en (4-12) se requiere resolver M pro-

blemas de optimizacion convexa. Con esta reformulacion, se ha eliminado el problema infi-

nitodimensional y se hace tratable el problema. Dado que esta nueva funcion es de caracter

aditivo, y que cada funcion f depende unicamente de uno de los datos obtenidos xs,i se

pueden implementar metodos de optimizacion distribuida. Sin embargo, se tiene el siguiente

acercamiento

Corolario 4.2. Con la medida dada por (4-11). La ecuacion de Bellman asociada al MDP

distribucionalmente robusto es equivalente a

vt(s) = maxπ∈∆(As)

ınfx∈Bs

1

M

M∑i=1

π>Q(vt+1)xi (4-13)

para (t, s) ∈ T × S con vN(s) = rN(s), donde

Bs :=

(x1, . . . , xM) ∈ χMs

∣∣∣∣∣ 1

M

M∑i=1

d(xi, xs,i)p ≤ θp

Q(vt+1) := [Vt+1 I] ∈M|As|×(|S||As|+|As|)(R)

Page 34: Cadenas de Markov controladas: Robustez distribucional y

284 Optimizacion convexa aplicada a MDPs distribucionalmente robustos usando la

metrica de Wasserstein

Demostracion. Dada la utilizacion del ınfimo en la ecuacion (4-12) se tiene que para todo

ε > 0 para i = 1, . . . ,M existe xεi ∈ χs tal que

vt(s) + ε > maxπ∈∆(As),λ≥0

1

M

M∑i=1

π>Q(vt+1)xεi + λ

(−θp +

1

M

M∑i=1

d(xεi , xs,i)p

)

Note que si 1M

M∑i=1

d(xεi , xs,i)p > θp, al tener un problema de maximizacion sobre λ, se puede

tomar λ = ∞, lo que harıa que vt(s) = ∞. Entonces, 1M

M∑i=1

d(xεi , xs,i)p ≤ θp (i.e xεi ∈ Bs).

Luego, por definicion del ınfimo se tiene que

vt(s) + ε > maxπ∈∆(As),λ≥0

ınfx∈Bs

1

M

M∑i=1

π>Q(vt+1)xi + λ

(−θp +

1

M

M∑i=1

d(xi, xs,i)p

).

Por el analisis anterior, dado que −θp + 1M

M∑i=1

d(xεi , xs,i)p < 0 al valor maximo sobre λ ocurre

en λ = 0. Entonces,

vt(s) + ε > maxπ∈∆(As)

ınfx∈Bs

1

M

M∑i=1

π>Q(vt+1)xi.

Haciendo tender ε a cero, se tiene que

vt(s) ≥ maxπ∈∆(As)

ınfx∈Bs

1

M

M∑i=1

π>Q(vt+1)xi.

Por la proposicion 2.3 se sigue que

ınfx∈Bs

1

M

M∑i=1

π>Q(vt+1)xi + λ

(1

M

M∑i=1

d(xi, xs,i)p − θp

)

≥ ınfx∈χM

s

1

M

M∑i=1

π>Q(vt+1)xi + λ

(1

M

M∑i=1

d(xi, xs,i)p − θp

)

Tomando el supremo sobre λ en ambos lados de la desigualdad y considerando el analisis

anterior respecto a al valor maximo de λ cuando x ∈ Bs se tiene que

ınfx∈Bs

1

M

M∑i=1

π>Q(vt+1)xi = supλ≥0

ınfx∈Bs

1

M

M∑i=1

π>Q(vt+1)xi + λ

(1

M

M∑i=1

d(xi, xs,i)p − θp

)

≥ supλ≥0

ınfx∈χM

s

1

M

M∑i=1

π>Q(vt+1)xi + λ

(1

M

M∑i=1

d(xi, xs,i)p − θp

).

Page 35: Cadenas de Markov controladas: Robustez distribucional y

4.5 Construccion descentralizada de distribucion en el peor caso 29

Por otro lado, note que

supλ≥0

ınfx∈χM

s

1

M

M∑i=1

π>Q(vt+1)xi + λ

(1

M

M∑i=1

d(xi, xs,i)p − θp

)

= supλ≥0

1

M

M∑i=1

−λθp + ınfx∈χs

(λd(x, xs,i)p + (rs + Vt+1ps)

>π)

= supλ≥0

1

M

M∑i=1

fs,i(π, λ; vt+1)

Usando la ecuacion (4-12) se tiene que

ınfx∈Bs

1

M

M∑i=1

π>Q(vt+1)xi ≥ vt(s).

En particular,

maxπ∈∆(As)

ınfx∈Bs

1

M

M∑i=1

π>Q(vt+1)xi ≥ vt(s).

Luego, se sigue el resultado.

4.5. Construccion descentralizada de distribucion en el

peor caso

Asumiendo que la distribucion nominal es de soporte finito, se puede construir una distribu-

cion para (ps, rs) en el peor caso. Se tiene el siguiente resultado:

Proposicion 4.2. Suponga que la distribucion nominal de νs esta dada por (4-11). Si el

problema de minimizacion de (4-13) admite una solucion optima (x∗1, . . . , x∗M) entonces

µ∗ =1

M

M∑i=1

δx∗i

es una distribucion en el peor caso, donde π∗ es la solucion optima al problema de maximi-

zacion de (4-13).

Demostracion. Dada la definicion de vt(s) dada en (4-1), por el ınfimo sobre µ ∈ Ds se tiene

que para cualquier µ ∈ Ds se cumple que

vt(s) ≤∫χs

[(π∗)>Q(vt+1)x]dµ(x). (4-14)

Page 36: Cadenas de Markov controladas: Robustez distribucional y

304 Optimizacion convexa aplicada a MDPs distribucionalmente robustos usando la

metrica de Wasserstein

Usando la dualidad de Kantorovich, se tiene que

Wp(µ∗, νs)

p = supϕ,ψ∈Ψd

1

M

M∑i=1

(ϕ(x∗i ) + ψ(xs,i))

donde el conjunto factible es definido en (4-3). Como ∀(x, y) ∈ χs×χs ϕ(x)+ψ(y) ≤ d(x, y)p

se sigue que

Wp(µ∗, νs)

p ≤ 1

M

M∑i=1

d(x∗i , xs,i)p ≤ θp.

Lo anterior dado que, por la formulacion de vt(s) mostrada en (4-13), x∗ ∈ Bs. Entonces,

µ∗ ∈ Ds. En particular, la ecuacion (4-14) aplica para µ∗. Es decir,

vt(s) ≤∫χs

[(π∗)>Q(vt+1)x]dµ∗(x)

=1

M

M∑i=1

(π∗)>Q(vt+1)x∗i .

Por el corolario 4.2 se tiene que el valor del lado derecho de la desigualdad es precisamente

vt(s), por lo que µ∗ es la distribucion en el peor caso.

Page 37: Cadenas de Markov controladas: Robustez distribucional y

5. Aplicacion de MDPs al control de

posicion de un drone de 4 helices

5.1. Modelo del drone

Para el desarrollo de las simulaciones, se hace uso de un drone de 4 helices. Se considera que

el marco movil del drone esta en posicion de X. Esta configuracion es ilustrada en la figura

5-1. Note la definicion de los angulos θ, ϕ, ψ.

Para interes del trabajo, se considera que el control a realizar solo se hara sobre la posicion

Figura 5-1.: Configuracion en X

X-Y del drone. La referencia del controlador de altura se mantiene fija en 3 metros. Las

perturbaciones consideradas dentro del modelo consisten en fuerzas aplicadas al drone, con

respecto al marco de referencia inercial y se consideran que son perturbaciones resultantes

de la accion del viento sobre el cuerpo del drone. Para poder considerar un modelo de toma

de decisiones secuencial, se determina el tiempo tp = 1,2 segundos equivalente al tiempo que

pasa entre etapas de decision. Despues de tp segundos se determina la posicion del drone y

se toma una accion segun lo deseado.

5.1.1. Arquitectura del modelo

La figura 5-2 muestra la arquitectura del controlador.

Page 38: Cadenas de Markov controladas: Robustez distribucional y

32 5 Aplicacion de MDPs al control de posicion de un drone de 4 helices

Figura 5-2.: Estructura general del sistema de control

El controlador de alto nivel, al cabo de tp segundos utiliza la posicion actual del drone pa-

ra definir la referencia que deben seguir los controladores PID para lograr el objetivo deseado.

La figura 5-3 muestra el modelo de simulink del simulador del drone utilizado [2].

El simulador esta compuesto por los siguientes bloques:

Figura 5-3.: Modelo de simulink del simulador

1. Controlador de posicion: Este bloque se encarga de controlar la posicion X-Y del

drone segun una referencia dada. Consta dos controladors PID que son utilizados para

determinar los angulos ϕ, θ de referencia. Las constantes del controlador estan dadas

Page 39: Cadenas de Markov controladas: Robustez distribucional y

5.1 Modelo del drone 33

por Ki = 0,9, Kd = 0,25, Ki = 0,095 que fueron determinados a partir de sintonizacion

manual. Los controladores tienen una saturacion para los angulos de ±12 grados.

2. Controlador de orientacion: Este bloque se encarga de controlar la orientacion del

drone. Utiliza 4 controladores PID para controlar los angulos θ, ϕ, ψ y la altura Z de

referencia. La tabla 5-1 muestra los valores de los controladores

Variable a controlar Kp Ki Kd

ϕ 2 1.1 1.2

θ 2 1.1 1.2

ψ 4 0.5 3.5

z 2 1.1 3.3

Tabla 5-1.: Tabla de controles

3. Bloque de controles: Este bloque se encarga de hacer la relacion entre los comando

de correccion de angulos y la altura, para determinar las velocidades a la que deben

girar los motores para obtener el efecto deseado.

4. Bloque de dinamicas Es el bloque encargado de simular las dinamicas de los motores

y de simular el sistema dinamico del drone con las perturbaciones consideradas.

5.1.2. Parametros de simulacion

Para simular el drone, se consideran los siguientes parametros fısicos del drone ( (M)=Motor,

(C)= Control electronico de velocidad, (Ce)= Cuerpo central, (B)=Brazos) ).

Parametro Valor Unidad Parametro Valor Unidad

Masa (M) 73 grms Distancia a centro (C) 8.26 cm

Distancia a centro (M) 22.23 cm Masa (Ce) 431 grms

Altura sobre el brazo (M) 3.18 cm Radio (Ce) 5.64 cm

Radio (M) 1.4 cm Altura (Ce) 4.29 cm

Masa (C) 30 grms Masa (B) 45 grms

Ancho (C) 2.54 cm Radio (B) 3.25 cm

Largo (C) 5.71 cm Largo (B) 18.57 cm

Tabla 5-2.: Parametros fısicos del drone

En el caso de las perturbaciones, se asume que la fuerza que imprime el viento sobre viento

se distribuye con una distribucion normal con media µ = 0 y varianza σ2 = 0,04. Para

Page 40: Cadenas de Markov controladas: Robustez distribucional y

34 5 Aplicacion de MDPs al control de posicion de un drone de 4 helices

determinar el valor maximo y mınimo de la perturbacion, se hizo uso de la escala de Beaufort.

La tabla 5-3 muestra la escala de Beaufort.

Velocidad del viento (km/h) Denominacion

0-1 Calma

2-5 Ventolina

6-11 Brisa debil

12-19 Brisa ligera

20-28 Brisa moderada

29-38 Brisa fresca

39-49 Brisa fuerte

50-61 Viento fuerte

62-74 Viento duro

75-88 Temporal fuerte

89-102 Temporal duro

103-117 Temporal muy duro

+118 Temporal huracanado

Tabla 5-3.: Escala de Beaufort

Utilizando la escala se decide que se van a simular vientos de maximo 40 km/h. La relacion

entre velocidad y fuerza aplicada del viento esta dada por la ecuacion:

F =ρ · Cd · V 2 · A

2

donde V es la velocidad del viento en metros por segundo,A el area perpendicular sobre la que

actua el viento en metros cuadrados, Cd el coeficiente de arrastre y ρ la densidad del viento

que es de 1.22 Kg/m3 . Asumiendo que las perturbaciones dadas se dan sobre centro de masa

del drone, que la parte central del mismo se aproxima a una forma cilındrica (determinada

por los parametros dados en la tabla 5-2) y que el viento interactua unicamente con la mitad

del area del cilindro, se obtiene que las fuerzas de las perturbaciones se encuentran dentro

±0,22 Newtons de fuerza. Ası mismo, se considera que durante el tiempo que transcurre

entre toma de decisiones, el viento es constante. Sin embargo, de un perıodo a otro cambia.

5.2. Modelo del controlador

5.2.1. Definicion de estados y acciones

Para definir la cadena de Markov, es necesario definir el conjunto de estados S y el conjunto

de acciones As para todo s ∈ S. Para lograr esto, el semiplano positivo X-Y es dividido en una

Page 41: Cadenas de Markov controladas: Robustez distribucional y

5.2 Modelo del controlador 35

Conjunto de estados As

Sld 1, 2, 5, 9Srd 1, 3, 7, 9Slu 2, 4, 6, 9Sru 3, 4, 8, 9Su 2, 3, 4, 6, 8, 9Sl 1, 2, 4, 5, 6, 9Sd 1, 2, 3, 5, 7, 9Sr 1, 3, 4, 7, 8, 9Sin 1, 2, 3, 4, 5, 6, 7, 8, 9

Tabla 5-4.: Acciones segun estado

grilla. La longitud del lado de los cuadrados que componen la grilla se fija en 0.1 metros. El

centro de cada cuadrado se localiza en los multiplos de 0.1 en ambas coordenadas (i.e 0, 0.1,

0.2, etc). Considerando una particion de n columnas y m filas, cada uno de los cuadrados

de la grilla son un estado. El estado numero 1 es el cuadrado centrado en el origen. Los

estados son enumerados horizontalmente en orden ascendente. Una vez se llega a la n-esima

columna, la numeracion continua en la fila inmediatamente superior.

Dentro del conjunto S, se definen los siguientes subconjuntos

Sld = S1, Srd = Sn,Slu = S(m−1)·n+1,Sru = SmnSu = S(m−1)·n+j|j = 2, . . . , n− 1Sl = Sj·n+1|j = 2, . . . ,m− 2Sd = Sj|j = 2, . . . , n− 1Sr = Sj·n|j = 2, . . . ,m− 1Sbor = (Su ∪ Sl ∪ Sd ∪ Sr)Sesq = (Sld ∪ Sld ∪ Sld ∪ Sld)Sin = S \ (Sesq ∪ Sbor)

(5-1)

donde Si es el i-esimo estado.

La siguiente convencion es utilizada para las acciones. En este contexto se entiende que la

accion “adelante”significa que el drone debe ir un cuadrado arriba en la grilla. Las acciones

disponibles en cada estado son definidas en la tabla 5-4 para cada s en el conjunto de es-

tados. La Figura 5-4 ilustra la numeracion del conjunto de estados S para el caso n = 4 y

m = 3 junto con una identificacion de los subconjuntos definidos en (5-1).

Page 42: Cadenas de Markov controladas: Robustez distribucional y

36 5 Aplicacion de MDPs al control de posicion de un drone de 4 helices

1 2 3 4

5 6 7 8

9 10 11 12 Sesq

Sin

Sl

Sr

Sd

Su

Figura 5-4.: Ejemplo de numeracion y de subconjuntos

5.2.2. Definicion de matriz de probabilidad de transicion

Para definir las matriz de probabilidad de transicion, se hace uso de un enfoque frecuencial.

Para esto, se define el tiempo tp como el tiempo entre la toma de decisiones del drone. Luego,

se define el numero de experimentos ne a realizar. Por cada experimento el drone se ubica en

el origen y se le indica que tome cada accion por separado. Tambien, por cada experimento se

tiene valores diferentes para las perturbaciones. Al cabo de tp segundos se observa la posicion

final del drone. De esta manera, se obtiene una estimacion de la probabilidad de que el drone

logre llegar a la posicion deseada despues de tp segundos. Se asume que las probabilidades

son homogeneas, por lo que se tiene la misma matriz de probabilidad de transicion en todo

los estados. Considerando que en los estados de los bordes y las esquinas de la grilla se tiene

que bajo ciertas acciones se sale de esta, se aplica una normalizacion de las probabilidades

para garantizar que estas sumen 1. Para aquellos estados para los cuales no esta disponible

la accion que determina la matriz, la fila correspondiente es de ceros.

5.2.3. Definicion de funciones de recompensa

La funcion de recompensas a utilizar es especificada en el caso de estudio 5.3.

5.2.4. Definicion de polıtica de control

La polıtica de control es la resultante del algoritmo de induccion hacia atras presentado en

la seccion 3.8.5.

5.3. Caso de estudio: Seguimiento de trayectoria con

MDP de horizonte finito

5.3.1. Descripcion

El caso a estudiar es aquel en el que el usuario define un camino que el drone debe seguir.

Sea Sdes ⊂ S el conjunto de estados que forman el camino deseado. Sea M = |Sdes|. Sea

NM := j ∈ N|j ≤ M y sea k : NM → Sdes una funcion tal que k(j) es el estado que se

Page 43: Cadenas de Markov controladas: Robustez distribucional y

5.4 Resultados 37

quiere que ocupe el drone en la epoca de decision j. De esta manera, bajo esta consideracion

se define un MDP de horizonte finito con M − 1 epocas de decision.

5.3.2. Funciones de recompensa

Para lograr el objetivo de que el drone siga la trayectoria esperada, se define la siguiente

funcion de recompensa para t = 1, . . . ,M :

rt(s, a) =

1000 si k(t) = s,

0 en caso contrario.

Note que bajo esta definicion, la recompensa depende unicamente del estado y no de las

acciones.

5.4. Resultados

Para el desarrollo de las simulaciones, se considera que el drone se encuentra en el origen

a tres metros de altura y que el tiempo entre epocas de decision es de 1,2 segundos. Se

consideran dos escenarios de prueba. En uno de ellos, el camino escogido comienza en la

posicion inicial del drone. En el otro escenario, el camino no comienza en la posicion inicial

del drone. Las figuras 5-5 y 5-6 muestran los resultados obtenidos.

(a) Posicion del drone (b) Perturbaciones

Figura 5-5.: Resultados camino con misma posicion inicial

Page 44: Cadenas de Markov controladas: Robustez distribucional y

38 5 Aplicacion de MDPs al control de posicion de un drone de 4 helices

(a) Posicion del drone (b) Perturbaciones

Figura 5-6.: Resultados camino con posicion inicial diferente

Se observa que en ambos casos, a pesar de las perturbaciones, el drone es capaz de seguir la

trayectoria dada.

5.4.1. Analisis de sensibilidad ante la matriz de perturbaciones

Para entender la sensibilidad de la polıtica de control frente a la matriz de probabilidades de

transicion, se simularon otras 4 matrices de transicion. Para el mismo camino de los 2 esce-

narios presentados anteriormente, se simulan las polıticas obtenidas. La figura 5-7 muestra

los resultados obtenidos.

Page 45: Cadenas de Markov controladas: Robustez distribucional y

5.4 Resultados 39

(a) Camino con posicion inicial igual (b) Camino con posicion inicial diferente

Figura 5-7.: Resultados a diferente matrices

En los resultados se observa que las lıneas que presentan un comportamiento diferente son

los resultados de la matriz 1 y 2. En el caso de de la figura 5-7.a se observa que la diferencia

entre el la lınea roja y la negra ocurre en el estado 13. Allı, el agente toma la decision de ir

en diagonal, cuando debe ir hacia arriba. Posterior a un analisis, se determina que la proba-

bilidad de llegar al estado 18, desde el estado 13, usando la accion 1 es menor para la matriz

utilizada para la simulacion de la lınea negra. Ası mismo, se destaca que la probabilidad de

llegar al estado 18 desde el estado 13 tomando la accion 5 es mayor en la matriz de la lınea

negra que para la matriz de la lınea roja. El agente, siendo consiente de estas diferencias en

probabilidad, y que en dos epocas de decision debe estar en el estado 19, opta por tomar

la decision 5 en vez de la decision 1, que es la ideal. Paralelamente, en el caso de la lınea

azul, se observa que la diferencia con respecto a la lınea roja ocurre en el estado 1. La matriz

utilizada para la lınea azul evidencia que existe una menor probabilidad de llegar al estado

2 desde el estado 1 tomando la accion 2 con respecto a la matriz de la lınea roja. Ası mismo,

existe una mayor probabilidad de llegar al estado 2 desde el estado 1 tomando la accion 5

con respecto a la matriz de la lınea roja. El agente, siendo consiente que debe estar en el es-

tado 3 en dos epocas de decision posterior, opta por tomar la accion 5 para llegar al estado 3.

Por otro lado, para el caso de los resultados mostrados en la figura 5-7.b se observa que

tanto la lınea negra como la azul difieren de la roja en el estado 13. En dicho estado, la

accion ideal a tomar es la accion 7. Sin tanto para el caso de la lınea azul como de la lınea

negra, la probabilidad de llegar a los estados 17 y 18 desde desde el estado 13 con la accion

7 es menor con respecto a las probabilidades de la lınea roja. En ambos casos, la accion 5

garantiza una mayor probabilidad de llegar al estado 18 con respecto a la accion 1. Esto es

relevante, teniendo en cuenta que en el siguiente momento del tiempo el estado deseado es el

Page 46: Cadenas de Markov controladas: Robustez distribucional y

40 5 Aplicacion de MDPs al control de posicion de un drone de 4 helices

estado 23. Ası mismo, se observa que existe una diferencia entre la lınea azul y la lınea negra

en el estado 19. Esto se debe a que en el estado 19, para la lınea negra es menos probable con

respecto a la lınea azul el llegar al estado 24 tomando las acciones 7 y 2 consecutivamente,

que tomar la accion 1 y luego quedarse quieto. Lo anterior, ya que las acciones 7 y 2 son

menos probables de ser efectivas para la lınea negra con respecto a la lınea azul.

5.4.2. Analisis de sensibilidad ante el tipo de perturbacion

Para entender la sensibilidad de la polıtica de control frente al tipo de viento utilizado, se

hizo un cambio en la distribucion de la intensidad de las perturbaciones. En este caso, se

considera una distribucion Beta con parametros α = 2, β = 5. Considerando los mismos

caminos para ambos escenarios la figura 5-8 muestra los resultados obtenidos.

(a) Camino con posicion inicial igual (b) Camino con posicion inicial diferente

Figura 5-8.: Resultados con distintos tipo de viento

Note que al considerar una distribucion Beta, se esta asumiendo que el vector de fuerza del

viento solo toma componentes positivas en X-Y, por lo tanto, habra una tendencia del drone

de irse en la aquellas direcciones (i.e hacia la derecha y hacia arriba). A pesar de esto, la

polıtica no cambia, por lo que se obtienen caminos que siguen las trayectorias dadas. Sin

embargo, no que los resultados de los experimentos con la nueva distribucion (negro, azul,

azul claro) estan desfasados ligeramente hacia arriba y hacia a la derecha con respecto a la

lınea roja, lo que evidencia el efecto del cambio en la distribucion de la fuerza del viento.

Page 47: Cadenas de Markov controladas: Robustez distribucional y

6. Conclusiones y trabajo futuro

6.1. Conclusiones

A partir del trabajo realizado, se estudio el concepto de los procesos de decision de Markov.

En este estudio se requirio la comprension de los elementos basicos de la teorıa de los MDPs

de horizonte finito y como estos pueden ser aplicados en distintos contextos. Para ello, se

estudio la aplicacion de los MDPs en el contexto de un problema de control de posicion de un

drone de 4 helices. Se observo que utilizando un modelo de MDP de horizonte finito, junto

con la adecuada estructuracion de la funcion de recompensas, al igual que con la escogencia

de los estados y acciones correspondientes, se puede estructurar una estrategia de control

de alto nivel que garantiza el control de posicion del drone para poder seguir la trayectoria

deseada.

Paralelamente, se logro comprender la formulacion de un MDP en un contexto robusto,

utilizando la metrica de Wasserstein. Se ahondo en el concepto de semi continuidad de

funciones y se comprendio la formulacion dual del problema, para garantizar su tratabilidad.

6.2. Trabajo futuro

Los resultados expuestos en la seccion 5.4 evidencian que al momento de hacer suposiciones

sobre la distribucion de probabilidad que rige la transicion entre estados, existe la posibilidad

de que hayan sesgos que alteran el funcionamiento del controlador. De aquı, para trabajos

futuros se considera la implementacion de algoritmos que permiten aplicar los resultados

del capıtulo 4 al caso de seguimiento de trayectorias en un drone de 4 helices. Para esto, se

podrıa utilizar la suposicion de que la fuerza del viento se distribuye normalmente con media

0 y de varianza desconocida. Para tomar las muestras a utilizar, se puede implementar el

algoritmo actual para determinar las matrices de transicion. Sin embargo, por cada iteracion

del algoritmo, se escoge una varianza diferente. De esta manera, se estarıan obteniendo

muestras que serviran como punto de partida para resolver los problemas de optimizacion

planteados en el capıtulo 4. A partir de los matrices muestreadas, se considera el problema

de optimizacion definido en (4-13). Considerando d como la norma l1 y tomando p = 1 el

problema de optimizacion interior se vuelve un problema lineal. Ası, para un π fijo, se puede

obtener su problema dual. De esta manera, el problema equivalente es de la la forma

maxx∈X

maxu∈U

f(x, u),

Page 48: Cadenas de Markov controladas: Robustez distribucional y

42 6 Conclusiones y trabajo futuro

donde los conjuntos X,U corresponden a las restricciones del problema dual. Aquı, serıa

posible utilizar algoritmos de optimizacion para encontrar las soluciones del problema dual,

y a ası, obtener las soluciones del problema primal.

Page 49: Cadenas de Markov controladas: Robustez distribucional y

A. Optimizacion estocastica

distribucionalmente robusta usando la

metrica de Wasserstein

Este apendice presenta los resultados de dualidad fuerte mostrados en [3], considerando

la definicion de la metrica de Wasserstein y la dualidad de Kantorovich presentados en la

seccion 4.1.3.

Considerese una funcion objetivo Ψ : X×Θ→ R y un agente que toma decisiones. El agente

busca tomar la decision x ∈ X con respecto a la funcion objetivo. Sin embargo, al momento

de tomar la decision, la funcion objetivo depende de un parametro ζ ∈ Θ desconocido para

el agente. Es razonable asumir que ζ es un elemento aleatorio con distribucion µ soportada

sobre Θ. En ese caso, se puede formular un problema de optimizacion estocastica de la forma

ınfx∈X

Eµ[Ψ(x, ζ)].

Dado que en la practica el conocimiento de la distribucion que rige el parametro es difıcil

de tener, se considera el problema de optimizacion estocastica distribucionalmente robusto

dado por

ınfx∈X

supµ∈M

Eµ[Ψ(x, ζ)],

en donde el conjunto M es un conjunto de distribuciones de probabilidad definido bajo

ciertas caracterısticas (i.e metricas estadısticas, momentos, etc). En este caso, se estudia el

caso en el que M esta dado por una bola en la metrica de Wasserstein. Se quiere estudiar el

concepto de dualidad, con el fin de hacer tratable el siguiente problema

supµ∈M

Eµ[Ψ(x, ζ)]. (A-1)

Para ello, considere la siguiente proposicion

Proposicion A.1. Sea el problema de optimizacion dado por (A-1). Suponga que la funcion

Ψ es acotada. El valor primal esta dado por

vP := supµ∈P(θ)

∫Θ

Ψ(ζ)µ(dζ)∣∣W p

p (µ, ν) ≤ θp

Page 50: Cadenas de Markov controladas: Robustez distribucional y

44A Optimizacion estocastica distribucionalmente robusta usando la metrica de

Wasserstein

y el valor dual esta dado por

vD := ınfλ≥0

λθp −

∫Θ

ınfζ∈Θλd(ζ, γ)−Ψ(ζ) ν(dγ)

.

Entonces, vP ≤ vD.

Observacion A.1. Note que se ha eliminado la dependencia en Ψ de x.

Demostracion. Note que para µ ∈M se tiene que W pp (µ, ν) ≤ θp. Entonces, θp−W p

p (µ, ν) ≥0. Considere el problema de optimizacion dado por

ınfλ≥0

∫Θ

Ψ(ζ)µ(dζ) + λ(θp −W pp (µ, ν)).

Si µ ∈M el optimo ocurre en λ = 0, pues θp −W pp (µ, ν) ≥ 0. En particular,

vP = supµ∈M

∫Θ

Ψ(ζ)(dζ) = supµ∈P(Θ)

ınfλ≥0

∫Θ

Ψ(ζ)µ(dζ) + λ(θp −W pp (µ, ν)).

Escribiendo el Lagrangiano y aplicando la desigualdad minimax se tiene que

supµ∈P(Θ)

ınfλ≥0

∫Θ

Ψ(ζ)µ(dζ)+λ(θp−W pp (µ, ν)) ≤ ınf

λ≥0

λθp + sup

µ∈P(Θ)

∫Θ

Ψ(ζ)µ(dζ)− λW pp (µ, ν)

.

Note que, por la dualidad de Kantorovich y las equivalencias expuestas en (4-4) se tiene que

para u ∈ L1(µ) se cumple que

supµ∈P(Θ)

∫Θ

Ψ(ζ)µ(dζ)− λW pp (µ, ν)

≤ sup

µ∈P(Θ)

∫Θ

Ψ(ζ)µ(dζ)

−λ(∫

Θ

u(ζ)µ(dζ)−∫

Θ

ınfζ∈Θdp(ζ, γ)− u(ζ) ν(dγ)

)Como Ψ es acotada, para λ > 0 se tiene que u = Ψ/λ ∈ L1(µ). Reemplazando dicha u se

obtiene que

supµ∈P(Θ)

∫Θ

Ψ(ζ)µ(dζ)− λW pp (µ, ν)

≤ −

∫Θ

ınfζ∈Θλdp(ζ, γ)−Ψ(ζ) ν(dγ).

En particular,

vP ≤ ınfλ≥0

λθP −

∫Θ

ınfζ∈Θλdp(ζ, γ)−Ψ(ζ) ν(dγ)

=: vD

Teorema A.1 (Teorema 1 en [3]). El problema vD admite un minimizador λ∗ y vP = vD.

Page 51: Cadenas de Markov controladas: Robustez distribucional y

Bibliografıa

[1] Bertsekas, D.P.: Convex optimization theory. Athena Scientific, Belmont, Massachu-

setts, 2009. – ISBN 9781886529311

[2] D.Hartman, K.Landis, M.Mehrer, S.Moreno, J. Kim: Quadcopter Dynamic

Modeling and Simulation (Quad-Sim). Disponible en https://github.com/dch33/

Quad-Sim. 2014. – Version 1.0

[3] Gao, Rui ; J. Kleywegt, Anton: Distributionally Robust Stochastic Optimization

with Wasserstein Distance. (2016), 04

[4] Goyal, Vineet ; Grand-Clement, Julien: Robust Markov Decision Process: Beyond

Rectangularity. (2018), 11

[5] Mannor, Shie ; Mebel, Ofir ; Xu, Huan: Robust MDPs with k -Rectangular Uncer-

tainty. En: Mathematics of Operations Research 41 (2016), 11, p. 1484–1509

[6] Puterman, Martin L.: Markov decision processes: discrete stochastic dynamic program-

ming. 1. Wiley-Interscience, 1994 (Wiley Series in Probability and Statistics). – ISBN

0471619779,9780471619772

[7] Villani, C: Optimal transport – Old and new. Vol. 338. 2008. – xxii+973 p.

[8] Wiesemann, Wolfram ; Kuhn, Daniel ; Rustem, Berc: Robust Markov Decision Pro-

cesses / COMISEF. 2010 ( 034). – Working Papers

[9] Yang, Insoon: A Convex Optimization Approach to Distributionally Robust Markov

Decision Processes With Wasserstein Distance. En: IEEE Control Systems Letters 1

(2017), p. 164–169