Markov decision processes (MDPs)
Nasce negli anni '50…..
È un framework, un insieme di regole per modellare problemi o processi decisionali i cui risultati sono parzialmente sotto il controllo dell'esecutore o agente decisionale. È utilizzato per lo studio dei problemi di ottimizzazione risolti tramite programmazione dinamica e apprendimento reinforcement learning, in ambito economico o di controllo automatico.
MDP è un processo di controllo stocastico in tempo discreto composto da
- dominio = l'insieme di tutti
stati
posibili - dominio azioni = l'insieme di tutte azioni possibili (x ogni stato posso eseguire più azioni)
- Matrice probabilità delle transizioni di stato, per ogni stato e ogni azione (descrive la politica Pgreco). si ricava dal punto 5????
- reward = ricompensa prevista, a partire da ogni stato, dopo ogni azione intrapresa. le ricomense si sommano ad ogni passo che mi guida verso lo stato finale.
- politica Pgreco(s,a) dà la probabilità di scegliere l'azione a in un certo stato s (è simile al punto 3 ????)
Domanda: Negli algoritmi model-free NON conosco la Matrice di probab. (il modello)…?????
- Ad ogni passo, il processo stocastico (rappresenta il sistema da controllare) è in uno stato descritto dalla variabile s
- L'agente esecutore può eseguire un'azione (descritta dalla variabile a) tra tutte quelle disponibili nello stato s
- tale azione comporterà anche un cambiamento dello stato del sistema/processo, passando dallo stato s allo stato s' (casuale, non prevedibile con certezza)
- l'ambiente in cui si trova il sistema/processo risponde fornendo una ricompensa/reward (r)
- lo stato s' dipende solo da: a,s.
- lo stato s' non dipende dalla sequenza storica dei precedenti stati
Quest'ultima condizione indica che il processo stocastico rispetta la proprietà di Markov https://it.wikipedia.org/wiki/Propriet%C3%A0_di_Markov
tratto da pag. 65 di questo articolo: Learning in large-scale spiking neural networks, di Trevor Bekolay e…
http://compneuro.uwaterloo.ca/files/publications/bekolay.2011a.pdf
MDP = Markov Decision Processes (4 elementi)