modelli_di_apprendimento

Markov decision processes (MDPs)

Nasce negli anni '50…..

È un framework, un insieme di regole per modellare problemi o processi decisionali i cui risultati sono parzialmente sotto il controllo dell'esecutore o agente decisionale. È utilizzato per lo studio dei problemi di ottimizzazione risolti tramite programmazione dinamica e apprendimento reinforcement learning, in ambito economico o di controllo automatico.

MDP è un processo di controllo stocastico in tempo discreto composto da

dominio = l'insieme di tutti stati posibili
dominio azioni = l'insieme di tutte azioni possibili (x ogni stato posso eseguire più azioni)
Matrice probabilità delle transizioni di stato, per ogni stato e ogni azione (descrive la politica Pgreco). si ricava dal punto 5????
reward = ricompensa prevista, a partire da ogni stato, dopo ogni azione intrapresa. le ricomense si sommano ad ogni passo che mi guida verso lo stato finale.
politica Pgreco(s,a) dà la probabilità di scegliere l'azione a in un certo stato s (è simile al punto 3 ????)

Domanda: Negli algoritmi model-free NON conosco la Matrice di probab. (il modello)…?????

Ad ogni passo, il processo stocastico (rappresenta il sistema da controllare) è in uno stato descritto dalla variabile s
L'agente esecutore può eseguire un'azione (descritta dalla variabile a) tra tutte quelle disponibili nello stato s
tale azione comporterà anche un cambiamento dello stato del sistema/processo, passando dallo stato s allo stato s' (casuale, non prevedibile con certezza)
l'ambiente in cui si trova il sistema/processo risponde fornendo una ricompensa/reward (r)
lo stato s' dipende solo da: a,s.
lo stato s' non dipende dalla sequenza storica dei precedenti stati

Quest'ultima condizione indica che il processo stocastico rispetta la proprietà di Markov https://it.wikipedia.org/wiki/Propriet%C3%A0_di_Markov

tratto da pag. 65 di questo articolo: Learning in large-scale spiking neural networks, di Trevor Bekolay e…

http://compneuro.uwaterloo.ca/files/publications/bekolay.2011a.pdf

MDP = Markov Decision Processes (4 elementi)

https://en.wikipedia.org/wiki/Markov_decision_process