User Tools

Site Tools


neurali:mdp

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
neurali:mdp [2017/06/27 05:51] profproneurali:mdp [2020/06/08 22:20] (current) – external edit 127.0.0.1
Line 1: Line 1:
 +^ [[neurali:modelli_di_apprendimento|{{:neurali:indice.png?60}}]] ^ [[neurali:modelli_di_apprendimento]] ^
 +
 +======Markov decision processes (MDPs)======
 +
 +Nasce negli anni '50.....
 +
 +È un framework, un insieme di regole per modellare problemi o processi decisionali i cui risultati sono //parzialmente// sotto il controllo dell'esecutore o **agente** decisionale.
 +È utilizzato per lo studio dei problemi di ottimizzazione risolti tramite programmazione dinamica e apprendimento [[neurali:reinforcement learning]], in ambito economico o di controllo automatico.
 +
 +MDP è un processo di controllo __stocastico__ in **tempo discreto** composto da
 +
 +  - dominio = l'insieme di tutti ''stati'' posibili
 +  - dominio azioni = l'insieme di tutte azioni possibili (x ogni //stato// posso eseguire più azioni)
 +  - Matrice probabilità delle transizioni di stato, per ogni stato e ogni azione (descrive la politica Pgreco). si ricava dal punto 5????
 +  - reward = ricompensa prevista, a partire da ogni stato, dopo ogni azione intrapresa. le ricomense si sommano ad ogni passo che mi guida verso lo stato finale.
 +  - politica Pgreco(s,a) dà la probabilità di scegliere l'azione //a// in un certo stato //s// (è simile al punto 3 ????)
 +
 +;;;Domanda: Negli algoritmi model-free NON conosco la Matrice di probab. (il modello)...;;;?????
 +
 +  * Ad ogni passo, il processo stocastico (rappresenta il sistema da controllare) è in uno stato descritto dalla variabile //s//
 +  * L'agente esecutore può eseguire un'azione (descritta dalla variabile //a//) tra tutte quelle disponibili nello stato s
 +  * tale azione comporterà anche un cambiamento dello stato del sistema/processo, passando dallo stato //s// allo stato //s'// (casuale, non prevedibile con certezza)
 +  * l'ambiente in cui si trova il sistema/processo risponde fornendo una ricompensa/reward %%(r)%%
 +  * lo stato s' dipende solo da: a,s.
 +  * lo stato s' non dipende dalla sequenza storica dei precedenti stati
 +
 +Quest'ultima condizione indica che il processo stocastico rispetta la proprietà di Markov https://it.wikipedia.org/wiki/Propriet%C3%A0_di_Markov
 +
 +tratto da pag. 65 di questo articolo: //Learning in large-scale spiking neural networks//, di Trevor Bekolay e...
 +
 +http://compneuro.uwaterloo.ca/files/publications/bekolay.2011a.pdf
 +
 +MDP = Markov Decision Processes (4 elementi)
 +
 +https://en.wikipedia.org/wiki/Markov_decision_process