Differences

This shows you the differences between two versions of the page.

--- neurali:mdp [2017/06/27 05:51] – profpro
+++ neurali:mdp [2020/06/08 22:20] (current) – external edit 127.0.0.1
@@ Line 1: / Line 1: @@
+^ [[neurali:modelli_di_apprendimento|{{:neurali:indice.png?60}}]] ^ [[neurali:modelli_di_apprendimento]] ^
+======Markov decision processes (MDPs)======
+Nasce negli anni '50.....
+È un framework, un insieme di regole per modellare problemi o processi decisionali i cui risultati sono //parzialmente// sotto il controllo dell'esecutore o **agente** decisionale.
+È utilizzato per lo studio dei problemi di ottimizzazione risolti tramite programmazione dinamica e apprendimento [[neurali:reinforcement learning]], in ambito economico o di controllo automatico.
+MDP è un processo di controllo __stocastico__ in **tempo discreto** composto da
+  - dominio = l'insieme di tutti ''stati'' posibili
+  - dominio azioni = l'insieme di tutte azioni possibili (x ogni //stato// posso eseguire più azioni)
+  - Matrice probabilità delle transizioni di stato, per ogni stato e ogni azione (descrive la politica Pgreco). si ricava dal punto 5????
+  - reward = ricompensa prevista, a partire da ogni stato, dopo ogni azione intrapresa. le ricomense si sommano ad ogni passo che mi guida verso lo stato finale.
+  - politica Pgreco(s,a) dà la probabilità di scegliere l'azione //a// in un certo stato //s// (è simile al punto 3 ????)
+;;;Domanda: Negli algoritmi model-free NON conosco la Matrice di probab. (il modello)...;;;?????
+  * Ad ogni passo, il processo stocastico (rappresenta il sistema da controllare) è in uno stato descritto dalla variabile //s//
+  * L'agente esecutore può eseguire un'azione (descritta dalla variabile //a//) tra tutte quelle disponibili nello stato s
+  * tale azione comporterà anche un cambiamento dello stato del sistema/processo, passando dallo stato //s// allo stato //s'// (casuale, non prevedibile con certezza)
+  * l'ambiente in cui si trova il sistema/processo risponde fornendo una ricompensa/reward %%(r)%%
+  * lo stato s' dipende solo da: a,s.
+  * lo stato s' non dipende dalla sequenza storica dei precedenti stati
+Quest'ultima condizione indica che il processo stocastico rispetta la proprietà di Markov https://it.wikipedia.org/wiki/Propriet%C3%A0_di_Markov
+tratto da pag. 65 di questo articolo: //Learning in large-scale spiking neural networks//, di Trevor Bekolay e...
+http://compneuro.uwaterloo.ca/files/publications/bekolay.2011a.pdf
+MDP = Markov Decision Processes (4 elementi)
+https://en.wikipedia.org/wiki/Markov_decision_process