neurali:mdp
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revision | |||
neurali:mdp [2017/06/27 05:51] – profpro | neurali:mdp [2020/06/08 22:20] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ^ [[neurali: | ||
+ | |||
+ | ======Markov decision processes (MDPs)====== | ||
+ | |||
+ | Nasce negli anni ' | ||
+ | |||
+ | È un framework, un insieme di regole per modellare problemi o processi decisionali i cui risultati sono // | ||
+ | È utilizzato per lo studio dei problemi di ottimizzazione risolti tramite programmazione dinamica e apprendimento [[neurali: | ||
+ | |||
+ | MDP è un processo di controllo __stocastico__ in **tempo discreto** composto da | ||
+ | |||
+ | - dominio = l' | ||
+ | - dominio azioni = l' | ||
+ | - Matrice probabilità delle transizioni di stato, per ogni stato e ogni azione (descrive la politica Pgreco). si ricava dal punto 5???? | ||
+ | - reward = ricompensa prevista, a partire da ogni stato, dopo ogni azione intrapresa. le ricomense si sommano ad ogni passo che mi guida verso lo stato finale. | ||
+ | - politica Pgreco(s,a) dà la probabilità di scegliere l' | ||
+ | |||
+ | ;;;Domanda: Negli algoritmi model-free NON conosco la Matrice di probab. (il modello)...;;;????? | ||
+ | |||
+ | * Ad ogni passo, il processo stocastico (rappresenta il sistema da controllare) è in uno stato descritto dalla variabile //s// | ||
+ | * L' | ||
+ | * tale azione comporterà anche un cambiamento dello stato del sistema/ | ||
+ | * l' | ||
+ | * lo stato s' dipende solo da: a,s. | ||
+ | * lo stato s' non dipende dalla sequenza storica dei precedenti stati | ||
+ | |||
+ | Quest' | ||
+ | |||
+ | tratto da pag. 65 di questo articolo: //Learning in large-scale spiking neural networks//, di Trevor Bekolay e... | ||
+ | |||
+ | http:// | ||
+ | |||
+ | MDP = Markov Decision Processes (4 elementi) | ||
+ | |||
+ | https:// | ||