User Tools

Site Tools


neurali:mdp

Markov decision processes (MDPs)

Nasce negli anni '50…..

È un framework, un insieme di regole per modellare problemi o processi decisionali i cui risultati sono parzialmente sotto il controllo dell'esecutore o agente decisionale. È utilizzato per lo studio dei problemi di ottimizzazione risolti tramite programmazione dinamica e apprendimento reinforcement learning, in ambito economico o di controllo automatico.

MDP è un processo di controllo stocastico in tempo discreto composto da

  1. dominio = l'insieme di tutti stati posibili
  2. dominio azioni = l'insieme di tutte azioni possibili (x ogni stato posso eseguire più azioni)
  3. Matrice probabilità delle transizioni di stato, per ogni stato e ogni azione (descrive la politica Pgreco). si ricava dal punto 5????
  4. reward = ricompensa prevista, a partire da ogni stato, dopo ogni azione intrapresa. le ricomense si sommano ad ogni passo che mi guida verso lo stato finale.
  5. politica Pgreco(s,a) dà la probabilità di scegliere l'azione a in un certo stato s (è simile al punto 3 ????)

Domanda: Negli algoritmi model-free NON conosco la Matrice di probab. (il modello)…?????

  • Ad ogni passo, il processo stocastico (rappresenta il sistema da controllare) è in uno stato descritto dalla variabile s
  • L'agente esecutore può eseguire un'azione (descritta dalla variabile a) tra tutte quelle disponibili nello stato s
  • tale azione comporterà anche un cambiamento dello stato del sistema/processo, passando dallo stato s allo stato s' (casuale, non prevedibile con certezza)
  • l'ambiente in cui si trova il sistema/processo risponde fornendo una ricompensa/reward (r)
  • lo stato s' dipende solo da: a,s.
  • lo stato s' non dipende dalla sequenza storica dei precedenti stati

Quest'ultima condizione indica che il processo stocastico rispetta la proprietà di Markov https://it.wikipedia.org/wiki/Propriet%C3%A0_di_Markov

tratto da pag. 65 di questo articolo: Learning in large-scale spiking neural networks, di Trevor Bekolay e…

http://compneuro.uwaterloo.ca/files/publications/bekolay.2011a.pdf

MDP = Markov Decision Processes (4 elementi)

https://en.wikipedia.org/wiki/Markov_decision_process

neurali/mdp.txt · Last modified: 2020/06/08 22:20 by 127.0.0.1