Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
neurali:mdp [2017/06/25 17:41]
profpro
neurali:mdp [2018/04/25 07:55] (current)
Line 5: Line 5:
 Nasce negli anni '​50..... Nasce negli anni '​50.....
  
-È un framework, un insieme di regole per modellare problemi o processi decisionali i cui risultati sono parzialmente sotto il controllo dell'​esecutore o **agente** decisionale.+È un framework, un insieme di regole per modellare problemi o processi decisionali i cui risultati sono //parzialmente// sotto il controllo dell'​esecutore o **agente** decisionale.
 È utilizzato per lo studio dei problemi di ottimizzazione risolti tramite programmazione dinamica e apprendimento [[neurali:​reinforcement learning]], in ambito economico o di controllo automatico. È utilizzato per lo studio dei problemi di ottimizzazione risolti tramite programmazione dinamica e apprendimento [[neurali:​reinforcement learning]], in ambito economico o di controllo automatico.
  
-MDP è un processo di controllo __stocastico__ in tempo discreto composto da+MDP è un processo di controllo __stocastico__ in **tempo discreto** composto da
  
   - dominio = l'​insieme di tutti ''​stati''​ posibili   - dominio = l'​insieme di tutti ''​stati''​ posibili
-  - dominio azioni = l'​insieme di tutte azioni possibili (x ogni //​stato//​) +  - dominio azioni = l'​insieme di tutte azioni possibili (x ogni //​stato// ​posso eseguire più azioni
-  - Matrice probabilità delle transizioni di stato, per ogni stato e ogni azione (descrive la politica Pgreco) +  - Matrice probabilità delle transizioni di stato, per ogni stato e ogni azione (descrive la politica Pgreco). si ricava dal punto 5???? 
-  - reward = ricompensa prevista, a partire da ogni stato, dopo ogni azione intrapresa.+  - reward = ricompensa prevista, a partire da ogni stato, dopo ogni azione intrapresa. le ricomense si sommano ad ogni passo che mi guida verso lo stato finale.
   - politica Pgreco(s,a) dà la probabilità di scegliere l'​azione //a// in un certo stato //s// (è simile al punto 3 ????)   - politica Pgreco(s,a) dà la probabilità di scegliere l'​azione //a// in un certo stato //s// (è simile al punto 3 ????)
  
 ;;;Domanda: Negli algoritmi model-free NON conosco la Matrice di probab. (il modello)...;;;?????​ ;;;Domanda: Negli algoritmi model-free NON conosco la Matrice di probab. (il modello)...;;;?????​
  
-  * Ad ogni passo il processo stocastico (rappresenta il sistema da controllare) è in uno stato descritto dalla variabile //s//+  * Ad ogni passoil processo stocastico (rappresenta il sistema da controllare) è in uno stato descritto dalla variabile //s//
   * L'​agente esecutore può eseguire un'​azione (descritta dalla variabile //a//) tra tutte quelle disponibili nello stato s   * L'​agente esecutore può eseguire un'​azione (descritta dalla variabile //a//) tra tutte quelle disponibili nello stato s
   * tale azione comporterà anche un cambiamento dello stato del sistema/​processo,​ passando dallo stato //s// allo stato //s'// (casuale, non prevedibile con certezza)   * tale azione comporterà anche un cambiamento dello stato del sistema/​processo,​ passando dallo stato //s// allo stato //s'// (casuale, non prevedibile con certezza)
  • neurali/mdp.txt
  • Last modified: 2018/04/25 07:55
  • (external edit)