Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
neurali:algoritmo_value_iteration [2017/06/25 18:48]
profpro
neurali:algoritmo_value_iteration [2018/04/25 07:55] (current)
Line 8: Line 8:
  
 L'​obiettivo del [[neurali:​Reinforcement Learning]] (LD) è, in ogni //stato// del sistema, quello di attuare l'​azione che porterà in stati futuri che poi produrranno le **massime** ricompense. L'​obiettivo del [[neurali:​Reinforcement Learning]] (LD) è, in ogni //stato// del sistema, quello di attuare l'​azione che porterà in stati futuri che poi produrranno le **massime** ricompense.
-Il criteri ​di scelta delle azioni (la politica delle azioni) si può ottenere in vari modi:+Il criterio ​di scelta delle azioni (la politica delle azioni) si può ottenere in vari modi:
   * ad esempio, conoscendo **esplicitamente** prima tutti gli stati, attraversandoli iterativamente,​ memorizzando in una **tabella le azioni** che producono massima ricompensa o minima punizione. ​   * ad esempio, conoscendo **esplicitamente** prima tutti gli stati, attraversandoli iterativamente,​ memorizzando in una **tabella le azioni** che producono massima ricompensa o minima punizione. ​
   * ad esempio, i cuccioli degli animali, con il comportamento del gioco, riescono a fare esperienze ed a scoprire quale azione associare a quale stato per ottenere la massima ricompensa...   * ad esempio, i cuccioli degli animali, con il comportamento del gioco, riescono a fare esperienze ed a scoprire quale azione associare a quale stato per ottenere la massima ricompensa...
  
 +Trattandosi di un processo iterativo, bisogna avere tabelle piccole su cui iterare, quindi insieme finito di stati e azioni.
  
 ===Iterazione=== ===Iterazione===
Line 19: Line 19:
   - inizialmente sono valori assegnati in modo random perche sconosciuti   - inizialmente sono valori assegnati in modo random perche sconosciuti
   - quando mi trovo in uno stato, ricevo la vera ricompensa di quello stato, la correggo rispetto a quella ipotizzata   - quando mi trovo in uno stato, ricevo la vera ricompensa di quello stato, la correggo rispetto a quella ipotizzata
-  - devo memorizzare anche quale azione mi ha portato a quello stato? si, dato che sopra parla di **tabdelle azioni**+  - devo memorizzare anche quale azione mi ha portato a quello stato? si, c'è un coefficiente ​che serve per dare molto peso alle ricompense iniziali (la somma di tutte le ricompense ottenute, per scoprire quale è la strada per ottenere la ricompensa totale massima)
   - ripeto un numero finite di volte, alla cieca, perché nessuno sa se si arriva ad una tabella stabile...   - ripeto un numero finite di volte, alla cieca, perché nessuno sa se si arriva ad una tabella stabile...
  
  • neurali/algoritmo_value_iteration.txt
  • Last modified: 2018/04/25 07:55
  • (external edit)