neurali:reinforced_learning
no way to compare when less than two revisions
Differences
This shows you the differences between two versions of the page.
Previous revision | |||
— | neurali:reinforced_learning [2020/06/08 22:20] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== Reinforced learning ====== | ||
+ | |||
+ | |||
+ | L' | ||
+ | |||
+ | ===== Termini ===== | ||
+ | |||
+ | |||
+ | * agente: colui che decide e agisce | ||
+ | * ambiente: colui che premia o punisce l' | ||
+ | * azione: | ||
+ | * politica: delle decisioni per azioni | ||
+ | * funzione premio/ | ||
+ | * funzione valore: somma di tutti i premi nel tempo | ||
+ | |||
+ | |||
+ | |||
+ | ===== Temporal credit assignment problem ===== | ||
+ | |||
+ | In questo tipo di addestramento è importante notare che esiste un **ritardo** tra l' | ||
+ | |||
+ | Politica: posso decidere tra due comportamenti: | ||
+ | * esplorare nuove azioni (necessario per poter apprendere) | ||
+ | * sfruttare le conoscenze per ricevere il premio | ||
+ | |||
+ | Migliore approccio? | ||
+ | |||
+ | Non perdere tempo, imparare! | ||
+ | |||
+ | Problema delle slot machine: cosa faccio se mi trovo davanti delle slot machine e non so dove riceverò il premio? | ||
+ | |||
neurali/reinforced_learning.txt · Last modified: 2020/06/08 22:20 by 127.0.0.1