neurali:reinforced_learning
Table of Contents
Reinforced learning
L'ambiente esterno influenza l'apprendimento/addestramento. Ad esempio i bambini apprendono anche senza insegnante, in base a quello che hanno intorno. Tuttavia questo rimane un “addestramento” di una rete a imitare una funzione e non si possono fare considerazioni con la mente dei bambini!
Termini
- agente: colui che decide e agisce
- ambiente: colui che premia o punisce l'agente
- azione:
- politica: delle decisioni per azioni
- funzione premio/punizione (costo?)
- funzione valore: somma di tutti i premi nel tempo
Temporal credit assignment problem
In questo tipo di addestramento è importante notare che esiste un ritardo tra l'azione e la premiazione (o punizione) da parte dell'ambiente.
Politica: posso decidere tra due comportamenti:
- esplorare nuove azioni (necessario per poter apprendere)
- sfruttare le conoscenze per ricevere il premio
Migliore approccio?
Non perdere tempo, imparare!
Problema delle slot machine: cosa faccio se mi trovo davanti delle slot machine e non so dove riceverò il premio?
neurali/reinforced_learning.txt · Last modified: 2020/06/08 22:20 by 127.0.0.1