User Tools

Site Tools


neurali:reinforced_learning

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

neurali:reinforced_learning [2020/06/08 22:20] (current)
Line 1: Line 1:
 +====== Reinforced learning ======
 +
 +
 +L'ambiente esterno influenza l'apprendimento/addestramento. Ad esempio i bambini apprendono anche senza insegnante, in base a quello che hanno intorno. Tuttavia questo rimane un "addestramento" di una rete a imitare una funzione e non si possono fare considerazioni con la mente dei bambini!
 +
 +===== Termini =====
 +
 +
 +  * agente: colui che decide e agisce
 +  * ambiente: colui che premia o punisce l'agente
 +  * azione: 
 +  * politica: delle decisioni per azioni
 +  * funzione premio/punizione (costo?)
 +  * funzione valore: somma di tutti i premi nel tempo
 +
 +
 +
 +===== Temporal credit assignment problem =====
 +
 +In questo tipo di addestramento è importante notare che esiste un **ritardo** tra l'azione e la premiazione (o punizione) da parte dell'ambiente.
 +
 +Politica: posso decidere tra due comportamenti:
 +  * esplorare nuove azioni (necessario per poter apprendere)
 +  * sfruttare le conoscenze per ricevere il premio
 +
 +Migliore approccio?
 +
 +Non perdere tempo, imparare!
 +
 +Problema delle slot machine: cosa faccio se mi trovo davanti delle slot machine e non so dove riceverò il premio?
 +
  
neurali/reinforced_learning.txt · Last modified: 2020/06/08 22:20 (external edit)