Differences

This shows you the differences between two versions of the page.

Link to this comparison view

neurali:reinforced_learning [2018/04/25 07:55] (current)
Line 1: Line 1:
 +====== Reinforced learning ======
 +
 +
 +L'​ambiente esterno influenza l'​apprendimento/​addestramento. Ad esempio i bambini apprendono anche senza insegnante, in base a quello che hanno intorno. Tuttavia questo rimane un "​addestramento"​ di una rete a imitare una funzione e non si possono fare considerazioni con la mente dei bambini!
 +
 +===== Termini =====
 +
 +
 +  * agente: colui che decide e agisce
 +  * ambiente: colui che premia o punisce l'​agente
 +  * azione: ​
 +  * politica: delle decisioni per azioni
 +  * funzione premio/​punizione (costo?)
 +  * funzione valore: somma di tutti i premi nel tempo
 +
 +
 +
 +===== Temporal credit assignment problem =====
 +
 +In questo tipo di addestramento √® importante notare che esiste un **ritardo** tra l'​azione e la premiazione (o punizione) da parte dell'​ambiente.
 +
 +Politica: posso decidere tra due comportamenti:​
 +  * esplorare nuove azioni (necessario per poter apprendere)
 +  * sfruttare le conoscenze per ricevere il premio
 +
 +Migliore approccio?
 +
 +Non perdere tempo, imparare!
 +
 +Problema delle slot machine: cosa faccio se mi trovo davanti delle slot machine e non so dove ricever√≤ il premio?
 +
  
  • neurali/reinforced_learning.txt
  • Last modified: 2018/04/25 07:55
  • (external edit)