Differences

This shows you the differences between two versions of the page.

@@ Line 1: / Line 1: @@
+====== Reinforced learning ======
+L'ambiente esterno influenza l'apprendimento/addestramento. Ad esempio i bambini apprendono anche senza insegnante, in base a quello che hanno intorno. Tuttavia questo rimane un "addestramento" di una rete a imitare una funzione e non si possono fare considerazioni con la mente dei bambini!
+===== Termini =====
+  * agente: colui che decide e agisce
+  * ambiente: colui che premia o punisce l'agente
+  * azione:
+  * politica: delle decisioni per azioni
+  * funzione premio/punizione (costo?)
+  * funzione valore: somma di tutti i premi nel tempo
+===== Temporal credit assignment problem =====
+In questo tipo di addestramento è importante notare che esiste un **ritardo** tra l'azione e la premiazione (o punizione) da parte dell'ambiente.
+Politica: posso decidere tra due comportamenti:
+  * esplorare nuove azioni (necessario per poter apprendere)
+  * sfruttare le conoscenze per ricevere il premio
+Migliore approccio?
+Non perdere tempo, imparare!
+Problema delle slot machine: cosa faccio se mi trovo davanti delle slot machine e non so dove riceverò il premio?