====== Reinforced learning ====== L'ambiente esterno influenza l'apprendimento/addestramento. Ad esempio i bambini apprendono anche senza insegnante, in base a quello che hanno intorno. Tuttavia questo rimane un "addestramento" di una rete a imitare una funzione e non si possono fare considerazioni con la mente dei bambini! ===== Termini ===== * agente: colui che decide e agisce * ambiente: colui che premia o punisce l'agente * azione: * politica: delle decisioni per azioni * funzione premio/punizione (costo?) * funzione valore: somma di tutti i premi nel tempo ===== Temporal credit assignment problem ===== In questo tipo di addestramento è importante notare che esiste un **ritardo** tra l'azione e la premiazione (o punizione) da parte dell'ambiente. Politica: posso decidere tra due comportamenti: * esplorare nuove azioni (necessario per poter apprendere) * sfruttare le conoscenze per ricevere il premio Migliore approccio? Non perdere tempo, imparare! Problema delle slot machine: cosa faccio se mi trovo davanti delle slot machine e non so dove riceverò il premio?