User Tools

Site Tools


neurali:td-learning

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
neurali:td-learning [2017/06/25 17:53]
profpro
neurali:td-learning [2020/06/08 22:20] (current)
Line 1: Line 1:
 +< [[neurali:reinforcement_learning]]
 +
 +=====Temporal Difference Learning=====
 +
 +https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node60.html
 +
 +  * Il Metodo TD-learning può apprendere senza conoscere il modello delle dinamiche dell'ambiente.
 +  * Il Metodo TD-learning aggiorna le stime basandosi in parte su altre stime, senza aspettare la ricompensa finale restituita dall'ambiente.
 +  * Il Metodo TD-learning è stato usato per spiegare il funzionamento dei neuroni dopaminergici nei primati.
 +  * Il Metodo TD-learning è stato ideato per essere usato nel **tempo discreto**
 +  * Il tempo decisionale di una rete neurale con TD-learning è confrontabile con il tempo di un algoritmo classico.
 +
 +Iniziamo a parlare della politica di **stima** o predizione del problema, di V funzione valore per una politica.
 +
 +===Esempio===
 +
 +Guidando per tornare a casa dal lavoro, provi a prevedere il tempo necessario.
 +Annotando giorno, ora e ogni altra informazione rilevante (clima?).
 +Annoti i minuti previsti e i minuti effettivamente impiegati, lo fai più volte, durante il percorso, ogni volta che cambi strada. 
 +Uscendo dal parcheggio, per l'autostrata, per la strada secondaria.
 +A volte la stima diminuisce a volte aumenta.
 +Noti che quando piove il traffico rallenta
 +Noti che sulle strate secondarie strette non puoi superare i camion.
 +
 +
 +Alla partenza pensi di impiegare 30 minuti. All'arrivo ne hai impiegati 50.
 +Puoi misurare l'errore iniziale (20) e correggere la stima iniziale.
 +
 +Il metodo TD-learning NON fa così, ma corregge la stima di un solo passo alla volta, facendo un confronto con la stima fatta per il passo successivo. **Un passo, una stima alla volta!**
 +Per questo si chiama metodo delle differenze.
 +
 +Domanda: dove si vede l'uso della "ricompensa" in questo esempio ? ([[neurali:reinforcement learning]])
 +
 +====Vantaggi====
 +
 +Rispetto alla programmazione dinamica **non** devo conoscere il modello dell'ambiente
 +
 +Garantisce comunque la convergenza
 +
 +Gli aspetti del TD-learning
 +
 +  - è ideato come strumento di previsione
 +  - non è previsto per essere uno strumento di controllo delle decisioni/azioni
 +
 +
 +
 +--
 +
 +A Spiking Neural Network Model of an Actor-Critic Learning Agent di Potjans e altri
 +
 +
 +
  
neurali/td-learning.txt · Last modified: 2020/06/08 22:20 (external edit)