User Tools

Site Tools


neurali:td-learning

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
Last revisionBoth sides next revision
neurali:td-learning [2017/06/25 17:53] profproneurali:td-learning [2020/06/08 22:20] – external edit 127.0.0.1
Line 1: Line 1:
 +< [[neurali:reinforcement_learning]]
 +
 +=====Temporal Difference Learning=====
 +
 +https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node60.html
 +
 +  * Il Metodo TD-learning può apprendere senza conoscere il modello delle dinamiche dell'ambiente.
 +  * Il Metodo TD-learning aggiorna le stime basandosi in parte su altre stime, senza aspettare la ricompensa finale restituita dall'ambiente.
 +  * Il Metodo TD-learning è stato usato per spiegare il funzionamento dei neuroni dopaminergici nei primati.
 +  * Il Metodo TD-learning è stato ideato per essere usato nel **tempo discreto**
 +  * Il tempo decisionale di una rete neurale con TD-learning è confrontabile con il tempo di un algoritmo classico.
 +
 +Iniziamo a parlare della politica di **stima** o predizione del problema, di V funzione valore per una politica.
 +
 +===Esempio===
 +
 +Guidando per tornare a casa dal lavoro, provi a prevedere il tempo necessario.
 +Annotando giorno, ora e ogni altra informazione rilevante (clima?).
 +Annoti i minuti previsti e i minuti effettivamente impiegati, lo fai più volte, durante il percorso, ogni volta che cambi strada. 
 +Uscendo dal parcheggio, per l'autostrata, per la strada secondaria.
 +A volte la stima diminuisce a volte aumenta.
 +Noti che quando piove il traffico rallenta
 +Noti che sulle strate secondarie strette non puoi superare i camion.
 +
 +
 +Alla partenza pensi di impiegare 30 minuti. All'arrivo ne hai impiegati 50.
 +Puoi misurare l'errore iniziale (20) e correggere la stima iniziale.
 +
 +Il metodo TD-learning NON fa così, ma corregge la stima di un solo passo alla volta, facendo un confronto con la stima fatta per il passo successivo. **Un passo, una stima alla volta!**
 +Per questo si chiama metodo delle differenze.
 +
 +Domanda: dove si vede l'uso della "ricompensa" in questo esempio ? ([[neurali:reinforcement learning]])
 +
 +====Vantaggi====
 +
 +Rispetto alla programmazione dinamica **non** devo conoscere il modello dell'ambiente
 +
 +Garantisce comunque la convergenza
 +
 +Gli aspetti del TD-learning
 +
 +  - è ideato come strumento di previsione
 +  - non è previsto per essere uno strumento di controllo delle decisioni/azioni
 +
 +
 +
 +--
 +
 +A Spiking Neural Network Model of an Actor-Critic Learning Agent di Potjans e altri
 +
 +
 +
  
neurali/td-learning.txt · Last modified: 2023/06/09 10:04 by profpro