< [[neurali:reinforcement_learning]]

=====Temporal Difference Learning=====

https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node60.html

  * Il Metodo TD-learning può apprendere senza conoscere il modello delle dinamiche dell'ambiente.
  * Il Metodo TD-learning aggiorna le stime basandosi in parte su altre stime, senza aspettare la ricompensa finale restituita dall'ambiente.
  * Il Metodo TD-learning è stato usato per spiegare il funzionamento dei neuroni dopaminergici nei primati.
  * Il Metodo TD-learning è stato ideato per essere usato nel **tempo discreto**
  * Il tempo decisionale di una rete neurale con TD-learning è confrontabile con il tempo di un algoritmo classico.

Iniziamo a parlare della politica di **stima** o predizione del problema, di una funzione Valore (V) per una **politica**.

===Esempio===

Guidando per tornare a casa dal lavoro, provi a prevedere il tempo necessario.
Annotando giorno, ora e ogni altra informazione rilevante (clima?).
Annoti i minuti previsti e i minuti effettivamente impiegati, lo fai più volte, durante il percorso, ogni volta che cambi strada. 
Uscendo dal parcheggio, per l'autostrata, per la strada secondaria.
A volte la stima diminuisce a volte aumenta.
Noti che quando piove il traffico rallenta
Noti che sulle strate secondarie strette non puoi superare i camion.


Alla partenza pensi di impiegare 30 minuti. All'arrivo ne hai impiegati 50.
Puoi misurare l'errore iniziale (20) e correggere la stima iniziale.

Il metodo TD-learning NON fa così, ma corregge la stima di un solo passo alla volta, facendo un confronto con la stima fatta per il passo successivo. **Un passo, una stima alla volta!**
Per questo si chiama metodo delle differenze.

Domanda: dove si vede l'uso della "ricompensa" in questo esempio ? ([[neurali:reinforcement learning]])

====Vantaggi====

Rispetto alla programmazione dinamica **non** devo conoscere il modello dell'ambiente

Garantisce comunque la convergenza

Gli aspetti del TD-learning

  - è ideato come strumento di previsione
  - non è previsto per essere uno strumento di controllo delle decisioni/azioni


--

A Spiking Neural Network Model of an Actor-Critic Learning Agent di Potjans e altri