Differences

This shows you the differences between two versions of the page.

--- neurali:td-learning [2017/06/25 17:53] – profpro
+++ neurali:td-learning [2020/06/08 22:20] – external edit 127.0.0.1
@@ Line 1: / Line 1: @@
+< [[neurali:reinforcement_learning]]
+=====Temporal Difference Learning=====
+https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node60.html
+  * Il Metodo TD-learning può apprendere senza conoscere il modello delle dinamiche dell'ambiente.
+  * Il Metodo TD-learning aggiorna le stime basandosi in parte su altre stime, senza aspettare la ricompensa finale restituita dall'ambiente.
+  * Il Metodo TD-learning è stato usato per spiegare il funzionamento dei neuroni dopaminergici nei primati.
+  * Il Metodo TD-learning è stato ideato per essere usato nel **tempo discreto**
+  * Il tempo decisionale di una rete neurale con TD-learning è confrontabile con il tempo di un algoritmo classico.
+Iniziamo a parlare della politica di **stima** o predizione del problema, di V funzione valore per una politica.
+===Esempio===
+Guidando per tornare a casa dal lavoro, provi a prevedere il tempo necessario.
+Annotando giorno, ora e ogni altra informazione rilevante (clima?).
+Annoti i minuti previsti e i minuti effettivamente impiegati, lo fai più volte, durante il percorso, ogni volta che cambi strada.
+Uscendo dal parcheggio, per l'autostrata, per la strada secondaria.
+A volte la stima diminuisce a volte aumenta.
+Noti che quando piove il traffico rallenta
+Noti che sulle strate secondarie strette non puoi superare i camion.
+Alla partenza pensi di impiegare 30 minuti. All'arrivo ne hai impiegati 50.
+Puoi misurare l'errore iniziale (20) e correggere la stima iniziale.
+Il metodo TD-learning NON fa così, ma corregge la stima di un solo passo alla volta, facendo un confronto con la stima fatta per il passo successivo. **Un passo, una stima alla volta!**
+Per questo si chiama metodo delle differenze.
+Domanda: dove si vede l'uso della "ricompensa" in questo esempio ? ([[neurali:reinforcement learning]])
+====Vantaggi====
+Rispetto alla programmazione dinamica **non** devo conoscere il modello dell'ambiente
+Garantisce comunque la convergenza
+Gli aspetti del TD-learning
+  - è ideato come strumento di previsione
+  - non è previsto per essere uno strumento di controllo delle decisioni/azioni
+--
+A Spiking Neural Network Model of an Actor-Critic Learning Agent di Potjans e altri