< [[neurali:reinforcement_learning]] =====Temporal Difference Learning===== https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node60.html * Il Metodo TD-learning può apprendere senza conoscere il modello delle dinamiche dell'ambiente. * Il Metodo TD-learning aggiorna le stime basandosi in parte su altre stime, senza aspettare la ricompensa finale restituita dall'ambiente. * Il Metodo TD-learning è stato usato per spiegare il funzionamento dei neuroni dopaminergici nei primati. * Il Metodo TD-learning è stato ideato per essere usato nel **tempo discreto** * Il tempo decisionale di una rete neurale con TD-learning è confrontabile con il tempo di un algoritmo classico. Iniziamo a parlare della politica di **stima** o predizione del problema, di una funzione Valore (V) per una **politica**. ===Esempio=== Guidando per tornare a casa dal lavoro, provi a prevedere il tempo necessario. Annotando giorno, ora e ogni altra informazione rilevante (clima?). Annoti i minuti previsti e i minuti effettivamente impiegati, lo fai più volte, durante il percorso, ogni volta che cambi strada. Uscendo dal parcheggio, per l'autostrata, per la strada secondaria. A volte la stima diminuisce a volte aumenta. Noti che quando piove il traffico rallenta Noti che sulle strate secondarie strette non puoi superare i camion. Alla partenza pensi di impiegare 30 minuti. All'arrivo ne hai impiegati 50. Puoi misurare l'errore iniziale (20) e correggere la stima iniziale. Il metodo TD-learning NON fa così, ma corregge la stima di un solo passo alla volta, facendo un confronto con la stima fatta per il passo successivo. **Un passo, una stima alla volta!** Per questo si chiama metodo delle differenze. Domanda: dove si vede l'uso della "ricompensa" in questo esempio ? ([[neurali:reinforcement learning]]) ====Vantaggi==== Rispetto alla programmazione dinamica **non** devo conoscere il modello dell'ambiente Garantisce comunque la convergenza Gli aspetti del TD-learning - è ideato come strumento di previsione - non è previsto per essere uno strumento di controllo delle decisioni/azioni -- A Spiking Neural Network Model of an Actor-Critic Learning Agent di Potjans e altri