User Tools

Site Tools


neurali:td-learning

< reinforcement_learning

Temporal Difference Learning

https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node60.html

  • Il Metodo TD-learning può apprendere senza conoscere il modello delle dinamiche dell'ambiente.
  • Il Metodo TD-learning aggiorna le stime basandosi in parte su altre stime, senza aspettare la ricompensa finale restituita dall'ambiente.
  • Il Metodo TD-learning è stato usato per spiegare il funzionamento dei neuroni dopaminergici nei primati.
  • Il Metodo TD-learning è stato ideato per essere usato nel tempo discreto
  • Il tempo decisionale di una rete neurale con TD-learning è confrontabile con il tempo di un algoritmo classico.

Iniziamo a parlare della politica di stima o predizione del problema, di una funzione Valore (V) per una politica.

Esempio

Guidando per tornare a casa dal lavoro, provi a prevedere il tempo necessario. Annotando giorno, ora e ogni altra informazione rilevante (clima?). Annoti i minuti previsti e i minuti effettivamente impiegati, lo fai più volte, durante il percorso, ogni volta che cambi strada. Uscendo dal parcheggio, per l'autostrata, per la strada secondaria. A volte la stima diminuisce a volte aumenta. Noti che quando piove il traffico rallenta Noti che sulle strate secondarie strette non puoi superare i camion.

Alla partenza pensi di impiegare 30 minuti. All'arrivo ne hai impiegati 50. Puoi misurare l'errore iniziale (20) e correggere la stima iniziale.

Il metodo TD-learning NON fa così, ma corregge la stima di un solo passo alla volta, facendo un confronto con la stima fatta per il passo successivo. Un passo, una stima alla volta! Per questo si chiama metodo delle differenze.

Domanda: dove si vede l'uso della “ricompensa” in questo esempio ? (reinforcement learning)

Vantaggi

Rispetto alla programmazione dinamica non devo conoscere il modello dell'ambiente

Garantisce comunque la convergenza

Gli aspetti del TD-learning

  1. è ideato come strumento di previsione
  2. non è previsto per essere uno strumento di controllo delle decisioni/azioni

A Spiking Neural Network Model of an Actor-Critic Learning Agent di Potjans e altri

neurali/td-learning.txt · Last modified: 2023/06/09 10:04 by profpro