neurali:td-learning
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revisionLast revisionBoth sides next revision | ||
neurali:td-learning [2017/06/25 17:53] – profpro | neurali:td-learning [2020/06/08 22:20] – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | < [[neurali: | ||
+ | |||
+ | =====Temporal Difference Learning===== | ||
+ | |||
+ | https:// | ||
+ | |||
+ | * Il Metodo TD-learning può apprendere senza conoscere il modello delle dinamiche dell' | ||
+ | * Il Metodo TD-learning aggiorna le stime basandosi in parte su altre stime, senza aspettare la ricompensa finale restituita dall' | ||
+ | * Il Metodo TD-learning è stato usato per spiegare il funzionamento dei neuroni dopaminergici nei primati. | ||
+ | * Il Metodo TD-learning è stato ideato per essere usato nel **tempo discreto** | ||
+ | * Il tempo decisionale di una rete neurale con TD-learning è confrontabile con il tempo di un algoritmo classico. | ||
+ | |||
+ | Iniziamo a parlare della politica di **stima** o predizione del problema, di V funzione valore per una politica. | ||
+ | |||
+ | ===Esempio=== | ||
+ | |||
+ | Guidando per tornare a casa dal lavoro, provi a prevedere il tempo necessario. | ||
+ | Annotando giorno, ora e ogni altra informazione rilevante (clima?). | ||
+ | Annoti i minuti previsti e i minuti effettivamente impiegati, lo fai più volte, durante il percorso, ogni volta che cambi strada. | ||
+ | Uscendo dal parcheggio, per l' | ||
+ | A volte la stima diminuisce a volte aumenta. | ||
+ | Noti che quando piove il traffico rallenta | ||
+ | Noti che sulle strate secondarie strette non puoi superare i camion. | ||
+ | |||
+ | |||
+ | Alla partenza pensi di impiegare 30 minuti. All' | ||
+ | Puoi misurare l' | ||
+ | |||
+ | Il metodo TD-learning NON fa così, ma corregge la stima di un solo passo alla volta, facendo un confronto con la stima fatta per il passo successivo. **Un passo, una stima alla volta!** | ||
+ | Per questo si chiama metodo delle differenze. | ||
+ | |||
+ | Domanda: dove si vede l'uso della " | ||
+ | |||
+ | ====Vantaggi==== | ||
+ | |||
+ | Rispetto alla programmazione dinamica **non** devo conoscere il modello dell' | ||
+ | |||
+ | Garantisce comunque la convergenza | ||
+ | |||
+ | Gli aspetti del TD-learning | ||
+ | |||
+ | - è ideato come strumento di previsione | ||
+ | - non è previsto per essere uno strumento di controllo delle decisioni/ | ||
+ | |||
+ | |||
+ | |||
+ | -- | ||
+ | |||
+ | A Spiking Neural Network Model of an Actor-Critic Learning Agent di Potjans e altri | ||
+ | |||
+ | |||
+ | |||
neurali/td-learning.txt · Last modified: 2023/06/09 10:04 by profpro