neurali:modello_actor-critic
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
neurali:modello_actor-critic [2017/06/25 14:59] – profpro | neurali:modello_actor-critic [2020/06/08 22:20] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | < [[neurali: | ||
+ | |||
+ | Articolo: //A Spiking Neural Network Model of an Actor-Critic Learning Agent// di Potjans e altri | ||
+ | |||
+ | ======Actor-critic model====== | ||
+ | |||
+ | È una variante sull' | ||
+ | |||
+ | Potjans la adotta con neuroni [[neurali: | ||
+ | |||
+ | Problematiche: | ||
+ | * per TD-learning è necessario il tempo discreto, mentre nelle dinamiche delle sinapsi sarebbe necessario il tempo continuo. Si vedrà che la soluzione adottata è... ???? | ||
+ | * per TD-learning manca la memoria della storia di tutti gli stati attraversati. Si vedrà che come soluzione si possono aggiungere connessioni ricorrenti RNN | ||
+ | |||
+ | L' | ||
+ | |||
+ | L';;;; | ||
+ | - La rete *Actor* è quella che stabiisce l' | ||
+ | - La rete *Critic* è quella che valuta le conseguenze di tale azione, modificando V(s) del passo temporale < | ||
+ | |||
+ | L';;; | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Nel precedente schema si possono osservare diversi passi discreti: | ||
+ | - l' | ||
+ | - gli stimoli (input) sono percepiti dalla rete che elabora una stima dello //stato attuale// del sistema | ||
+ | - nel passo di acquisizione degli input, deve essere inibita (modulandola) la scelta di un' | ||
+ | - nel passo di elaborazione/ | ||
+ | - contemporaneamente, | ||
+ | - Nel passo di attuazione, i neuroni di //Action// inviano l' | ||
+ | - contemporaneamente, | ||
+ | - Si ritorna al primo passo... quando l' | ||
+ | |||
+ | ==== Plasticità stato-critic==== | ||
+ | |||
+ | Queste connessioni rappresentano la funzione valore V | ||
+ | |||
+ | - Le connessioni tra stato_attuale e critic sono fisse quando il sistema si trova in un determinato stato, sono plastiche per poco pochissimo tempo, quando cambia lo stato attuale. Dove prendo il segnale che mi notifica il momento del cambiamento di stato? Prendo il pre-sinaptic rate aggiungendo un passa basso...... | ||
+ | - I pesi sinaptici si dovrebbero modificare nel tempo **continuo**, | ||
+ | - Critic è un previsore di ricompense? sono plastiche su se stesse? | ||
+ | |||
+ | La [[neurali: | ||
+ | |||
+ | ==== Plasticità stato-actor ==== | ||
+ | |||
+ | Queste connessioni rappresentano la // | ||
+ | |||
+ | queste connessioni si aggiornano in un altro momento, cioè subito dopo la scelta dell' | ||
+ | |||
+ | i pesi sinaptici sono proporzionali alla funzione valore, e si arriva a dire che sono proporzionali ai pesi sinaptici di stato-critic! | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== Temporal credit assignement problem ==== | ||
+ | Cosa significa? Come distribuire le ricompense ricevute in uno stato dopo una azione? Le ricompense vanno distribuite termporalmente a tutti gli stati che ci hanno portato in questa situazione. | ||
+ | |||
+ | |||
+ | |||
+ | {{: | ||
+ | |||