neurali:ipotesi_architettura_action-critic
Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
neurali:ipotesi_architettura_action-critic [2016/07/05 06:45] – created profpro | neurali:ipotesi_architettura_action-critic [2020/06/08 22:20] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | < [[neurali: | ||
+ | < [[neurali: | ||
+ | |||
+ | Come si può implementare il modello actor-critic sul problema di [[neurali: | ||
+ | |||
+ | Teoria | ||
+ | |||
+ | {{neurali: | ||
+ | |||
+ | Ipotesi | ||
+ | |||
+ | Husky: | ||
+ | - propriocezione | ||
+ | - laser | ||
+ | - comando ricevuto | ||
+ | |||
+ | La valutazione dello stato attuale riceve 1 e 2 (7 stati di propriocezione + 360° di posizione dell' | ||
+ | |||
+ | Action riceve in input lo stato attuale e invia i comandi ad husky (3) | ||
+ | |||
+ | Action riceve anche la dopamina da parte di Critic | ||
+ | |||
+ | Critic riceve in input lo stato attuale e il comando inviato che torna indietro | ||
+ | |||
+ | Critic deve solo fare la differenza dei due ingressi e fornire dopamina quando sono uguali. Perchè quando sono uguali significa che mi muovo evitando gli ostacoli... | ||
+ | |||
+ | |||
+ | NOTA: per rilevare ostacoli con memoria della mappa dove mi muovo, devo aggiungere una memoria, cioè una memoria storica degli stati che vengono attraversati, |