neurali:reinforcement_learning
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revision | |||
neurali:reinforcement_learning [2017/06/25 17:48] – profpro | neurali:reinforcement_learning [2020/06/08 22:20] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ^ [[neurali: | ||
+ | |||
+ | ====== Reinforcement Learning====== | ||
+ | |||
+ | Nel particolare caso di [[neurali: | ||
+ | - habits (model-free conditioning) | ||
+ | - goal-directed behaviour (model-based conditioning) | ||
+ | |||
+ | ==== model-based e model-free==== | ||
+ | |||
+ | |||
+ | - il primo tipo permette l' | ||
+ | - il secondo tipo permette l' | ||
+ | |||
+ | |||
+ | Nelle reti neurali con **Reinforcement Learning** questi due sotto-tipi si ottengono, rispettivamente, | ||
+ | |||
+ | - ;;;; | ||
+ | * Richiede la previsione degli stati futuri del sistema, e può essere approfondita nella lettura di Kenji Doyac e altri: [[http:// | ||
+ | - ;;; | ||
+ | * posso utilizzare un algoritmo Value Iteration (un esempio è il Temporal Difference learning [[neurali: | ||
+ | |||
+ | - **Reinforcement learning ;;; | ||
+ | - [[neurali: | ||
+ | - [[neurali: | ||
+ | - [[neurali: | ||
+ | - [[neurali: | ||
+ | - [[neurali: | ||
+ | - [[neurali: | ||
+ | - [[neurali: | ||
+ | - modello neural fitted Q-iteration | ||
+ | - RL through Reward-modulated STDP | ||
+ | - **Reinforcement learning ;;;; | ||
+ | - continua... (model-based) | ||