neurali:reinforcement_learning
Reinforcement Learning
Nel particolare caso di condizionamento operante si possono distinguere due casi particolari:
- habits (model-free conditioning)
- goal-directed behaviour (model-based conditioning)
model-based e model-free
- il primo tipo permette l'associazione azione-risposta
- il secondo tipo permette l'associazione azione-risposta, ma permette anche di apprendere la causa-effetto e modificare il comportamento (???)
Nelle reti neurali con Reinforcement Learning questi due sotto-tipi si ottengono, rispettivamente, attraverso questi due tipi di algoritmi di apprendimento:
-
- Richiede la previsione degli stati futuri del sistema, e può essere approfondita nella lettura di Kenji Doyac e altri: "Multiple model-based reinforcement learning" (2001…)
- model-free: anche senza conoscere esplicitamente il modello MDP del sistema (uso sempre il modello MDP ma senza conoscerlo esplicitamente, solo tramite stime!?)
- posso utilizzare un algoritmo Value Iteration (un esempio è il Temporal Difference learning TD-Learning)
- Reinforcement learning model-free
- Modello MDP (model-free)
- Algoritmo Value Iteration (model-free)
- modello neural fitted Q-iteration
- RL through Reward-modulated STDP
- Reinforcement learning model-based
- continua… (model-based)
neurali/reinforcement_learning.txt · Last modified: 2020/06/08 22:20 by 127.0.0.1