User Tools

Site Tools


neurali:reinforcement_learning

Reinforcement Learning

Nel particolare caso di condizionamento operante si possono distinguere due casi particolari:

  1. habits (model-free conditioning)
  2. goal-directed behaviour (model-based conditioning)

model-based e model-free

  1. il primo tipo permette l'associazione azione-risposta
  2. il secondo tipo permette l'associazione azione-risposta, ma permette anche di apprendere la causa-effetto e modificare il comportamento (???)

Nelle reti neurali con Reinforcement Learning questi due sotto-tipi si ottengono, rispettivamente, attraverso questi due tipi di algoritmi di apprendimento:

  1. model-based: nell'ipotesi che si conosca esplicitamente il modello MDP del sistema
  2. model-free: anche senza conoscere esplicitamente il modello MDP del sistema (uso sempre il modello MDP ma senza conoscerlo esplicitamente, solo tramite stime!?)
    • posso utilizzare un algoritmo Value Iteration (un esempio è il Temporal Difference learning TD-Learning)
  1. Reinforcement learning model-free
    1. Modello MDP (model-free)
    2. modello neural fitted Q-iteration
    3. RL through Reward-modulated STDP
  2. Reinforcement learning model-based
    1. continua… (model-based)
neurali/reinforcement_learning.txt · Last modified: 2020/06/08 22:20 by 127.0.0.1