User Tools

Site Tools


neurali:reinforcement_learning

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

neurali:reinforcement_learning [2018/04/25 07:55]
neurali:reinforcement_learning [2020/06/08 22:20] (current)
Line 1: Line 1:
 +^ [[neurali:modelli_di_apprendimento|{{:neurali:indice.png?60}}]] ^ [[neurali:modelli_di_apprendimento]] ^
 +
 +====== Reinforcement Learning======
 +
 +Nel particolare caso di [[neurali:condizionamento operante]] si possono distinguere due casi particolari:
 +  - habits (model-free conditioning)
 +  - goal-directed behaviour (model-based conditioning)
 +
 +==== model-based e model-free====
 +
 +
 +  - il primo tipo permette l'associazione azione-risposta
 +  - il secondo tipo permette l'associazione azione-risposta, ma permette anche di apprendere la causa-effetto e modificare il comportamento (???)
 +
 +
 +Nelle reti neurali con **Reinforcement Learning** questi due sotto-tipi si ottengono, rispettivamente, attraverso questi due tipi di algoritmi di apprendimento:
 +
 +  - ;;;;**model-based**;;;;: nell'ipotesi che si conosca ;;;;esplicitamente;;;; il modello [[neurali:MDP]] del sistema
 +    * Richiede la previsione degli stati futuri del sistema, e può essere approfondita nella lettura di Kenji Doyac e altri: [[http://cognet.mit.edu/journal/10.1162/089976602753712972|"Multiple model-based reinforcement learning"]] (2001...)
 +  - ;;;**model-free**;;;: anche senza conoscere esplicitamente il modello [[neurali:MDP]] del sistema (uso sempre il modello [[neurali:MDP]] ma senza conoscerlo esplicitamente, solo tramite ;;;stime;;;!?)
 +    * posso utilizzare un algoritmo Value Iteration (un esempio è il Temporal Difference learning [[neurali:TD-Learning]])
 +
 +    - **Reinforcement learning ;;;model-free;;;**
 +      - [[neurali:TD-learning]]
 +      - [[neurali:MDP|Modello MDP]] (model-free)
 +      - [[neurali:Algoritmo Value Iteration]] (model-free)
 +      - [[neurali:Q-learning]]
 +      - [[neurali:dopamina]]
 +      - [[neurali:modello actor-critic]]
 +      - [[neurali:ricompensa globale]] 
 +      - modello neural fitted Q-iteration
 +      - RL through Reward-modulated STDP
 +    - **Reinforcement learning ;;;;model-based;;;;**
 +      - continua... (model-based)