Differences

This shows you the differences between two versions of the page.

--- neurali:reinforcement_learning [2017/06/25 17:48] – profpro
+++ neurali:reinforcement_learning [2020/06/08 22:20] (current) – external edit 127.0.0.1
@@ Line 1: / Line 1: @@
+^ [[neurali:modelli_di_apprendimento|{{:neurali:indice.png?60}}]] ^ [[neurali:modelli_di_apprendimento]] ^
+====== Reinforcement Learning======
+Nel particolare caso di [[neurali:condizionamento operante]] si possono distinguere due casi particolari:
+  - habits (model-free conditioning)
+  - goal-directed behaviour (model-based conditioning)
+==== model-based e model-free====
+  - il primo tipo permette l'associazione azione-risposta
+  - il secondo tipo permette l'associazione azione-risposta, ma permette anche di apprendere la causa-effetto e modificare il comportamento (???)
+Nelle reti neurali con **Reinforcement Learning** questi due sotto-tipi si ottengono, rispettivamente, attraverso questi due tipi di algoritmi di apprendimento:
+  - ;;;;**model-based**;;;;: nell'ipotesi che si conosca ;;;;esplicitamente;;;; il modello [[neurali:MDP]] del sistema
+    * Richiede la previsione degli stati futuri del sistema, e può essere approfondita nella lettura di Kenji Doyac e altri: [[http://cognet.mit.edu/journal/10.1162/089976602753712972|"Multiple model-based reinforcement learning"]] (2001...)
+  - ;;;**model-free**;;;: anche senza conoscere esplicitamente il modello [[neurali:MDP]] del sistema (uso sempre il modello [[neurali:MDP]] ma senza conoscerlo esplicitamente, solo tramite ;;;stime;;;!?)
+    * posso utilizzare un algoritmo Value Iteration (un esempio è il Temporal Difference learning [[neurali:TD-Learning]])
+    - **Reinforcement learning ;;;model-free;;;**
+      - [[neurali:TD-learning]]
+      - [[neurali:MDP|Modello MDP]] (model-free)
+      - [[neurali:Algoritmo Value Iteration]] (model-free)
+      - [[neurali:Q-learning]]
+      - [[neurali:dopamina]]
+      - [[neurali:modello actor-critic]]
+      - [[neurali:ricompensa globale]]
+      - modello neural fitted Q-iteration
+      - RL through Reward-modulated STDP
+    - **Reinforcement learning ;;;;model-based;;;;**
+      - continua... (model-based)