Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
neurali:reinforcement_learning [2017/06/25 17:44]
profpro
neurali:reinforcement_learning [2018/04/25 07:55] (current)
Line 18: Line 18:
   - ;;;;​**model-based**;;;;:​ nell'​ipotesi che si conosca ;;;;​esplicitamente;;;;​ il modello [[neurali:​MDP]] del sistema   - ;;;;​**model-based**;;;;:​ nell'​ipotesi che si conosca ;;;;​esplicitamente;;;;​ il modello [[neurali:​MDP]] del sistema
     * Richiede la previsione degli stati futuri del sistema, e può essere approfondita nella lettura di Kenji Doyac e altri: [[http://​cognet.mit.edu/​journal/​10.1162/​089976602753712972|"​Multiple model-based reinforcement learning"​]] (2001...)     * Richiede la previsione degli stati futuri del sistema, e può essere approfondita nella lettura di Kenji Doyac e altri: [[http://​cognet.mit.edu/​journal/​10.1162/​089976602753712972|"​Multiple model-based reinforcement learning"​]] (2001...)
-  - ;;;​**model-free**;;;:​ anche senza conoscere esplicitamente il modello [[neurali:​MDP]] del sistema (uso sempre il modello [[neurali:​MDP]] ma senza conoscerlo esplicitamente?????)+  - ;;;​**model-free**;;;:​ anche senza conoscere esplicitamente il modello [[neurali:​MDP]] del sistema (uso sempre il modello [[neurali:​MDP]] ma senza conoscerlo esplicitamente, solo tramite ;;;​stime;;;​!?)
     * posso utilizzare un algoritmo Value Iteration (un esempio è il Temporal Difference learning [[neurali:​TD-Learning]])     * posso utilizzare un algoritmo Value Iteration (un esempio è il Temporal Difference learning [[neurali:​TD-Learning]])
  
  • neurali/reinforcement_learning.txt
  • Last modified: 2018/04/25 07:55
  • (external edit)