User Tools

Site Tools


neurali:q-learning

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
neurali:q-learning [2016/06/28 13:04] – created profproneurali:q-learning [2020/06/08 22:20] (current) – external edit 127.0.0.1
Line 1: Line 1:
 +< [[neurali:reinforcement learning]]
  
 +Vedere Funzione Valore (value function)
 +
 +==== Q-function ====
 +
 +Se è un metodo ;;;model-free;;; significa forse che non conosco la matrice delle probab. delle transizioni?????...
 +
 +;;;Se conosco anche la matrice delle probabilità delle transizioni di un [[neurali:mdp]], posso determinare le coppie stato-azione;;;???
 +
 +Se non la conosco non posso applicare questo algoritmo????
 +
 +In modo analogo alla funzione valore definita ricorsivamente
 +
 +Q(s<sub>t</sub>,a<sub>t</sub>)
 +
 +Q-function (è detta anche politica??)
 +
 +Fornendo uno stato, Q restituisce l'azione (la politica) ottimale
 +
 +Si possono utilizzare due diversi metodi per ottenere l'azione ottimale
 +  - on-policy method
 +  - off-policy method (non ottimale)
 +
 +  - Il primo metodo usa l'algoritmo Q-value
 +  - il secondo l'algoritmo Q-learning che permette di ottenere, invece che l'azione ottimale, l'azione più grande possibile che si possa eseguire nello stato attuale (anche se non è ottimale come quella fornita dalla funzione Q-value)
neurali/q-learning.txt · Last modified: 2020/06/08 22:20 by 127.0.0.1