Differences

This shows you the differences between two versions of the page.

--- neurali:q-learning [2016/06/28 13:05] – profpro
+++ neurali:q-learning [2020/06/08 22:20] (current) – external edit 127.0.0.1
@@ Line 1: / Line 1: @@
+< [[neurali:reinforcement learning]]
+Vedere Funzione Valore (value function)
+==== Q-function ====
+Se è un metodo ;;;model-free;;; significa forse che non conosco la matrice delle probab. delle transizioni?????...
+;;;Se conosco anche la matrice delle probabilità delle transizioni di un [[neurali:mdp]], posso determinare le coppie stato-azione;;;???
+Se non la conosco non posso applicare questo algoritmo????
+In modo analogo alla funzione valore definita ricorsivamente
+Q(s<sub>t</sub>,a<sub>t</sub>)
+Q-function (è detta anche politica??)
+Fornendo uno stato, Q restituisce l'azione (la politica) ottimale
+Si possono utilizzare due diversi metodi per ottenere l'azione ottimale
+  - on-policy method
+  - off-policy method (non ottimale)
+  - Il primo metodo usa l'algoritmo Q-value
+  - il secondo l'algoritmo Q-learning che permette di ottenere, invece che l'azione ottimale, l'azione più grande possibile che si possa eseguire nello stato attuale (anche se non è ottimale come quella fornita dalla funzione Q-value)