neurali:q-learning
Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
neurali:q-learning [2016/06/28 13:04] – created profpro | neurali:q-learning [2020/06/08 22:20] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 1: | Line 1: | ||
+ | < [[neurali: | ||
+ | Vedere Funzione Valore (value function) | ||
+ | |||
+ | ==== Q-function ==== | ||
+ | |||
+ | Se è un metodo ;;; | ||
+ | |||
+ | ;;;Se conosco anche la matrice delle probabilità delle transizioni di un [[neurali: | ||
+ | |||
+ | Se non la conosco non posso applicare questo algoritmo???? | ||
+ | |||
+ | In modo analogo alla funzione valore definita ricorsivamente | ||
+ | |||
+ | Q(s< | ||
+ | |||
+ | Q-function (è detta anche politica??) | ||
+ | |||
+ | Fornendo uno stato, Q restituisce l' | ||
+ | |||
+ | Si possono utilizzare due diversi metodi per ottenere l' | ||
+ | - on-policy method | ||
+ | - off-policy method (non ottimale) | ||
+ | |||
+ | - Il primo metodo usa l' | ||
+ | - il secondo l' |
neurali/q-learning.txt · Last modified: 2020/06/08 22:20 by 127.0.0.1