neurali:q-learning
Vedere Funzione Valore (value function)
Q-function
Se è un metodo model-free significa forse che non conosco la matrice delle probab. delle transizioni?????…
Se conosco anche la matrice delle probabilità delle transizioni di un mdp, posso determinare le coppie stato-azione???
Se non la conosco non posso applicare questo algoritmo????
In modo analogo alla funzione valore definita ricorsivamente
Q(st,at)
Q-function (è detta anche politica??)
Fornendo uno stato, Q restituisce l'azione (la politica) ottimale
Si possono utilizzare due diversi metodi per ottenere l'azione ottimale
- on-policy method
- off-policy method (non ottimale)
- Il primo metodo usa l'algoritmo Q-value
- il secondo l'algoritmo Q-learning che permette di ottenere, invece che l'azione ottimale, l'azione più grande possibile che si possa eseguire nello stato attuale (anche se non è ottimale come quella fornita dalla funzione Q-value)
neurali/q-learning.txt · Last modified: 2020/06/08 22:20 by 127.0.0.1