Appunti di informatica

Vedere Funzione Valore (value function)

Se è un metodo model-free significa forse che non conosco la matrice delle probab. delle transizioni?????…

Se conosco anche la matrice delle probabilità delle transizioni di un mdp, posso determinare le coppie stato-azione???

Se non la conosco non posso applicare questo algoritmo????

In modo analogo alla funzione valore definita ricorsivamente

Q(s_t,a_t)

Q-function (è detta anche politica??)

Fornendo uno stato, Q restituisce l'azione (la politica) ottimale

Si possono utilizzare due diversi metodi per ottenere l'azione ottimale

Il primo metodo usa l'algoritmo Q-value
il secondo l'algoritmo Q-learning che permette di ottenere, invece che l'azione ottimale, l'azione più grande possibile che si possa eseguire nello stato attuale (anche se non è ottimale come quella fornita dalla funzione Q-value)