User Tools

Site Tools


neurali:q-learning

< reinforcement learning

Vedere Funzione Valore (value function)

Q-function

Se è un metodo model-free significa forse che non conosco la matrice delle probab. delle transizioni?????…

Se conosco anche la matrice delle probabilità delle transizioni di un mdp, posso determinare le coppie stato-azione???

Se non la conosco non posso applicare questo algoritmo????

In modo analogo alla funzione valore definita ricorsivamente

Q(st,at)

Q-function (è detta anche politica??)

Fornendo uno stato, Q restituisce l'azione (la politica) ottimale

Si possono utilizzare due diversi metodi per ottenere l'azione ottimale

  1. on-policy method
  2. off-policy method (non ottimale)
  1. Il primo metodo usa l'algoritmo Q-value
  2. il secondo l'algoritmo Q-learning che permette di ottenere, invece che l'azione ottimale, l'azione più grande possibile che si possa eseguire nello stato attuale (anche se non è ottimale come quella fornita dalla funzione Q-value)
neurali/q-learning.txt · Last modified: 2020/06/08 22:20 by 127.0.0.1