A tendencia é que se aproximando do fim, não se faz mais a ação action greed. Pq?
no inicio usa mto o e-greedy para explorar a tabela por inteiro, se aproximando do fim das etapas de simulaçao o algoritmo precisa aprender... então ele aprende quais as melhores políticas e atua somente nelas.
Assinar:
Postar comentários (Atom)
Um comentário:
num é action greedy naum seu animal!
Postar um comentário