terça-feira, 26 de agosto de 2008

Aprendizado de Máquina: Dica para a prova

A tendencia é que se aproximando do fim, não se faz mais a ação action greed. Pq?

no inicio usa mto o e-greedy para explorar a tabela por inteiro, se aproximando do fim das etapas de simulaçao o algoritmo precisa aprender... então ele aprende quais as melhores políticas e atua somente nelas.

Um comentário:

Unknown disse...

num é action greedy naum seu animal!