Dans cette vidéo, on compare les algorithmes de SARSA et de Q-learning sur deux environnements classiques du RL : FrozenLake et CliffWalking.
On étudie rapidement le comportement de ces deux algorithmes face à différents choix de alpha et epsilon. Sur CliffWalking, on voit en pratique la différence fondamentale entre ces deux algorithmes : l'un tient compte de l'exploration dans sa politique, l'autre, pas du tout !
0:00 : Introduction
3:35 : Comportement en fonction de alpha
6:24 : Comportement en fonction de epsilon
9:01 : CliffWalking
Rejoindre la communauté Machine Learning FR : [ Ссылка ]
Me suivre :
Github : [ Ссылка ]
Twitter : [ Ссылка ]
Ещё видео!