一份从代码出发的强化学习Q-Learning入门教程,请笑纳!

初商 2019-09-02

机器学习算法与python学习

本文由机器之心编译(ID:almosthuman2014)

强化学习(RL)

强化学习是机器学习的一个重要领域,其中智能体通过对状态的感知、对行动的选择以及接受奖励和环境相连接。在每一步,智能体都要观察状态、选择并执行一个行动,这会改变它的状态并产生一个奖励。

马尔科夫决策过程(MDP)

我们将要解决「forest fire」的马尔科夫决策问题,这个在 python 的 MDP 工具箱(http://pymdptoolbox.readthedocs.io/en/latest/api/example.html)中是可以看到的。

森林由两种行动来管理:「等待」和「砍伐」。我们每年做出一个行动,首要目标是为野生动物维护一片古老的森林,次要目标是伐木赚钱。每年都会以 p 的概率发生森林火灾(森林正常生长的概率就是 1-p)。

image.png

我们将马尔科夫决策过程记

登录 后评论
下一篇
云攻略小攻
502人浏览
2019-10-11
相关推荐
0
0
0
851