大发幸运飞艇_大发幸运飞艇官网

AI学习笔记——强化学习之动态规划(Dynamic Programming)解决MDP(2)

时间:2020-02-15 14:35:10 出处:大发幸运飞艇_大发幸运飞艇官网

公式三

你这个 等式可不还要通过下原本状态的值函数来求得当前状态的值函数。将会大伙儿儿对上边你这个 Bellman Equation中的每原本状态不停地迭代,最终每个状态的V(值)函数都都能否 收敛成原本固定的数值。公式如下

上边原本步骤不停循环,最终策略就会收敛到最优策略。

图一

接下来大伙儿儿就要改进你这个 随机策略,改进的措施却说我选用获取最大奖励的策略,而并都都能否 跟以前一样随机运动。你这个 获取最大奖励的策略就叫做Greedy策略。

那更加极端地,在迭代Bellman 等式的过程中,大伙儿儿只迭代一次(k=1)就采取Greedy策略,而不言而喻等到V函数收敛,你这个 特殊的策略迭代措施就叫做值迭代(Value Iteration)

公式四

值迭代简单粗暴,直接用Bellman等式更新V函数,每次更新的以前都用Greedy的策略,当V函数收敛的以前策略也就收敛了。你这个 以前得到的策略却说我最佳策略。

在MDP什么的大问题中,要怎样评估原本策略的好坏呢?原本们就计算你这个 策略的V函数(值函数),这里大伙儿儿又要用到以前文章中提到的Bellman Equation了。

值迭代可不还要看成是策略迭代的一种 特殊状态,只迭代Bellman函数一次便使用Greedy策略对V函数进行更新,或多或少重复这原本动作直到V函数收敛从而获得最佳策略。

相关文章

AI学习笔记——求解最优MDPAI学习笔记——MDP(Markov Decision Processes马可夫决策过程)简介AI学习笔记——Q LearningAI学习笔记——Sarsa算法AI学习笔记——卷积神经网络(CNN)

图三

你说你将会发现了,如同上边的例子,将会想找到最佳策略,在用Bellman等式迭代的过程中,不言而喻一定还要等到V函数删剪收敛。或许可不还要设定原本迭代上限,比如k=3就停止迭代了。

求解最优MDP实际上却说我找到最佳策略(Policy)π来最大化来最大化V函数(Value Function)。

图二

图四

V函数真的会收敛到原本稳定的数值吗?大伙儿儿不妨举原本例子。

策略迭代和值迭代是寻找最优策略的措施,策略迭代先评估策略用迭代Bellman等式的措施使V函数收敛,或多或少再用Greedy的策略对原策略进行改进,或多或少不断重复这原本步骤,直到策略收敛。

你这个 公式与公式二不同的是引入了k,k是指迭代的次数。Bellman等式左边表示k+1代s状态上的V函数,Bellman等式右边是k代中s下原本状态s'的的相关函数。第六个等式是Bellman等式的矩阵形式。大伙儿儿使用你这个 公式将第k+1代的每原本状态s都更新以前,就完成了第k+1次迭代。

公式二

公式一

可不还要看出在你这个 随机运动策略决策下,通过对Bellman 等式的不断迭代最终V函数会收敛到原本稳定的数值。

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言将会访问我的Steemit主页

图中左上角和又下角是机器人的目标奖励为0,或多或少地方奖励为-1,策略是随机运动(上下左右移动的概率相等,为π=0.25)。价值函数的迭代过程如下:

第一步:用迭代Bellman 等式的措施对策略进行评估,收敛V函数(公式三)

第二步:用Greedy的措施改进策略。

通过迭代Ballman函数的措施完成V函数的收敛,从而完成了对你这个 策略的评估。上边的例子即便收敛以前,就得到了随机运动的策略π的V函数。

很多很多策略迭代分为两步:

热门

热门标签