当前位置: 代码迷 >> 综合 >> 强化学习 之 SARSA (State-Action-Reward-State’-Action’)
  详细解决方案

强化学习 之 SARSA (State-Action-Reward-State’-Action’)

热度:36   发布时间:2024-02-26 18:05:16.0

在这里插入图片描述
(1)SARSA算法通常使用?-贪心策略进行策略评估和改进

在线策略时序差分控制(on-policy TD control)使用当前策略进行动作采样,即,SARSA算法中的两个“A”都是由当前策略选择的

(2)SARSA得到的长期回报方差比蒙特卡洛法小

蒙特卡洛法估计价值的时候使用完整序列,TD使用下个时刻,所以当系统没有达到最优的时候,TD会有固有偏差,但是不太大。蒙特卡洛和SARSA象征两个极端:一个追求极小误差而使得方差变大,一个为了缩小方差而使得误差变大。

(3)算法介绍

对于当前策略执行获得的每个sars’a’五元组; SARSA是对状态-动作值函数进行更新;是一种On-policy Control的方法;是一种模型无关的方法

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

如果大家喜欢这篇文章的话,希望大家收藏、转发、关注、评论、点赞,转载请注明出自这里。 PS:本随笔属个人学习小结,文中内容有参考互联网上的相关文章。如果您博文的链接被我引用,我承诺不会参杂经济利益;如果有版权纠纷,请私信留言。其中如果发现文中有不正确的认知或遗漏的地方请评论告知,谢谢! 还是那句话:不是我喜欢copy,是站在巨人的肩膀上~~

  相关解决方案