当前位置: 代码迷 >> 综合 >> paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation
  详细解决方案

paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation

热度:7   发布时间:2024-02-06 16:25:25.0

Policy Gradient Methods for Reinforcement Learning with Function Approximation

  • 一、新收获
    • 1、对文章段落的理解和收获
      • abstract
      • (1)、Policy Gradient Theorem
      • (2)、 Policy Gradient with Approximation
      • (3)、 Application to Deriving Algorithms and Advantages
      • (4)、Convergence of Policy Iteration with Function Approximation
  • 二、总结

一、新收获

1、对文章段落的理解和收获

abstract

直接指出policy gradient是根据期望奖励的梯度更新参数的。
本文提出的主要新方法为:梯度可以 以近似作用值(an approximate action-value)或优势函数(advantage function) , 从经验中估算的形式来编写。
值函数方法在许多应用中的效果都很好,但是存在一些限制:
(1)它以寻找确定性政策为导向,而最优政策通常是随机的,选择具有特定概率的不同动作;
(2)动作估计值的非常小的变化都有可能改变这个动作被选择的可能性;

(1)、Policy Gradient Theorem

这部分提出了策略梯度定理,并在附录中给出了证明过程。

在这里插入图片描述

(2)、 Policy Gradient with Approximation

这部分提出了函数逼近的策略梯度定理:
在这里插入图片描述

(3)、 Application to Deriving Algorithms and Advantages

这部分写的是关于算法的派生,比如,定理2可以派生出值函数参数化的逼近形式,线性的还是非线性的策略参数都可以派生出不同的形式;另外fw 也可以被派生为优势函数的逼近器。优势函数公式如下:
在这里插入图片描述
优势函数表示选择的这个动作a好于平均动作的程度。

(4)、Convergence of Policy Iteration with Function Approximation

这部分主要提出定理3:带有函数估计的策略迭代能够收敛到局部最优,在文章中给出了证明。
在这里插入图片描述

二、总结

这篇文章主要是写了关于策略梯度的三个定理,并给出了定理的使用条件和证明过程,想了解清楚什么是策略梯度的同学 ,不建议阅读这篇文章,那些想弄清楚公式是如何推导的,如何得到公式结果的同学,建议阅读这篇文章,文章的公式推导十分详细,步骤没有忽略掉的,容易让人看懂
文章分析就到这里结束了,十分感谢大家观看!

  相关解决方案