paper2-Policy Gradient Methods for Reinforcement Learning with Function Approximation_综合

Policy Gradient Methods for Reinforcement Learning with Function Approximation

一、新收获

1、对文章段落的理解和收获

abstract
(1)、Policy Gradient Theorem
(2)、 Policy Gradient with Approximation
(3)、 Application to Deriving Algorithms and Advantages
(4)、Convergence of Policy Iteration with Function Approximation

二、总结

一、新收获

1、对文章段落的理解和收获

abstract

直接指出policy gradient是根据期望奖励的梯度更新参数的。
本文提出的主要新方法为：梯度可以以近似作用值（an approximate action-value）或优势函数(advantage function) ，从经验中估算的形式来编写。
值函数方法在许多应用中的效果都很好，但是存在一些限制：
(1)它以寻找确定性政策为导向，而最优政策通常是随机的，选择具有特定概率的不同动作；
(2)动作估计值的非常小的变化都有可能改变这个动作被选择的可能性；

(1)、Policy Gradient Theorem

这部分提出了策略梯度定理，并在附录中给出了证明过程。

在这里插入图片描述

(2)、 Policy Gradient with Approximation

这部分提出了函数逼近的策略梯度定理：
在这里插入图片描述

(3)、 Application to Deriving Algorithms and Advantages

这部分写的是关于算法的派生，比如，定理2可以派生出值函数参数化的逼近形式，线性的还是非线性的策略参数都可以派生出不同的形式；另外fw 也可以被派生为优势函数的逼近器。优势函数公式如下：
在这里插入图片描述
优势函数表示选择的这个动作a好于平均动作的程度。

(4)、Convergence of Policy Iteration with Function Approximation

这部分主要提出定理3：带有函数估计的策略迭代能够收敛到局部最优，在文章中给出了证明。
在这里插入图片描述

二、总结

这篇文章主要是写了关于策略梯度的三个定理，并给出了定理的使用条件和证明过程，想了解清楚什么是策略梯度的同学，不建议阅读这篇文章，那些想弄清楚公式是如何推导的，如何得到公式结果的同学，建议阅读这篇文章，文章的公式推导十分详细，步骤没有忽略掉的，容易让人看懂
文章分析就到这里结束了，十分感谢大家观看！