Importance Sample 减小prioritized experience replay带来的概率不均问题

热度：98 发布时间：2024-01-18 01:17:07.0

Importance Sample的定义

在这里插入图片描述
从李宏毅老师的PPO的讲解中我们可以知道，我们本来要计算p分布下f(x)的期望，但是现在我们不从p中采样，我们从q中采样x，来计算f(x)的期望。在上图中我们可以看到经过变形，f(x)乘上了一个p(x)/q(x)，这个p(x)/q(x)相当于一个修正p,q分布差异的权重因子。
在这里插入图片描述
当然p和q也不能相差太大，虽然两者均值一样，但是当p(x)/q(x)太大时，方差就不一样了，如果采样不够多的话，也会导致两者均值不一样。
我们是因为off-policy，而引

查看全文