当前位置: 代码迷 >> 综合 >> Importance Sample 减小prioritized experience replay带来的概率不均问题
  详细解决方案

Importance Sample 减小prioritized experience replay带来的概率不均问题

热度:98   发布时间:2024-01-18 01:17:07.0

Importance Sample的定义

在这里插入图片描述
从李宏毅老师的PPO的讲解中我们可以知道,我们本来要计算p分布下f(x)的期望,但是现在我们不从p中采样,我们从q中采样x,来计算f(x)的期望。在上图中我们可以看到经过变形,f(x)乘上了一个p(x)/q(x),这个p(x)/q(x)相当于一个修正p,q分布差异的权重因子。
在这里插入图片描述
当然p和q也不能相差太大,虽然两者均值一样,但是当p(x)/q(x)太大时,方差就不一样了,如果采样不够多的话,也会导致两者均值不一样。
我们是因为off-policy,而引

  相关解决方案