Importance Sample的定义
从李宏毅老师的PPO的讲解中我们可以知道,我们本来要计算p分布下f(x)的期望,但是现在我们不从p中采样,我们从q中采样x,来计算f(x)的期望。在上图中我们可以看到经过变形,f(x)乘上了一个p(x)/q(x),这个p(x)/q(x)相当于一个修正p,q分布差异的权重因子。
当然p和q也不能相差太大,虽然两者均值一样,但是当p(x)/q(x)太大时,方差就不一样了,如果采样不够多的话,也会导致两者均值不一样。
我们是因为off-policy,而引