关于算法原理参考:
下面是
Relation with skip gram
skip gram:
接下来在整个corPus 中训练:
但在vast corpus 难以求所有的Qi,jQ_{i,j}Qi,j?,采用近似
但对于两分布中的交叉熵损失是有弊端的:即低概率高权值
并且上式中的Qi,jQ_{i,j}Qi,j?还是难以normalized,因此
不归一化带来的问题是Qhat,PhatQ_{hat},P_{hat}Qhat?,Phat?很大,故采用以下对数形式
还是无法优化,因此,不再使用context word (Xi,jX_{i,j}Xi,j?)作为权重,改用f(Xij)f(X_{ij})f(Xij?)