https://arxiv.org/pdf/1906.04365.pdf
背景
以往的点击率预估模型像FM系列、WDN等模型,都只是考虑特征和ctr之间的联系,阿里的这篇论文,提出了DeepMCP模型,不仅考虑了特征和ctr之间的联系,同时考虑了特征和特征间的关系,如用户和广告、广告和广告间的联系。
DeepMCP模型主要由三个部分组成:matching subnet、correlation subnet和prediction subnet。前两个模型用来学习特征间的联系,通过命名也可以很容易理解:matching subnet用来学习用户和广告间的联系(whether an ad matches a user’s interest),correlation subnet用来学习广告间的关系(which ads are within a time window in a user’s click sequence);prediction subnet则用来学习特征和ctr间的关系。
DeepMCP结构
DeepMCP的训练过程和测试过程是分离的,如下图所示,在训练过程,模型不但要学习feature和ctr间的关系,同时还要学习matching subnet和correlationb subnet两个网络,三个subnet的loss加权求和才是训练过程的最终loss;而在测试过程,模型只需要对测试数据进行预测(user、ad间的关系模型已经在训练过程中学习到),这样在serving阶段就会简单很多。
以往的点击率预估模型都是学习feature和ctr的关系,DeepMCP为什么要额外加上两个子网络呢?如下图所示,以往的模型可以表示为左图,但是对于实际数据,可能存在着以下情况:user1和user对ad1都感兴趣,对ad2都不感兴趣,如果user1也对ad3感兴趣,那么按照协同过滤的思想,user2对ad3页更可能感兴趣;同样,ad1和ad3可能更相似,在以往的模型中,模型足够powerful,这种隐性关系可能会学习到,但现在如果把这种关系作为一个特征来影响loss,从而让模型显式地考虑到它,那么模型也应该更加powerful。
于是,DeepMCP被设计成以下结构。
- 更新时间:20191010