DICE model_综合

Dice模型

1，introduction
2，motivation and problem overview_概述
3,DICE: The Proposed Approach
- 3.1、Causal Ebedding<因果嵌入
- 3.2、Disentangled Representation Learning<解构表征学习
- 3.3 Multi-task Curriculum Learning<多任务学习
4、Experiments
- 4.1 Experimental Settings
- 4.2 Performance Comparison(RQ1) (性能比较)
- - 4.2.1 整体表现
  - 4.2.2 嵌入和标量的比较。
- 4.3 可解释性和稳健性（RQ2）
- - 4.3.1基于非纠缠嵌入的可解释性。
  - 4.3.2 干预下的稳健性
- 4.4 DICE 的研究（RQ3）
- - 4.4.1 负采样的影响。
  - 4.4.2 整合建模的影响
  - 4.4.3 课程学习的影响
  - 4.4.4 差异损失的影响
- 4.5 干预训练数据的研究(RQ4)
5 Related Work
6 结论和今后的工作

摘要：
用户对流行项目的一致性可能会影响用户的真实兴趣，（消除流行偏见），例如。通过重新加权训练样本或利用一小部分无偏数据。然而，这些方法忽略了用户一致性的多样性，并且将交互的不同原因捆绑在一起作为统一表示，因此，当潜在原因发生变化时，鲁棒性和可解释性无法得到保证。
用户一致性：用戶对流行商品的点击倾向。
通用框架的提出：DICE，可以学习在结构上分离兴趣和一致性的表示，并且可以顺利集成各种主干推荐模型。为用户分配单独的兴趣和一致性嵌入-----使用根据因果推理的冲突效应获得的特定于原因的数据训练，使得每个嵌入只捕获一个原因。
因果推理的冲突效应
我们提出的方法优于最先进的基线，在各种主干模型之上的两个真实数据集上有显著的改进。我们进一步证明了所学习的嵌入成功地捕获了期望的原因，并且表明DICE保证了推荐的健壮性和可解释性。

1，introduction

观察互动数据存在流行偏见的现象会影响用户真正的兴趣，即用户的盲目从众心态。为了捕捉用户的真爱，现有的是从项目的角度消除流行偏差，然而这种方法忽略了用户一致性的选择（也就是说用户可能真的喜欢且这个商品刚好在流行商品中受到了流行偏差的不良影响）。
例如，一个体育爱好者购买一辆具有高销售价值的自行车是因为他对特定特性（如轮胎尺寸或速度容量）的独特品味，而一个办公室工作人员可能只因为同一辆自行车的高销量而购买。使用统一的流行度偏差无法区分这两个用户的不同从众，因为所有用户对某个项目的流行度得分相同。因此，分离用户兴趣和一致性是提高推荐质量的关键。
转变角度：从用户角度消除流行偏见
交互数据按用户兴趣和一致性两个因素进行分离是个难题，面临的挑战有三个：
1，一个用户对不同项目的一致性不同，不同用户对一个项目的一致性也不同，现有的算法采用用户或项目的标量偏差项是不够的。
2，学习分离表征本质上是困难的，特别是当只有观测交互数据可用时。换句话说，就是原因很难找。
3，点击交互可能来自一个或两个兴趣和一致性原因。
标量流行度值及其偏差项
与仅为用户或项目学习统一嵌入的方法相比，学习兴趣和一致性的分离表示法有两个主要优势：
图一
在这里插入图片描述
图解这个图展示的是现有推荐机制的循环推荐过程，即用户反馈-模型推荐-用户反馈……直到达到用户所期望的intention（意图）。
**（1）健壮性。**现实世界的推荐系统通常使用实时用户交互进行持续培训和更新，如图1所示形成反馈回路，培训数据和测试数据不独立且分布相同（IID）。对影响（点击）和原因（兴趣和一致性）的因果建模可以产生更稳健的模型，具有更强的泛化能力，特别是在潜在原因发生变化的非IID情况下。
IID情况：数据与数据之间都是独立的，但满足同一个分布
非IID情况：数据与数据之间都是独立的，但不满足同一个分布
（2）可解释性可解释性推荐既有利于推荐系统的用户，也有利于推荐系统的平台，因为它提高了用户友好性，便于算法开发。通过分解潜在原因，每个推荐分数被分解为兴趣分数和一致性分数的集合。因此，根据相应的分数可以很容易地解释这两个原因。
在本文中，我们提出了一个与因果嵌入（DICE）相关联的兴趣和一致性的一般框架。为了捕捉整合的多样性，我们建议 单独学习全面的整合嵌入，这与用户兴趣无关。我们不使用简单的标量流行值作为现有的方法，而是开发特定的方法来学习兴趣和一致性的分离表示。具体来说，**我们描述了如何生成每个交互数据的因果模型。**基于因果模型，我们基于因果推理的聚集效应，针对特定原因提出了特定的消极抽样策略，并学习了与特定原因数据的兴趣和一致性的单独嵌入。同时，我们增加了对嵌入两部分之间的分离的直接监督。为了在考虑用户兴趣和一致性的情况下生成最终推荐，我们利用多任务和课程学习，成功地平衡了这两个原因。
收集数据进行了评估，DICE在召回率和NDCG方面优于最先进的基线，提高了15%以上。为了研究DICE的稳健性，我们通过对一致性进行干预，从训练数据中提取非IID的测试数据。我们证明了DICE在非IID情况下始终优于基线方法。此外，我们还提供了学习嵌入质量的分析结果，这说明了所提出方法的优越解释性。
综上所述，本文的主要贡献如下：
这是第一个为推荐系统解决用户兴趣和一致性问题的工作。我们从用户的角度解决了因果推荐问题，并证明了从鲁棒性和可解释性的角度出发，将这两个因素分开对于推荐系统来说是至关重要的。
我们提出了一个总体框架来理清兴趣和一致性。采用单独的嵌入来捕获两个原因，并使用特定于原因的数据对不同的嵌入进行训练，强制只捕获一个期望的原因。此外，我们利用多任务学习和课程学习来平衡这两个原因。
在真实世界推荐系统的两个大规模数据集上进行了大量实验。结果表明，DICE比最先进的基线模型有显著的改进。进一步的分析表明，DICE在非IID环境下具有很强的鲁棒性，并且DICE还保证了学习嵌入的高解释性。
本文的剩余部分如下。我们首先介绍动机，并在第2节阐述问题。然后，我们在第3节详细阐述了建议的DICE框架。我们在第4节进行了实验，然后在第5节讨论了相关工作。最后，我们在第6节对本文进行总结

2，motivation and problem overview_概述

图二：
在这里插入图片描述
上面这张图 ‘形状判断’ 形象的展现了dice所解决的现实问题：即右边图中的训练数据训练时有可能会依据大小或颜色来判断其为正方形或三角形或圆形，而实际上判断几边形却是依据的边数，通过提出的dice，我们可以把原因锁定为边数；这样的判断是不是更准确呢？
动机： 分解底层语义的算法比分解方法具有更好的泛化能力。这里，我们关注的是一种特定形式的泛化能力，它不是从同一分布中的一个数据点到另一个数据点，而是从一个分布到另一个分布。图2显示了形状识别的一个示例，它遵循训练数据和测试数据的非IID条件。假设我们正在开发一个形状识别模型，在该模型中，我们从原始图片中学习表示，并根据学习到的表示预测其形状。这似乎是一项正常的任务，但其中有陷阱。事实上，模型很容易被训练数据误导，因为矩形是蓝色和大的，三角形是绿色和小的，圆圈是橙色和中等大小。因此，模型可以根据颜色或大小而不是轮廓预测形状。此外，如果测试数据是从相同的分布（即IID和训练数据）生成的，那么关注颜色或大小的坏模型将在测试集上表现良好，我们甚至可能不会注意到出了什么问题。幸运的是，我们强制训练数据和测试数据不是IID，如图2所示，其中颜色和大小与训练完全不同，并评估我们的模型在这种干预环境下是否稳健。
那么，只有那些解开了底层语义（形状、颜色和大小）的模型才能在我们的测试中存活下来。对于推荐系统，用户的真实兴趣或他们对流行项目的一致性可以触发点击交互。在IID情况下，模型没有必要区分用户的兴趣和一致性，因此模型倾向于根据其受欢迎程度值推荐项目，因为它们的训练实例较多。然而，用户在培训时间和服务时间的一致性是不同的，因为推荐系统是一个实时交互系统，如图1所示。因此，在这种非IID情况下，推荐算法必须具有鲁棒性，特别是在根本原因不同的情况下。在这项工作中，我们扩展了传统的因果推荐算法，该算法从有偏数据中执行无偏学习，并提出将用户兴趣和一致性分离开来。基于因果建议的最新进展，我们用训练数据和测试数据而不是IID构建数据集。我们将所提出的方法与最先进的基线方法进行比较，并特别通过干预研究其在非IID情况下的稳健性。
问题表述
在这里，我们提出了用户兴趣和一致性的分离问题。假设数据集O由N个实例(u,i,p)构成, p表示项目 i 受欢迎度、i.e.项目i上的交互次数. 分配p作为一致性分布的代理。我们首先构造干预测试集 $O_{test}$ 和正常训练集 $O_{train}$ , $D^{O_{test}}_p$ , 项目流行度在测试集中的分布p不同于在训练集中 $D^{O_{train}}_p$ . 我们的目标是最大化推荐性能R，如召回和NDCG。模型一起训练 $O_{test}$ 和与 $O_{test}$ 不同分布的 $O_{train}$ 数据集。
输入：观测交互作用数据O，分为 $O_{train}$ 和 $O_{test}$ , 在流行度分布上具有非IID条件 $D^{O_test}_p$ 和 $D^{O_train}_p$
输出：一个预测模型，估计用户是否会点击一个项目，同时考虑兴趣和一致性.

3,DICE: The Proposed Approach

在这里插入图片描述
提出的通用框架dice的整体设计如上图三，用于学习兴趣和一致性的分离表示。针对上面的三个挑战，我们提出的框架由三个阶段组成：
1，因果嵌入：我们建议使用单独的嵌入来代替兴趣和一致性的标量值，以解决一致性变化的问题。
2，解构表征学习：为了学习兴趣和一致性的解构表征，我们将训练数据划分为原因特定的部分，并使用原因特定的数据训练不同的嵌入。增加了对嵌入分布的直接监督，以加强分离。
3，多任务课程学习：最后，我们制定了易学易学的培训策略，并利用课程学习来聚合和平衡兴趣和一致性。
表征学习:借助算法自动学习有用的数据和其特征，即完成对有用信息进行有效提炼形成特征。

3.1、Causal Ebedding<因果嵌入

在本节中，我们首先描述如何从兴趣和一致性生成每个交互数据的因果模型。然后，我们提供了点击、兴趣和一致性的结构因果模型（SCM）和因果图，在此基础上，我们建议利用兴趣和一致性的独立嵌入，解决了不同一致性的第一个挑战。

交互数据的生成：
用户在项目上的点击记录主要反映两个方面：（1）用户对项目特征的兴趣，（2）用户对项目受欢迎程度的一致性。单击可以来自这两个方面中的一个或两个。我们提出了一个附加模型来描述如何从兴趣和一致性生成每个点击记录。形式上，给定用户的匹配分数u及项目 i 其结果如下：
$S_{ui}=S^{interest}_{ui}+S^{conformity}_{ui} ——（1）$
$S_{ui}$ 表示整体匹配分数，而 $S^{interest}_{ui}$ 和 $S^{conformity}$ 代表一个特定的原因。这种加法模型是合理的，因为在与推荐系统交互时，用户往往同时具有兴趣和一致性。同时，加法模型在因果推理中被广泛采用，并在一系列应用中被证明是有效的。此外，相关文献中也采用了乘法模型，该模型将点击概率分解为曝光概率与给定曝光的条件点击概率的乘积。然而，这种乘法模型从用户的角度纠缠着兴趣和一致性，因此用户的一致性仍然有效；值得注意的是，除了兴趣或一致性之外，可能还有其他原因导致点击交互，但我们建议掌握这两个主要因素。同时，所提出的方法是一个通用框架，可以扩展到具有多种原因的场景。
图三：
点击、兴趣和一致性的SCM和因果图（右图）
在这里插入图片描述
基于我们在（1）中提出的因果模型，现提供DICE框架的SCM， $\zeta_{DICE}$ 以及图三（a）中的因果图：
$X^{int}_{ui}=f_1(u,i,N^{int})$
$X^{con}_{ui}=f_2(u,i,N^{con})$
$Y^{click}_{ui}=f_3(X^{int}_{ui},X^{con}_{ui},N^{click})$
—————————————————(2)—————————————————————
$N^{int},N^{con},N^{click}$ 是独立的噪音，SCM $\zeta_{DICE}$ 表示兴趣、一致性和单击的因果关系。f1、f2、和f3是潜在的兴趣因果机制，分别是 $X^{int},X^{con}和点击Y^{click}$ 。实际上，这些因果机制是通过在给定的函数族（如深层神经网络）内进行优化来确定的。当我们考虑用户一致性的干预时，我们简单地替换使用预先指定的 $X^{con}_{ui}$ 的值。
公式（2）中的SCM $\zeta_{DICE}$ 解释了原因（兴趣和一致性）如何产生影响（点击）的逻辑。然而，函数族的特殊形式f1、f2和f3还有待确定。一致性取决于用户和项目，以及兴趣。因此，函数族f1和f2在兴趣和一致性方面应更好地支持这种灵活性。现在，我们使用单独的嵌入来介绍我们提议的设计.
兴趣和一致性的单独嵌入：
在这里插入图片描述

在建议的DICE框架中，我们采用两组嵌入来分别捕获兴趣和一致性，而不是像现有方法那样使用标量流行度值，因为标量流行度值不足以捕获用户一致性的多样性。如图3（b）所示，每个用户都有一个兴趣爱好 $U^{int}$ 和一致性嵌入 $U^{con}$ ，并且每个项目还具有 $i^{int}$ 及 $i^{con}$ 针对两个原因。我们使用内积来计算两个原因的匹配分数。基于等式（1）中的加法因果模型，我们将对应原因的两个匹配分数相加，以估计用户是否会单击某个项目的总体分数。因此，用户针对用户u和项目 i 的推荐分数其格式如下：
$S^{int}_{ui}=<u^{int},i^{int}>,S^{con}_{ui}=<u^{con},i^{con}>,$
$S^{click}_{ui}=S^{int}_{ui}+S^{con}_{ui}$
————————————————（3）—————————————————————
哪里?·,·?指两个嵌入件的内积。图3（b）展示了兴趣嵌入和一致性嵌入的分离设计。从SCM的角度来看，我们限制了f1和f2作为两组可学习嵌入之间的内积，以及f3是一种简明的加法模型，在实践中很常用。通过优化两个高维空间 而不是像现有解决方案那样在一维空间中寻找最优标量值，用户一致性的多样性可以在所提出的DICE框架中自动捕获，因此我们解决了第一个挑战。

3.2、Disentangled Representation Learning<解构表征学习

在这一节中，我们将详细阐述我们的设计，即为了兴趣和一致性而将两个因果嵌入分离开来。我们建议使用原因特定的数据来训练不同的嵌入，并将问题分解为四个任务：一致性建模、兴趣建模、估计点击量和额外的差异任务。
挖掘特定于原因的数据。
兴趣嵌入和一致性嵌入之间的分离意味着每个嵌入只捕获一个因素，并将第二个因素挤出另一个嵌入。为了实现这一目标，一个常见而合理的想法是使用特定于原因的数据来训练不同的嵌入。然而，我们只能访问效果，即观察点击数据，但我们几乎不知道点击是由兴趣还是一致性引起的。换句话说，（1）中的等式不足以恢复兴趣和一致性，因为当两个加法器没有基本真值且只有求和可用时，它有无穷多个解。因此，我们从观察互动中探索，并发现特定于原因的数据，这意味着这些互动很可能来源于个人原因。特定原因的数据为解开两个根本原因（兴趣和一致性）铺平了道路。
我们首先介绍几种符号。我们使用 $M^I$ 表示所有用户和项目的兴趣匹配分数矩阵，以及 $M^C$ 一致性匹配分数矩阵。, $M^I$ 和 $M^C$ 的范围为 $R^{MxN}$ ，M和N是用户和项目的数量。
在这里插入图片描述
在图3（a）中的因果图中，三个节点构成了目标，点击是兴趣和一致性的集合。 事实上，对撞机的两个原因是自变量。然而，如果我们在对撞机上设置条件，这两个原因就会相互关联，我们称之为碰撞效应。 例如，一个人是否受欢迎取决于他的外表和脾气。外观和脾气通常是独立的，流行是外观和脾气的碰撞（外观→受欢迎←脾气）。如果一个受欢迎的男人长得不好看，那么他很可能脾气好。同样，一个不受欢迎但长得好看的男人很可能脾气暴躁。因此，在我们分离兴趣和一致性的任务中，可以利用碰撞效应来获得主要由一个原因导致的样本。具体地说，我们强调本报告中的两个特定案例 $M^I,M^C$ 的具体原因如下：
case1：消极项目不如积极项目受欢迎。 用户点击受欢迎的物品a，我们无法知道是因为一致性还是兴趣，我们可以认为是一致性造成的，用不等式表示如下：
$M^C_{ua}>M^C_{ub}$
$M^I_{ua}+M^C_{ua}>M^I_{ub}+M^{C}_{ub}$
——————————————————（4）——————————————————
case2：消极项目比积极项目更受欢迎。 用户点击不受欢迎的物品c，那么绝有可能是因为兴趣。因此，在这种情况下，我们有三个不平等，与前一种情况相比，在兴趣方面有一个额外的不平等：
$M^I_{uc}>M^I_{ud},M^C_{uc}<M^C_{ud}$
$M^I_{uc}+M^C_{uc}>M^I_{ud}+M^C_{ud}$
——————————————————（5）———————————————————
我们使用O表示所有训练实例，它分为O1和O2。O1是原因是一致性的数据集，O2是原因是兴趣的数据集。相应地，O1包含（4）中不等式为真的数据，因此可用于学习一致性和点击。O2包含符合案例2的数据，因此可利用它学习兴趣、一致性和单击。
通过将一个等式推广到多个不等式，我们将问题从学习绝对值转化为学习相对关系，从而使兴趣和一致性分离的任务得以解决。具体地说，基于这些导出的不等式，我们获得了主要由一个特定原因引起的用户项目交互，并利用这些交互来优化相应的嵌入。以著名的推荐矩阵分解算法为例，通常我们优化一个用户嵌入矩阵和一个项目嵌入矩阵来最好地回归原始交互矩阵，比如 $M^{click}$ . 这种经典方法将所有可能的原因统一为一个用户或项目的捆绑表示，因此不同的原因相互纠缠，导致非IID环境下的鲁棒性和可解释性较差，这在推荐系统中非常常见。此外，像IPS这样的debias算法不能完全解决这个问题，因为它们仍然采用统一的表示。与现有方法相比，我们首先分解原始的点击矩阵 $M^{click}$ 分为两个特定原因矩阵， $M^I$ 和 $M^C$ , 分别为兴趣和一致性。然后采用两组嵌入，分别捕获用户的兴趣和一致性，并进一步组合以回归点击。因此，不同的原因被解开，从而在干预下获得更好的稳健性。
因果学习方法
利用原因特定数据O1和O2，可以分别对兴趣和一致性进行建模。同时，我们建议结合这两个原因来估计点击行为，这是推荐的主要任务。此外，我们还增加了差异任务，以使两组嵌入相互独立，从而增强了解纠缠。因此，我们将兴趣与一致性问题分解为四个任务，即一致性建模、兴趣建模、点击估计和差异任务。我们利用BPR对（4）和（5）中的成对数量关系进行建模。每个正样本与一定数量的负样本配对，每个训练实例是一个三元组(u,i, j)包含用户ID、显示反馈项目ID和隐式反馈项目ID。现在我们依次介绍这四个任务。
任务一、一致性建模
对于O1和O2中的实例，我们有一致性建模的不等式，它们是对于 $M^C$ 的不等式。请注意，在这两种情况下，不等式的方向是不同的。我们使用这些一致性特定的数据来优化一致性嵌入。利用BPR损失函数进行回归分析 $M^C$ 具有一致性嵌入。因此，一致性建模的损失函数公式如下：
$L^{O_1}_{con}=\sum_{(u,i,j)\in O_1}BPR(<u^{con},i^{con}>,<u^{con},j^{con}>),$
$L^{O_2}_{con}=\sum_{(u,i,j)\in O_2}-BPR(<u^{con},i^{con}>,<u^{con},j^{con}>),$
$L^{O_1+O_2}_{con}=L^{O_1}_{con}+L^{O_2}_{con}$
———————————————（6）——————————————————————

任务二、兴趣模型O2
消极的项目比积极的项目更受欢迎，这些互动主要是由于用户的兴趣。这些数据是特定于兴趣的，我们有兴趣建模的不等式。我们还使用BPR优化兴趣嵌入来学习这种成对偏好，以便回归 $M^{I}$ . 损失函数仅对O2实例生效：
$L^{O_2}_{int}=\sum_{(u,i,j)\in O_2}BPR(<u^{int},i^{int}>,<u^{int},j^{int}>)——（7）$
任务三、估计点击
这是推荐系统的主要目标，我们结合（3）中介绍的两个原因来估计点击量，并使用一个简明的加法模型。对于训练集O中的每一个实例，即O1和O2的结合，我们使用BPR来最大化积极项目和消极项目得分之间的差距，从而回归 $M^{click}$ . 因此，点击估算的损失函数公式如下：
$L^{O_1+O_2}_{click}=\sum_{(u,i,j)\in O}BPR(<u^t,i^t>,<u^t,j^t>)——（8）$
$u^t,i^t$ 和 $j^t$ 是用户和项目的兴趣嵌入和一致性嵌入的串联：
$u^t=u^{int}||u^{con},i^t=i^{int}||i^{con},j^t=j^{int}||j^{con}——（9）$
∥表示两个嵌入的串联。为了简单起见，我们在这里使用串联形式，这相当于（3）中的求和形式。BPR损失推送积极项目的推荐分数项目i高于负项目j.
小结：
兴趣建模和一致性建模通过使用不同的原因特定数据训练不同的嵌入来区分这两个原因。同时，估计点击任务也加强了这种作为约束的分离。例如，就培训实例而言(u,i, j)不流行项目j比流行项目i更受欢迎, 兴趣建模任务强制两组嵌入来了解该用户u对i’的兴趣大于j, 一致性建模任务迫使他们了解该用户u对项目的一致性性i’ 少于j. 同时，估计点击迫使他们了解到，总体实力i大于j. 因此，模型真正学到的是i大于j。在一致性方面，兴趣占优势，通过一次嵌入只捕获一个原因可以更好地了解这一点。
任务四、差异任务
除了上述三项任务，即通过使用特定原因的数据优化不同的嵌入来分离兴趣和一致性，我们还对嵌入分布进行了直接监督，以加强这种分离。
假设 $E^{int}$ 和 $E^{con}$ 表示所有用户和项目的两组嵌入。
我们研究了三个候选差异损失函数，即L1-inv、L2-inv和距离相关（dCor）。L1-inv和L2-inv分别最大化L1和L2之间的距离 $E^{int}$ 和 $E^{con}$ 。有关详细信息，请参考(dCor)。从高层来看，dCor是一个更合理的选择，因为它关注兴趣嵌入和一致性嵌入之间成对距离的相关性。
距离相关系数 Distance correlation（dCor）：用于研究两个变量的独立性，
即当dcorr（u，v）=x，若x=0，则u和v相互独立；x越大，u和v的相关性越强
差异损失函数的三个选项是：?L1( $E^{int}$ , $E^{con}）?L2($ E^{int}$,$E{con} $) 和 d C o r ($ E^{int}$,$E{con}$).我们将在实验中比较它们。图3（b）说明了四个分解的任务，它们使用分离实现兴趣和一致性的嵌入。通过使用特定于原因的数据训练不同的嵌入，并对嵌入分布施加直接监督，我们解决了学习分离表示的第二个挑战。

3.3 Multi-task Curriculum Learning<多任务学习

多任务学习： 动机----->把复杂问题分解为若干个子问题去解决时，会忽略子温问题之间所富含的丰富的关联信息。为解决这一问题，提出的多任务学习。
多任务学习的模型空间是共享的（共享浅层参数），会继承前面所学习的表征，因此的到很好的关联，同样也会有很强的泛化能力。
在神经网络中的应用图解为：
在这里插入图片描述

在提出的框架中，我们克服了最后一个挑战，即通过多任务课程学习来聚合兴趣和一致性。具体而言，我们通过上述四项任务同时训练因果嵌入，并将这些损失函数结合在一起：
$L=L^{O_1+O_2}_{click}+\alpha(L^{O_2}_{int}+L^{O_1+O_2}_{con})+\beta L_{discrepancy} ——（10）$
由于估计点击是推荐的主要任务， $\alpha$ 及 $\beta$ 的值应小于1。同时，差异任务直接影响嵌入的分布，因此 $\beta$ 太大(就是兴趣和一致性的独立程度对model的影响会不好)，将对兴趣和一致性建模产生负面影响。
如前所述，当负样本少于或多于正样本时，我们分别得到两个或三个不等式。请注意，当受欢迎程度差距足够大时，这些不平等很可能成立。因此，我们开发了基于流行度的带边际的负抽样（PNSM）来保证这些数量关系。具体来说，如果正样本的受欢迎程度是p, 那么，我们将从受欢迎程度大于p+ $m_{up}$ ,或低于p? $m_{down}$ 中抽取负实例,（ $m_{up}$ , $m_{down}$ 为正的边距值。）通过对具有流行度边际的negative项目进行抽样，我们使得因果模型获得了较高的可信度。后来的实验表明，基于流行度的负采样对于学习解纠缠和鲁棒性表示至关重要。
受多任务学习的启发，我们在训练DICE时采用了一种由易到难的策略，即在保证margin值和损失权重上增加衰减。。具体来说，当边距值（margin） $m_{up}$ 和 $m_{down}$ 较大时，我们对兴趣和一致性建模的不等式有很高的信心，这意味着任务更容易，我们为 $L_{interest}$ 和 $L_{conformity}$ 设置了很高的损失权重 $\alpha$ 。当我们训练模型时，我们通过衰减边缘值和损失权重 $\alpha$ 来把难度每次提高0.9倍。通过多任务学习，所提出的方法对于高置信度样本学习有了更强的解纠缠。此外，这种自适应设计也使得该方法对超参数的初始值不敏感。我们将在实验中比较多任务学习和正常学习的表现。兴趣和一致性通过多任务课程学习优雅地聚合在一起，因此解决了最后一个挑战。
总之，我们提出了一个关于用户兴趣和一致性的加法因果模型。基于SCM $\zeta_{DICE}$ ，我们为个人原因开发单独的因果嵌入，捕获一致性和兴趣的多样性。从我们的因果模型中导出了一系列不等式，将因果学习任务分解为一致性建模、兴趣建模、估计点击次数和差异任务。通过使用特定于原因的数据对不同的嵌入进行训练，可以获得潜在原因的解纠缠表示。为了获得可靠的推荐，采用多任务课程学习来聚合这两个原因。同时，我们的因果框架是基于数据是如何生成的，因此它们是独立于模型的。因此，提出的DICE方法为用户兴趣和一致性的分离提供了一个高度通用的框架，可以顺利地集成到现有的推荐模型中。在我们的实验中，我们成功地开发了基于图卷积网络的最新推荐系统之上的DICE。

4、Experiments

在这一部分中，我们进行了实验来证明所提出的框架的有效性。具体而言，我们旨在回答以下研究问题：
RQ1：在非IID情况下，我们提出的DICE框架与最先进的因果推荐方法相比表现如何？特别是，是否有必要用嵌入替换标量偏差项
RQ2：提议的DICE框架能否保证可解释性和健壮性
RQ3：拟议方法中每个组成部分的作用是什么，包括负抽样、一致性建模、课程学习和差异损失
RQ4：插入训练集中的干预数据有什么影响？当没有干预训练数据可用时，DICE的表现如何？

4.1 Experimental Settings

训练集：验证集：测试集=7：1：2
数据集我们对从现实世界应用程序中收集的200万规模的数据集Movielens-10M数据集和Netflix Prize数据集进行实验，表1列出了两个数据集的统计数据
在这里插入图片描述
数据预处理为了测量非IID环境下因果学习的性能，需要干预测试集，因此所有数据集都按照相关文中介绍的标准协议进行转换。我们通过将五星评级保持为一，其他评级保持为零来对数据集进行二值化。为了对一致性进行干预，我们以相同的项目概率随机抽取40%的记录，其余60%作为训练数据。换句话说，项目的抽样概率为相反流行，这意味着受欢迎的项目选择较少。此外，我们将概率限制为0.9，以限制训练集中未显示的项目数量。最后，==我们得到训练集（60%正常，10%干预）、验证集（10%干预）和测试集（20%干预）的70/10/20分割。==在完全随机策略下，测试数据可视为推荐结果。因此，测试数据中的一致性不同于训练数据中的一致性，因为用户可以以相同的概率访问测试数据中的所有项目，而不是在训练数据中看到更流行的项目。关于从原始交互数据中提取干预测试集的详细信息，请参考[9,30]。为了证明训练数据和测试数据是非IID的，我们计算每个项目的交互次数并计算熵，因此熵值越大表明不同项目暴露给用户的概率越大。如表1所示，对于这两个数据集，测试数据的熵远大于训练数据的熵。换句话说，模型在正常数据上进行训练，而在干预数据上进行评估。
推荐模型：
因果方法通常作为主干推荐模型的附加方法。我们使用最常用的推荐模型矩阵分解（MF）来比较不同的方法。同时，我们还结合了最先进的协作过滤模型，即图卷积网络（GCN），以研究算法是否适用于不同的推荐模型。具体而言，我们使用BPR-MF[39]和LightGCN（轻量图卷积）[21]，这两种都是最先进的推荐模型。
实验装置：
对于基于IPS的模型，我们将嵌入大小固定为128。而对于原因和DICE，嵌入大小固定为64，因为它们包含两组嵌入。因此，所有方法的参数数量相同，以确保公平比较。我们设定 $\alpha$ = 0.1和 $\beta$ = 0.01，在实验中显示了良好的性能，并且对数据集和主干模型都不可知。我们使用BPR[39]作为所有基线的损失函数。我们使用Adam进行优化。我们的方法和基线的其他超参数通过网格搜索进行调整。有关代码和数据，请访问https://github.com/tsinghua-fib-lab/DICE.

4.2 Performance Comparison(RQ1) (性能比较)

4.2.1 整体表现

我们将我们的方法与以下最先进的因果推荐方法进行比较：
IPS[26,40]：IPS通过根据项目流行度重新加权每个实例来消除流行度偏差。具体来说，实例的权重设置为相应项目流行度值的倒数，因此流行项目的权重较低，而长尾项目的重要性则提高
IPS-C[10]：此方法在IPS值上添加最大上限，以减少IPS的差异
IPS-CN[18]：该方法进一步增加了标准化，也实现了比普通IPS更低的方差，但代价是引入了少量偏差
IPS-CNSR[18]：添加平滑和重新标准化，以获得更稳定的IPS输出原因[9]：此方法需要一个大的有偏数据集和一个小的无偏数据集。每个用户或项都有两个嵌入，分别在两个数据集上执行矩阵分解（MF），并利用L1或L2正则化强制这两组嵌入彼此相似。
我们还包括简单的MF和GCN，不使用任何因果方法进行比较。我们评估了内隐反馈的top-k推荐性能[39]，这是推荐的最常见设置。我们采用了三个常用的指标，即召回率、命中率和NDCG。
表2列出了两个数据集的结果。
在这里插入图片描述
我们有以下意见：
我们提出的DICE框架在两个数据集的所有指标方面都有显著改进，优于基线。
例如，DICE在以下方面提高了15%以上：NDCG@50在Moveilens-10M数据集上使用MF作为主干，在Recall@20使用GCN作为Netflix数据集的主干。结果表明，兴趣嵌入和一致性嵌入的解纠缠设计成功地区分了兴趣嵌入和一致性嵌入。
DICE是一个高度通用的框架，可以与各种推荐模型相结合。
除了在这两个数据集上获得最佳性能外，所提出的DICE框架还优于推荐模型MF和GCN的所有其他基线。所提出的简明因果模型来源于数据的生成方式，因此所提出的框架独立于主干推荐模型。基于MF和GCN的结果表明，DICE是一个通用的框架，可以顺利地集成到各种基于嵌入的推荐算法中。
纠缠因果模型在不同的数据集和度量上是不稳定的
从表2中的结果来看，像IPS和CausE这样的纠缠因果模型无法在不同的数据集和指标上持续改进。例如，IPS-CN在Movielens-10M数据集上的性能排名第二，但在使用MF作为推荐模型的Netflix数据集上却没有做出改进。此外，IPS-CNSR在以MF作为推荐模型的Netflix数据集上的NDCG方面取得了不错的性能，但就另一个指标HR而言，它甚至比无（无因果模型）更差。如果不分离兴趣和一致性，这些因果模型在不同的数据集和度量上是不稳定的。相比之下，解开DICE框架通过解开根本原因而获得一致的改进。

4.2.2 嵌入和标量的比较。

经常采用对每个项目和用户使用标量偏差项来捕捉流行度的影响[4]。然而，它不足以表达用户整合的多样性。例如，用户a比用户b对项目s有较强的一致性, 因此，这是一个用户偏好术语用户a应该高于用户b. 然而，用户a比用户b对项目t的一致性较差, 这就需要对用户使用偏差术语用户a低于用户b. 这在实践中很常见，因为用户在他们熟悉和不熟悉的领域（如项目类别或电影类型）往往有不同的一致性。上述矛盾表明，使用标量值捕获用户一致性的能力有限。在我们的工作中，我们建议利用嵌入而不是简单的标量。通过提高解空间的维数，保证了用户一致性的多样性。例如，通过使用用于用户一致性和项目流行度的二维向量，而不是一维标量，可以容易地解决上述矛盾。
在这里插入图片描述

我们将使用嵌入的DICE框架与使用标量值的现有算法进行了比较。我们包括用户和项目的偏差术语。具体来说，我们将DICE与MF和GCN上的BIASU（为每个用户添加标量偏差项）、bias-I（为每个项目添加标量偏差项）和bias-UI（为每个用户和项目添加标量偏差项）进行比较。图4显示了这两个数据集的结果。DICE的性能优于所有其他具有显著裕度的标量偏差项的模型，证明简单的标量值不足以捕获用户一致性的多样性。在MF和GCN上的实验表明，有必要使用嵌入而不是标量值来进行一致性建模。

4.3 可解释性和稳健性（RQ2）

如前所述，解纠缠算法通常比纠缠竞争对手更具解释性和鲁棒性。在本节中，我们将研究所提出的DICE框架是否具有这些优势.

4.3.1基于非纠缠嵌入的可解释性。

我们调查的质量嵌入解开骰子。因为大众化有一个基本事实，它是一致性的伪代理。我们首先研究整合嵌入是否捕获了期望的原因。这里我们介绍框架的另外两个版本，DICE int和DICE con。它们仅分别使用兴趣或一致性嵌入进行推荐。注意，在DICE中，我们将两个嵌入连接起来。我们将所有方法的重叠推荐项与推荐热门项的ItemPop进行比较。联合上的交集（IOU）用作度量。图5（a）说明了Movielens10M数据集上的结果。我们观察到，使用一致性嵌入大大模拟了ItemPop算法，当TopK大于40时，重叠项甚至超过50%。与其他基线（如IPS和IOU小于20%的原因）相比，DICE-con与ItemPop更为相似，这验证了一致性嵌入确实捕获了所需的原因。DICE con的IOU值大约为0.5，这表明用户倾向于确认流行项目，但不同的用户在一致性方面有自己的差异。如果所有用户对流行项目的一致性相同，则IOU值将接近1。另一方面，DICE int和ItemPop之间几乎没有重叠项，证明一致性信息几乎完全从兴趣嵌入中挤出。因此，可以根据相应的嵌入对兴趣和一致性进行解释。
在这里插入图片描述

除了计算与ItemPop的相似性外，我们还使用t-SNE将学习到的项目嵌入到DICE中[34]。图5（b）显示了两个数据集上的学习项嵌入，其中交叉表示兴趣嵌入和点表示一致性嵌入。通过特殊的因果学习设计和对解纠缠的直接监督，两组嵌入彼此相距很远，由线性分类器（图中的红线）分隔。此外，我们根据受欢迎程度将所有项目分为三组，即受欢迎、正常和不受欢迎。在图5（b）中，不同组的项目被涂成不同的颜色。我们观察到一致性嵌入是根据项目流行度分层的，其中相似流行度的项目在嵌入空间中很近。请注意，如果我们使用标量值，三组的项目将在一条直线上形成三段，这不足以捕获一致性的多样性。另一方面，在兴趣嵌入方面，不同流行度的项目相互混合。视觉化的学习项目嵌入说明了高质量的解开在拟议的框架。基于解开的嵌入，可以做出合理的解释，这对于推荐至关重要。我们还比较了DICE的项目嵌入质量与基线方法，包括MF、CausE和IPS。我们提出的方法学习用户一致性的高度可解释的表示，并通过使用嵌入而不是标量成功地捕获一致性的多样性.

4.3.2 干预下的稳健性

解开潜在原因的算法通常比干预下的纠缠方法更稳健[41]。在我们的实验中，我们通过构建一个不同的测试集进行干预，该测试集与训练集在一致性方面是非IID的。用户可以访问所有可能性相同的项目，而不是在培训集中看到更受欢迎的项目。具体来说，一个实例被纳入测试集中的概率是其相应项目流行度值的倒数。请注意，**我们将概率上限设置为0.9，以避免测试集中出现过多冷启动项，从而控制干预的强度。**使用较低的封顶值，我们施加的干预较弱，因此用户更可能接触到流行项目。相反，上限值越大，干预力度越大，不同项目的推荐机会越均等。因此，它提供了一种优雅的方法来评估推荐系统在不同干预水平下的鲁棒性，只需改变上限值即可。在我们的实验中，我们研究了所提出的框架在不同干预强度下的表现，以及最先进的方法。
在这里插入图片描述
图6显示了DICE和IPS-CNSR的结果。我们比较了两种方法的性能，封顶值分别为0.5、0.7和0.9。这三种情况代表了对用户一致性的完全不同的干预，因为当上限值为0.5时，由于受欢迎项目的暴露概率较大，用户更可能符合受欢迎项目，当上限值为0.9时，他们倾向于根据自己的实际兴趣进行交互，因为项目几乎是以随机方式暴露的。图6中的结果表明，建议的DICE框架始终优于IPS-CNSR，在各种程度的干预下，这证明了分离用户兴趣和一致性的稳健性。

4.4 DICE 的研究（RQ3）

此外，还对DICE进行了消融研究，以调查若干组成部分的有效性，包括负面抽样、一致性建模、课程学习和差异损失。

4.4.1 负采样的影响。

如前所述，我们采用**基于流行度的带边际负抽样（PNSM）来获得因果模型的高置信度。**具体地说，当负项和正项之间的受欢迎程度差距足够大时，这些关于兴趣和一致性的不等式很可能成立。因此，我们对比正样本更受欢迎或不受欢迎的项目进行抽样。且要求人气差距大于边际值。
因果模型的高置信度：可解释性
在本节中，我们将PNSM与常用的完全随机负采样策略进行比较。表3显示了Movielens-10M数据集的结果。我们观察到，**基于受欢迎程度的带边际的负抽样显著优于随机负抽样。**具体而言，PNSM的召回率和NDCG优于随机，改善率超过20%。PNSM还可以提高命中率Ratio@20击中Ratio@50超过10%。PNSM和随机抽样的结果证实，在所提出的框架中，抽样具有较大流行度的负面项目是至关重要的。这是合理的，因为提出的因果学习方法依赖于因果模型1中导出的不等式，当负项明显多于或少于正项时，这些不等式很可能成立。

4.4.2 整合建模的影响

我们还研究了DICE中一致性建模的效果。具体来说，我们删除了DICE中的一致性建模任务，并将其与完整版本的DICE进行比较。我们发现，推荐性能并没有显著降低，但是，删除一致性建模任务确实会影响所学习的嵌入。
在这里插入图片描述图7说明了在DICE中学习到的一致性嵌入，包括一致性建模任务和不包括一致性建模任务。我们观察到，在一致性建模任务的DICE中，嵌入是根据项目流行度分层的，相似流行度的项目在嵌入空间中很近。然而，当我们删除一致性建模任务时，一致性嵌入的分布变得混乱，并且在所有组中都有更多的异常值。具体来说，流行项和普通项在嵌入空间中往往会相互重叠。同时，也有一小部分正常项目位于不受欢迎的项目层。一致性建模任务利用积极项目和消极项目之间的流行度差距，使用单独的嵌入来学习成对关系。从图7中的嵌入可视化，我们可以确认DICE中的一致性建模任务对学习高质量可解释表示的影响。

4.4.3 课程学习的影响

**在提出的框架中，我们采用多任务课程学习来聚合不同的原因。**具体地说，我们使几个超参数自适应，以形成一个易于理解的因果学习课程。这些超参数包括减重 $\alpha$ 和负采样边界值 $m_{up}$ 和 $m_{down}$ . 当我们训练因果嵌入时，我们将这些超参数衰减0.9倍以增加难度。在实验中，我们用不同的值初始化这些超参数，并考察课程学习的效果。图8（a）显示了课程学习和正常学习在不同初始减重值上的结果 $\alpha$ . 我们可以观察到，课程学习始终优于正常情况。同时，由于先易后难，所以课程学习对初始值不敏感，而没有自适应超参数的正常训练不像课程学习那样稳定， $\alpha$ 值表现普遍下降。

4.4.4 差异损失的影响

我们为差异损失提供三种选择：L1 inv、L2 inv和 $d C o r$ ,我们在两个有两个主干的数据集上检查这三个候选者。总的来说， $d C o r$ 获得比L1 inv和L2 inv更好的性能，改进超过2%。然而， $d C o r$ 依赖于繁重的矩阵计算，这比L1 inv和L2-inv耗时得多。具体而言，使用 $d C o r$ （每历元约100秒）作为差异损失进行训练比L1 inv和L2 inv（每历元约44秒）慢得多，这意味着L1 inv和L2 inv可能更适合大规模应用。

4.5 干预训练数据的研究(RQ4)

在以前的实验中，所有算法都是使用大量正常数据（60%）和少量干预数据（10%）进行训练的。添加额外的干预数据不仅是某些基线方法（CausE）的硬要求，而且还降低了因果学习的难度。然而，在现实世界的推荐系统中，干预数据往往过于昂贵，例如，随机推荐策略会极大地破坏用户体验。因此，在本节中，我们将研究当我们改变干预训练数据的比例时，不同的算法如何执行，并且我们还包括最具挑战性的任务，即不使用任何干预数据进行训练。
在这里插入图片描述

图8（b）展示了DICE、CausE和IPS-CNSR使用不同比例干预数据的性能。毫无疑问，当我们向训练集中添加更多的干预数据时，所有的方法都得到了改进，因为它允许模型访问更类似于测试用例的干预信息。同时，提出的DICE框架在0%到20%的所有情况下都实现了对基线的显著改进。即使没有干预数据，提议的DICE框架仍然可以分离兴趣和一致性，并且显著优于其他基线。请注意，由于原因需要干预的培训数据，因此0%的原因没有结果。
总之，我们进行了大量的实验来评估DICE的性能。我们将其与非IID情况下的最新基线方法进行比较，DICE的性能优于其他方法，并有显著的改进。我们强调，使用嵌入而不是标量来充分捕获用户一致性的变化是至关重要的，这一点也被针对有偏MF和有偏GCN的实验所证明。因为纠缠算法相比，解纠缠算法主要的优势是具有可解释性和鲁棒性，我们进一步进行了实验，以证明DICE确实提供了可解释的结果，并保证了在干预下的鲁棒性。此外，我们还进行了消融研究，以调查消极抽样、从众建模和课程学习的作用。最后，我们还研究了干预训练数据的比例和差异损失的不同选择的影响。

5 Related Work

因果推荐
推荐系统的现有因果解决方案从项目[1,3,5,11,12,24,35,43]的角度将问题表述为消除受欢迎度偏差。最近的文献中提出了一系列无偏推荐算法，旨在尽可能减少流行度偏差[2,10,17,18,25,26,30,40,48,49]。其中，基于逆倾向评分（IPS）的方法被广泛采用，并取得了最先进的性能。IPS将每个实例重新加权，作为相应项目流行度值的倒数，因此流行项目被施加较低的权重，而长尾项目则被提升。 IPS保证零偏差，但它具有高方差。已经提出了一系列变体，以获得基于IPS的更稳定的结果。Bottou等人[10]在IPS值上添加了最大上限，Gruson等人[18]进一步添加了标准化，还添加了平滑和重新标准化，以减少IPS的方差[18]。IPS及其变体仅从项目的角度获得无偏见或低偏见的推荐，而忽略了用户一致性的多样性。施加不同的权重不足以全面捕获用户一致性，因为它本质上取决于用户和项目。
除IPS外，Bonner等人[9]还提出了分别对大型有偏数据集和小型无偏数据集执行两个MF的原因。利用L1或L2正则化迫使两个因子化嵌入彼此相似。然而，在原因中仍然没有考虑一致性。在带有明确反馈的推荐中（例如评级预测），Sinhaet 等[42]将观察到的评级分解为真实评级和推荐人影响的结合。在几个强有力的假设下，他们得到了一个封闭形式的解决方案，以从基于SVD的观察评级中恢复真实评级。然而，这些假设在更普遍的隐性反馈环境中是无效的。
与前面提到的忽略用户一致性并将不同原因捆绑到统一表示中的方法不同，我们的方法通过对用户兴趣和一致性的分离嵌入实现因果推荐。据我们所知，我们提出的方法是第一次尝试从用户的角度解决因果推荐问题，通过分离用户兴趣和一致性，获得卓越的鲁棒性和可解释性。
解构表征学习。
不同语义分离的学习 表示对于神经模型的稳健使用至关重要[6,32,41,44]。现有的方法主要集中于计算机视觉[15,16,22,23,28]。例如 $\beta -VAE$ [22]以无监督的方式从原始图像中学习可解释的表示。直到最近，才对推荐系统中的分离表征学习进行了探索[14,33,47]。Maet al.[33]提出使用可变自动编码器来分离宏观层面的概念，如不同项目的意图，以及分离微观层面的因素，如项目的颜色或大小。Wanget al.[47]利用图卷积网络学习不同潜在用户意图的解纠缠表示。这些方法将用户意图分解为更精细的粒度，例如项目的品牌或颜色，而忽略用户一致性，这对于推荐至关重要.

6 结论和今后的工作

在这篇文章中，我们提出了一个一般的框架来分离用户兴趣和一致性的推荐与因果嵌入。我们发展了一个简明的加法因果模型，并用因果图和供应链管理来描述这个模型。根据提议的SCM，为了利益和一致性，采用单独嵌入。我们从观察互动中提取特定于原因的数据，并使用不同的特定于原因的数据训练不同的嵌入，以实现兴趣和一致性之间的分离。这两个原因通过多任务课程学习得到整合和平衡。基于简洁合理的因果模型，DICE始终优于最先进的算法，并有显著的改进。实验表明，与其他基线相比，DICE在非IID情况下更具鲁棒性。解纠缠分析表明，在这两组嵌入中，用户兴趣和一致性在很大程度上是独立的。学习到的嵌入具有高质量和可解释性，有希望利用学习到的解纠缠表示来探索新的应用。
DICE将每次点击的互动分解为两个原因：兴趣和一致性。未来工作的一个特别有意义的方向是扩展DICE以包括更精细层次的原因。例如，宏观层面的原因兴趣可以进一步划分为微观层面的原因，如对品牌、价格或物品颜色的意图。总的来说，我们相信，兴趣和一致性的分离为理解推荐系统的用户项交互打开了新的大门。