说明
1.原文链接。
2.本人及翻译软件的翻译水平有限,粗读即可,精读请看原文。
标题
1.题目:面向序列组推荐的群感知长、短期图表示学习
????Group-Aware Long- and Short-Term Graph Representation Learning for Sequential Group Recommendation
2.作者:
??华东师范大学、微信搜索应用部门、乔治亚理工学院
摘要
??顺序推荐和群推荐是推荐系统中的两个重要分支。虽然我们已经对这两个分支进行了大量独立的研究,但我们提出了新的序列群推荐问题,将它们结合在一起,该问题能够建模群的动态表示,是实现更好的群推荐性能的关键。该问题的主要挑战是如何有效地学习基于组成员在过去时间段内连续的用户-项交互的动态组表示。为了解决这个问题,我们设计了一种组感知的长、短期图表示学习方法,即GLS-GRL,用于顺序组推荐。具体地说,对于一个目标群体,我们构造一个群体感知的长期图来捕捉整个历史中的用户项交互和项目-项目共现,以及一个群体感知的短期图来包含关于当前时间框架的相同信息。基于这些图,GLS-GRL进行图表示学习,获得长期和短期用户表示,然后自适应地融合它们,获得集成的用户表示。最后,通过约束用户交互注意机制来编码组成员之间的关联,从而得到组表示。综合实验表明,GLS-GRL的性能优于序贯推荐和群推荐两种强替代方案,验证了GLS-GRL核心组件的有效性。
1 介绍
??现代推荐系统在塑造用户-物品的交互方式中起着举足轻重的作用。在这个信息爆炸的时代,这一点尤为重要。在这个时代,用户普遍面临着信息超载的问题(例如,亚马逊上有数百万的产品,Twitter上有大规模的流媒体用户生成内容)。因此,大量的研究致力于为不同的推荐问题设置开发有效的推荐模型和算法。顺序推荐[17,33]是这方面的一个研究热点,其目的是预测目标用户愿意与之交互的下一个对象。它提出了一个主要的挑战,即学习基于顺序用户项交互的动态用户偏好表示。递归神经网络(RNNs)[8],卷积神经网络(CNNs)[19],强大的注意力机制[10],以及最近的图神经网络(GNNs)[26]已被应用于这个问题。
??从另一个角度来看,一些研究调查的是将推荐的产品提供给目标用户组的情况,而不是按照一般的顺序推荐给单个用户。这个问题称为分组推荐[15]。用户群的形式在在线社交媒体中非常普遍,如meetup1,用户被组织成小组,参与一些线下活动,facebook2,小组是兴趣俱乐部,微信,用户可以轻松创建小组聊天。除了使用像平均群体成员[2]的偏好分数这样的经验策略外,最近关于群体推荐的研究集中于如何自动量化个体偏好在形成群体层次偏好中的相对重要性。两个代表性的技术分支是概率模型[13]和基于注意力的方法[3]。然而,研究到目前为止将问题表述为静态推荐,忽略了团队成员行为的顺序性。
??在本文中,我们提出了一个新的问题,即顺序群推荐(SGR),它位于顺序推荐和群推荐的交叉点。如图1所示,此问题旨在利用目标组成员在过去时间框架中的顺序项交互,以预测哪些项将在下一个时间框架中从目标组成员获得更多交互。由于社交平台上可能会不时出现由现有用户组成的新群组,因此这个问题需要同时向现有群组和新群组推荐物品。与之前的群组推荐问题设置相比,顺序群组推荐具有很强的工具性,能够建模由顺序推荐激发的群组动态表示,对于提高群组推荐的性能很有希望。值得注意的是,虽然这些研究[14,27]涉及了顺序推荐和分组的概念,但它们与我们的研究有着根本的不同,因为:(1)前一项研究为会话推荐量身定做,其方法完全是实证的,没有模型学习过程;(2)后者实际上是利用群体偏好来促进对个体用户的顺序推荐,以克服稀疏性问题。
??为了解决这个问题,一个基本的挑战是如何有效地学习基于组成员在过去时间段内连续的用户-项交互的动态组表示。实际上,组表示是由组成员的动态表示来反映的,这种动态表示既适用于现有组,也适用于新组。因此,用户表示是必不可少的,它弥补了特定用户-项交互和组表示之间的差距。然后将整体的基本挑战分解为具体的挑战:
??-如何利用组成员关系和顺序的用户项交互来了解用户表示?
??-如何利用获得的用户表示来表示组偏好?
??为了更好地解决上述两个问题,我们提出了群体感知长、短期图表示学习(Group-aware Long- and - short Graph Representation Learning)模型。该方法使组成员关系能够影响用户表示的学习和基于所获得的用户表示的组表示的实现,这一点受到了人们的欢迎。具体地说,在每个时间框架中,我们首先构建感知组的长期和短期图,这两个图共享属于同一目标组的所有用户。长期图包含整个历史中的用户-项目交互和项目-项目共现,而短期图只包含关于当前时间框架的信息。在这两个图的基础上,GLS-GRL对这两个图进行图表示学习,分别学习用户的长表示和短期表示。通过一个简单的闸门机制来融合这两种类型的表示,以获得集成的用户表示。就这样,第一个挑战得到了解决。对于第二个挑战,GLS-GRL进一步开发了一种受约束的用户交互注意力,这种注意力是由亚注意力网络[20]激发的。它通过表示一个用户w.r.t来编码组成员之间的相关性,即被选择的其他组成员的表示,这些成员需要至少有一个共同交互的项目。组表示最终通过集成用户表示来实现。
??综上所述,主要贡献如下:
- 我们提出了一个新的问题,即顺序群体推荐,它需要对群体表示的顺序动力学进行建模,而这在目前的群体推荐研究中被忽视了。
- 我们开发了GLS-GRL模型,创新之处是通过相应的组感知长、短期图来学习长、短期用户表示,以及组表示学习和用户表示学习的耦合。
- 我们在两个真实数据集上进行了全面的实验,证明了GLS-GRL与强替代方案相比具有更好的性能,验证了模型的一些关键设计。
2 相关研究
??在本节中,我们从顺序推荐、群体推荐和GNNs推荐三个方面回顾了相关研究。
2.1 序列推荐
??与一般的推荐任务设置不同,顺序推荐的特点在于解决用户行为的顺序特性,并预测用户在不久的将来(比如下一次)会喜欢什么。早期关于顺序推荐的研究依赖于一阶马尔科夫假设,即下一个交互只依赖于同一用户当前的交互,包括基于过渡计数的方法[5]和潜在因子模型[17]。受深度学习广泛成功的启发,近年来RNNs、CNNs、attention mechanism、GNNs等应用于顺序推荐。具体来说,开创性的研究[8]通过将相互作用的项目视为单词来利用该领域的RNNs。通过将项序列映射到嵌入矩阵,验证了用于图像处理的基础设施CNNs[19]在这方面在一定程度上的有效性。量化不同的重要性过去的相互作用下的预测,采用注意机制[10 - 12,18]。从另一个角度来看,GNNs将交互建模为一个图,这将在2.3节中讨论。
??大多数现有的顺序推荐方法都是针对单个用户的。一个简单的想法是直接利用这些方法来学习用户表示,然后通过一些融合方法来聚合它们。但是,它不能利用组成员关系来获得用户表示,这在第一个挑战中得到了强调。值得注意的是,我们不能将组id映射到嵌入来增强输入表示,因为应该处理在训练阶段没有出现的新组。
2.2 群组推荐
??组推荐需要融合用户组中所有成员的个人首选项。为此,本文首先采用了一些实证的、简单的策略。O 'Connor等人[15]使用最不满意用户的偏好来表示群体层次的偏好(又称最不痛苦策略)。[2]比较了包括简单平均聚合策略在内的几种偏好聚合策略,发现:(1)这些策略的结果相似,(2)群体推荐比个体推荐难。然而,这些策略都有点太过经验主义,没有一个学习过程来指导聚合。
??为了自动测量个体的影响,我们提出了概率模型[6,13,28,31]来描述产品推荐作为一个生成过程。这些模型共享的基本过程是,首先为目标组(或同一组中的成员)选择一个用户,然后根据该用户和关联的隐藏主题生成项。但是,它们有一个限制,即用户对主题或项的分布(也被视为用户表示)独立于组[20]。最近,基于深度表示学习的模型被提出[3,20,29]。它们都利用注意机制[1]来计算个体影响权重w.r.t.特定群体,从而有效融合用户表征。它被证明比概率模型的性能更好。
??以上的群组推荐方法都没有考虑用户行为的顺序性,而用户行为的顺序性构成了群组的动态性。这促使人们提出了顺序组推荐和开发针对该问题的定制模型。值得注意的是,一些研究[32]将群体推荐制定为向特定用户推荐加入的群体,而另一些研究[9,27]利用群体信息提升个体的推荐性能,两者在概念上都与所研究的问题不同。
2.3 用于推荐的GNNs
??图神经网络将用户-物品的交互建模为图,由于能够将高阶关联编码到低维的用户和物品表示中,因此受到欢迎。提出了PinSage[30],用于通过图的卷积层传播itemitem图上的表示。NGCF[24]为用户-项目二部图建模,以学习集体用户行为。RippleNet[22]利用知识图将交互项显示的用户偏好传播给可能被推荐的候选项。这些方法是为一般的推荐设置量身定做的,不解决用户行为的顺序。
??在顺序推荐领域,最新的研究[16,23,25,26]将目标用户的当前会话建模为项-项图,或将不同用户的多个会话转换为全局共享的项-项图。下一个项目推荐是通过计算候选项目之间的相似性和整个会话的表示来实现的。以上研究通过捕捉用户的短期偏好对个体进行推荐。
??相比之下,我们的目标是获取用户对顺序组推荐的长期和短期偏好,即预测目标组在下一个时间段会更喜欢哪些项目。我们还通过构建可感知组的长期和短期图继承了基于gnn的建模思想。这使得用户表示学习可以由组成员关系和顺序的用户项交互来指导。
3 问题定义
??我们利用U={u1,u2,…,u∣U∣}U = \{u_1,u_2,\dots,u_{|U|}\}U={
u1?,u2?,…,u∣U∣?}和V={v1,v2,…,v∣V∣}V = \{v_1,v_2,\dots,v_{|V|}\}V={
v1?,v2?,…,v∣V∣?}表示推荐系统的两个最基本的元素,分别为用户集和项目集。用户组ggg关联到一个用户组Mg?UM_g\subseteq UMg??U,这可以是一个现有的组或一个新兴群体。因此,组的数量可能会随时间而改变。为每个用户u∈Uu \in Uu∈U,我们表示用户的长期历史行为Hul=(v0l,v1l,v2l,…)H_u^l=(v_0^l,v_1^l,v_2^l,\dots)Hul?=(v0l?,v1l?,v2l?,…)对应于整个历史,历史和短期行为Hus=(v0s,v1s,v2s,…)H_u^s=(v_0^s,v_1^s,v_2^s,\dots)Hus?=(v0s?,v1s?,v2s?,…)对应于当前时间帧?。我们进一步利用Ω(Hul)(Ω(Hul)?V)Ω(H_u^l)(Ω(H_u^l) \subseteq V)Ω(Hul?)(Ω(Hul?)?V)和Ω(Hus)(Ω(Hus)?V)Ω(H_u^s)(Ω(H_u^s) \subseteq V)Ω(Hus?)(Ω(Hus?)?V)分别表示历史行为中包含的项目集.
??基于这些符号,我们首先定义组感知长期图和组感知短期图如下:
??定义1(群组感知的长期图).Ggl={Vgl,Egl}\mathcal{G}_g^l=\{\mathcal{V}_g^l,\mathcal{E}_g^l\}Ggl?={
Vgl?,Egl?}是群组感知的长期图,对于给定群组ggg满足如下条件:(1)Vgl=?Ω(Hul)∣u∈Mg?Mg\mathcal{V}_g^l= \bigcup\Omega(H_u^l)|_{u \in M_g}\bigcup M_gVgl?=?Ω(Hul?)∣u∈Mg???Mg?;(2)Egl\mathcal{E}_g^lEgl?包含用户-项目和项目-项目的边界由后文介绍的图结构构造的{Hul}∣u∈Mg\{H_u^l\}|_{u \in M_g}{
Hul?}∣u∈Mg??作为输入。
??;定义2(群组感知的短期图).Ggs={Vgs,Egs}\mathcal{G}_g^s=\{\mathcal{V}_g^s,\mathcal{E}_g^s\}Ggs?={
Vgs?,Egs?}是群组感知的长期图,对于给定群组ggg满足如下条件:(1)Vgs=?Ω(Hus)∣u∈Mg?Mg\mathcal{V}_g^s= \bigcup\Omega(H_u^s)|_{u \in M_g}\bigcup M_gVgs?=?Ω(Hus?)∣u∈Mg???Mg?;(2)Egs\mathcal{E}_g^sEgs?包含用户-项目和项目-项目的边界由后文介绍的图结构构造的{Hus}∣u∈Mg\{H_u^s\}|_{u \in M_g}{
Hus?}∣u∈Mg??作为输入。
??群体感知的长期图捕捉了群体成员的长期偏好,而群体感知的短期图更关注群体成员的动态偏好。因此,这两种类型的图是预测近期的基础。在形式上,我们对顺序组推荐问题的定义如下:
??问题1(序列群组推荐).给定一个目标群体ggg,和其群组感知的长期图Ggl\mathcal{G}_g^lGgl?和短期图Ggs\mathcal{G}_g^sGgs?,根据当前时间帧TTT。问题目标变为给一个候选项目vvv学习一个函数f(g,Ggl,Ggs,v)→sigf(g,\mathcal{G}_g^l,\mathcal{G}_g^s,v) \rightarrow s_i^gf(g,Ggl?,Ggs?,v)→sig?,其中sigs_i^gsig?为该项目在T+1T+1T+1时间帧内群组级别的偏好得分。
??在不引起歧义的情况下,为简单起见,我们省略了与群ggg相关的上标和下标。
4 提出的模型
??我们的GLS-GRL模型的总体架构如图2所示,它以组的长期图和短期图作为输入,输出组级表示进行相似度计算,并与候选推荐项一起进行推荐。长期(或短期)图是基于组成员与整个历史(或当前时间范围内)项目的交互构建的。图3显示了一个玩具示例来说明这两个图表的结构。GLS-GRL由四个关键部分组成:(1)长期和短期用户表征学习;(2)长期和短期用户表征融合;(3)受限用户交互注意力;(4)组表征聚合。提出了一种基于混合排序的损失函数来优化GLS-GRL。在阐述上述关键组成部分和目标函数之前,我们先说明图形构建过程。
4.1 群组感知的图结构
??在常见的顺序推荐场景中,记录用户与项目的顺序交互,用于构建组感知的长期和短期图。我们以包含群成员行为(如3(A)所示)和所有用户行为(如3(B)所示)为例,来说明图的构建过程。如定义1和2中所定义的,这两个图共享相同的用户节点,并且项目节点是组成员在整个历史(对于长期图)或在当前时间范围(对于短期图)中交互的内容。因此,可以容易地确定图中的节点。
??然后介绍了如何在这两个图中构造边。在构造的图中有两种类型的边,即用户-项目边和项目-项目边。一方面,用户项边缘自然地捕捉到了群成员的动态偏好。如果用户过去曾与某个项目进行过交互,则会有一条边连接该用户和该项目。如图3(A)所示,用户u1u_1u1?在当前时间范围内与项v3v_3v3?、v1v_1v1?和v2v_2v2?交互,则用户u1u_1u1?与组感知短期图中的这些项之间存在边,如图3(D)所示。类似地,由于用户u3u_3u3?在整个历史中与项v5v_5v5?和v3v_3v3?交互,因此在组感知长期图中存在用户和这些项的边,如图3?所示。另一方面,项-项边缘编码不同项之间的关系,这被认为比用户偏好更稳定。因此,我们对这两个图都采用共享策略来构造项-项边。具体地说,如果两个项目已经连续与任何用户交互,我们假设这两个项目之间存在边缘。例如,如用户u1u_1u1?的行为序列所示,由于v1v_1v1?和v2v_2v2?与用户持续交互,因此v1v_1v1?和v2v_2v2?应该是有优势的。
4.2 长期和短期用户表征学习
??在学习将图关系编码为低维用户表示之前,第一步是构建用户和项的输入表示。为此,我们使用eˉv∈R∣V∣\mathrm{\mathbf{\bar e}}_v\in\R^{|V|}eˉv?∈R∣V∣和fˉv∈R∣U∣\mathrm{\mathbf{\bar f}}_v\in\R^{|U|}fˉv?∈R∣U∣表示每个项目v∈Vv\in Vv∈V和每个用户u∈Uu\in Uu∈U的一个热点表示。然后,我们使用两个可训练嵌入矩阵E∈R∣V∣×d\mathrm{\mathbf{E}} \in \R^{|V|\times d}E∈R∣V∣×d将它们分别转换为低维密集向量ev∈Rd\mathbf{e}_v\in\R^dev?∈Rd和fu∈Rd\mathbf{f}_u\in\R^dfu?∈Rd:
??两个图的图表示学习的数学公式几乎相同,因此我们以长期图Gl\mathcal{G}^lGl为例进行说明。我们假设hvl,(0)=ev\mathbf{h}_v^{l,(0)}=\mathbf{e}_vhvl,(0)?=ev?是项目节点v∈Vlv \in \mathcal{V}^lv∈Vl的初始表示,hul,(0)=fu\mathbf{h}_u^{l,(0)}=\mathbf{f}_uhul,(0)?=fu?是用户节点u∈Ulu \in \mathcal{U}^lu∈Ul的初始表示。然后,我们采用常用的两阶段法[30]在图上进行表示传播。第一步是聚合目标节点的邻域表示。由于图形中有两种类型的节点,因此我们首先定义用户节点的表示聚合方式,如下所示:
??其中NulN_u^lNul?表示用户uuu的项目邻域,kkk表示聚合的第kkk次。相比之下,项节点不仅涉及用户-项边缘,而且还与项项边缘相关联。因此,它有两种类型的邻域,相应的聚合表示通过以下方式计算:
??其中NvUN_v^UNvU?和NvIN_v^INvI?分别表示项vvv的用户邻域和项邻域。通过上述方式,项表示同时受到用户和项表示的影响。请注意,我们还考虑了图中的边取连续值的情况。如后面的第5节所述,我们采用一种直观的方式将连续的边权重合并到聚合过程中。然而,目前在实验中没有观察到任何改善。
??表示传播的第二步是通过聚合表示更新目标用户和项表示:
??我们假设传播的总次数是KKK。因此,获得的长期用户表示是hul,(K)\mathbf{h}_u^{l,(K)}hul,(K)?。
??由于构造了组感知的短期图Gs\mathcal{G}^sGs,我们可以类似的方式获得表示为hus,(K)\mathbf{h}_u^{s,(K)}hus,(K)?的短期用户表示。值得注意的是,短期图中用户节点the的初始表示被初始化为零向量:hus,(0)=0\mathbf{h}_u^{s,(0)}=\mathbf 0hus,(0)?=0。这是有道理的,因为在该图中学习图形表示的目的是为了主要根据他们最近互动的项目来学习短期用户表示。用零向量初始化可以消除长期用户表示的影响。
4.3 用户表示融合
??到目前为止,我们有长期和短期的用户表示形式。我们在用户表示之上添加了一个非线性全连接(nFC)层,以赋予他们丰富的表达能力。计算定义如下:
??其中nFC使用tanh作为其非线性激活函数。捷径[7]的想法也包含在上述方程式中。
??如前所述,长期用户表征对应于长期偏好,而短期用户表征揭示动态和近期偏好。这两种表征是相辅相成的,它们的融合可以有更强的表达能力。为了保证自适应融合,我们采用一种简单的门控机制来计算每种表示类型对特定用户的相对重要性。在数学上,它被定义为:
??其中,aua_uau?是标量值,表示长期表示在形成综合用户表示pu\mathbf p_upu?时所占的比率,其计算方法为:
??其中σ\sigmaσ是Sigmoid函数,wg∈R2d\mathbf{w}^g \in \R^{2d}wg∈R2d是可训练的参数向量,[·;·]表示串联运算。
4.2 群组表示学习
??GLS-GRL在综合用户表征的基础上,通过受限的用户交互注意力来学习组成员之间的隐含相关性,并进行组表征聚合,得到组级别的表征。
4.4.1 带约束的用户交互注意力。
??最近提出的子注意网络[20]在静态组推荐问题中实现了最先进的性能。该网络利用自我注意技术[21]来用其他组成员的表示的加权组合来表示一个用户。通过注意力计算得到组合的权重。然而,子注意力网络的一个问题是每个用户的注意力计算是在所有其他组成员上进行的。这很耗时,而且可能没有必要,因为在实际情况下,不是同一组中的所有用户都有直接交互。基于这种直觉,我们对自我注意技术提出了一种简单的改进,即对每个目标用户限制要参加的群组成员,称为受限用户交互注意机制。
??具体来说,我们首先用co?interact(u,u′)co-interact(u,u')co?interact(u,u′)来表示在整个历史记录中用户uuu和u′u'u′共同交互的项目数。然后我们使用NuUN_u^UNuU?来表示组中用户uuu的邻域,其满足?u′∈NuU,co?interact(u,u′)≥1.\forall u'\in N_u^U,co-interact(u,u')\geq1.?u′∈NuU?,co?interact(u,u′)≥1.在此基础上,我们定义了受限用户交互注意力的计算细节如下:
??其中,应用双线性方法来度量用户uuu和u′u'u′之间的相似度,并且Wa\mathbf W^aWa是该方法的可训练矩阵。在给定关注度权重的情况下,通过以下方式计算更新后的用户表示:
4.4.2 群组表示聚合
??最后,我们聚合更新后的用户表示,以获得组的组级表示。正如研究[20]所表明的那样,在用户表征上进行额外的注意力计算并不能提高性能。因此,我们采用定义如下的简单均值合并技术:
??到目前为止,GLS-GRL将组?及其长期和短期图Ggl\mathcal G_g^lGgl?和Ggs\mathcal G_g^sGgs?作为输入,并可以输出图表示g,该图表示g稍后用于计算候选项目的组偏好得分。
4.5 模型预测和训练
4.5.1 模型预测
??在这一部分中,我们阐明了如何计算分组级别的偏好分数sss到候选项vvv,以便在我们的方法中显示函数fff(在问题1中提到)的全貌。我们认为候选项目?的偏好分数由两部分组成:(1)组与项目之间的相关性,通过余弦相似度来衡量;(2)项目的受欢迎程度,独立于特定群体。然后通过以下方式计算分数sss:
??其中,popv\mathrm{pop}_vpopv?可以看作是项目vvv的受欢迎程度偏差,它是我们模型的一个可训练参数。为了进行训练,我们将该值初始化为0。
4.5.2 模型训练
??对于组推荐,我们提出了一种混合损失函数,由显式排名损失和隐式排名损失组成。我们利用YE?VY^E\subseteq VYE?V来表示所有项目都已经与群成员进行了交互的项目集,使用YI?VY^I\subseteq VYI?V来表示每个项目都没有与群中的任何用户进行交互的负项目集。在此基础上,我们将显式排名损失正式定义如下:
??其中,I(?)\mathbb I(*)I(?)是指示器函数,如果满足条件?,则其取值为1。num_mv\mathrm{num\_m}_vnum_mv?表示与项目vvv交互的组成员数量。γ\gammaγ是边距,在实验中设置为0.1.。我们进一步定义了以往群组推荐方法普遍采用的隐式排名损失:
??最后,我们通过线性插值将这两个损失函数组合起来,得到混合损失函数:
??其中aaa是控制每个损失函数的相对重要性的超参数。
5 实验
??在本节中,我们通过实验回答以下研究问题:
- 问题1:GLS-GRL与现有的序贯推荐方法、分组推荐方法以及一些组合的序贯分组推荐方法相比表现如何?
- 问题2:GLS-GRL的关键组件是否对推荐性能有贡献?与备选方案相比,GLS-GRL的核心设计是否合理和有效?
??为了实现这一目标,我们首先明确了实验装置,然后对实验结果进行了深入的分析。
5.1 实验设置
5.1.1 数据集
??我们采用了两个真实世界的数据集,分别名为微信和电影镜头。微信数据集收集自微信的头条新闻(看一看),用户可以浏览微信公众号发布的文章。我们从微信中选择了大约2万个群,至少有3个成员,收集所有群成员的点击记录,为期一周。我们将一天作为拆分数据集的时间框架。MovieLens数据集是从MovieLens 20M数据4^44获取的。它包含了13.8万名用户对2.7万部电影产生的约2000万个收视率。在本文中,我们假设如果用户给电影评分大于3,则用户与该电影有互动。为了使稀疏数据集适合于顺序推荐,我们收集了60周内的用户评分记录,并以10周为时间框架。由于数据集中没有显式的组结构,我们遵循[2]中使用的策略来生成具有相似用户的组。这是通过皮尔逊相关系数计算用户-用户相似度矩阵,然后将相似用户聚合成组来实现的,要求每个组中所有用户对的相似度大于0.27。总体而言,我们生成了大约60,000个至少有3名成员的群。
??对于每个时间框架,我们将目标群体的基本事实视为已经与组中至少两个成员互动的项目。我们将用户在整个历史中的交互记录作为他们的长期行为,将当前时间范围内的用户交互记录作为短期行为,并确保长期行为至少覆盖四个时间范围。我们将除最后一帧外的所有数据作为训练数据。最后一个时间帧的1/3数据作为验证数据,用于确定最优超参数设置和提前停止,最后一个时间帧的剩余2/3数据作为测试数据,用于评估不同方法的性能。用于构建图的项目同现关系仅基于训练数据。总而言之,表1总结了这两个数据集的基本统计数据。
5.1.2 基线方法
??在实验中,我们采用了不同的推荐方法。为了确保公平的比较,我们使所有可训练基线采用相同的分数生成方式(等式)。14)和混合损失函数(等式。17)与我们一样,这是他们利用的一般成对排名损失的延伸。混合损失的有效性在后面进行了论证。
- POP[4]:它是最简单的一种,它总是将训练数据中的热门项目推荐给小组,而不考虑其他信息。
- MF+AVG[20]:矩阵分解学习用户和项目标识符的潜在因素。在我们的实现中,由于没有可用的组标识符,因此我们使用平均值
- AGREE[3]:它基于对组成员的注意力计算和与组标识符相关联的组偏好嵌入来聚合组成员的偏好。在我们的实现中,我们只考虑组-项交互的建模。
- MoSAN[20]:这是一种最先进的群组推荐模型,它首先通过自我关注机制获得用户对所有其他成员的偏好嵌入,然后将所有群组成员的偏好汇总为群组偏好。
- GRU4Rec+AVG:GRU4Rec[8]是一个基于RNN的深度序列模型,用于序列推荐。为了使其适用于组推荐,我们应用均值池将GRU网络获得的每个组成员表示聚合为组表示。
- STAMP+AVG:Stamp[12]从用户的最近行为和长期行为中学习用户的偏好,以获得用户表示。类似地,我们还应用均值池化来聚合通过戳记获得的每个组成员表示作为组表示。
- SGR的组合模型(GRU4Rec+AGREE、STAMP+AGREE、GRU4Rec+MoSAN、STAMP+MoSAN)。 这些模型将序贯推荐模型和分组推荐模型与端到端学习相结合。具体地说,它们将从顺序模型(例如,GRU4Rec或STAMP)获得的用户表示馈送到组推荐模型(例如,AGREE或MoSAN)以获得组表示。
- SR-GNN:SR-GNN[16]是一个基于图的基于会话的推荐模型,它利用图对项目关系进行编码,并通过关注度网络获得会话表示。在我们的实现中,将用户嵌入和获得的会话表示作为用户表示。我们尝试了不同的方法将组成员的表示聚合为组表示,并报告最佳结果。
- NGCF:NGCF[24]通过GNN在用户-项目二部图上学习用户和项目表示。与SR-GNN一样,我们尝试了不同的方法来聚合群成员的表示并报告最佳结果。
5.1.3 评价指标
??我们采用了四个广泛使用的度量作为参考,并给出了单个实例的计算细节。前两个基于排名的指标:平均平均精度(MAP)和归一化折扣累积收益(NDCG)。其中,MAP定义为:
??其中,hit(n)hit(n)hit(n)表示排名在nnn的位置的项目是否为真,P@nP@nP@n是top-n的精度,NNN是要评估的项目推荐的数量。NDCG由以下公式计算:
??其中,num_mn\mathrm{num\_m}_nnum_mn?是与第m个推荐项交互的组成员的数量,而idcg@N是理想的?@N。
??最后两个是分类指标:查全率和精确度。它们被定义为:
??最终结果是通过对测试集进行平均得到的。我们使用MAP@10和NDCG@10,以及R@3和P@3进行评估,更多地关注排名靠前的答案的性能。
5.1.4 实施细节
??我们基于TensorFlow实现了我们的模型,除了学习率为1e-4,小批量为64之外,采用默认参数设置的ADAM对模型进行优化。将潜在向量的维数设置为64。两个数据集的GNN深度都设置为3,微信数据集的损失函数超参数α\alphaα设置为0.4,电影镜头数据集的超参数Depth设置为0.8。当验证数据的最佳性能在20批以上保持不变时,我们使用提前停止策略来终止学习过程。对于每个训练实例,我们随机抽取20个项目作为负样本。
5.2 实验结果
5.2.1 模型比较(Q1)
??表2显示了所有采用的模型的总体结果,从中我们可以观察到:
- 在这两个数据集的所有方法中,POP的性能最差。这表明群体成员的个性化偏好仍然是问题的关键。MF+A VG的表现明显优于POP,但逊于其他基线。这可能是由于MF的模型容量和非线性建模能力相对有限。
- GRU4Rec+AVG和STAMP+AVG比MF+AVG有更好的效果,表明即使采用简单的聚合策略,更强的模型也可以提高性能。一个有趣的现象是,这两个序列模型在MovieLens上的表现好于两个群体推荐模型,即Agree和MoSAN,但在微信上的表现较差。结果表明,群体行为和序列行为对推荐的重要性因数据集的不同而不同。
- 组合模型(例如,+Agree和+MoSAN)比*+A VG模型呈现出明显更好的结果。原因在于,更先进、更有效的群聚合技术确实给SGR问题带来了好处。此外,MoSAN作为单个模型的性能要好于Agree,但与顺序推荐模型结合使用时并未显示出任何改进。这表明MoSAN中使用的自我注意机制是有效的,但需要精心设计的顺序模型才能获得更好的性能。
- 两种基于图的推荐模型表现良好,说明图神经网络是学习项目关系的有力工具。综上所述,所提出的GLS-GRL取得了优异的性能,与次优结果w.r.t相比,分别获得了7.4%和8.1%的相对改善。微信和电影镜头上的ndcg@10。
5.2.2 消融研究(Q2)
??为了深入分析GLS-GRL,我们考虑了该模型的两组变体,其中“w/o”表示从GLS-GRL中移除相应的组件,“w/”表示用替代方法替换GLS-GRL的某些组件。特别地,对于第一组,“w/o图感知LTG”和“w/o图感知STG”分别表示移除图感知的长期图和短期图。“无用户级门”丢弃公式9中所示的选通机制。而改用平均池。“w/o Constraated UIA”删除公式11和12.中显示的计算。“w/o人气偏差”删除等式14.中的项目人气分数。对于第二组,“w/UIA”表示通过删除用户的约束,使用与MoSAN相同的自我注意计算。“w/Global Graph”用包含所有用户的两个全局图替换两个组感知图。“W/连续边缘权重”利用连续权重对用户和项目表示进行加权聚合。最后,“w/User-Init Short”表示使用用户嵌入来初始化短期图中的用户表示。
??表5显示了不同变体的性能。通过首先调查表格第一部分中的结果,我们有以下观察到的结果。(1)删除长期图或短期图都会降低推荐性能,说明它们是互补的。(2)使用门控机制进行融合,可以获得更好的用户表示和分组级别表示。(3)受限的用户交互注意力也是提高性能不可缺少的因素。(4)项目的受欢迎度偏向对绩效有正向贡献,尤其是对电影镜头的贡献更大。请注意,如上所述,所有可训练基线都采用与我们相同的分数生成方式,以确保比较的公平性。在第二部分中,我们进一步比较了变体和GLS-GRL的结果,并有了相应的观察结果。(1)使用无约束的自我注意计算(与MoSAN相同)会导致性能下降。这表明在用户注意力计算中加入约束是有效的。(2)将全局图中的关系编码到用户和项目表示中会导致较差的结果。我们将此归因于缺乏利用组信息来帮助学习组成员的陈述的机制。(3)简单地通过加权聚合来考虑连续边权重并不能提高算法的性能。(4)使用用户嵌入而不是零向量来初始化短期用户表示会导致性能下降。原因可能是纯短期用户表示更好地补充了长期表示。
5.2.3 传播数K的影响
??为了评估GNN深度的影响,我们在[1,2,3,4]范围内测试了不同的传播数。表3和表4分别显示了两个数据集的相应结果。我们可以发现,随着深度从1增加到3,性能变得更好,这表明了用GNN来建模物品和用户之间的高阶关系的优势。当进一步增加层数时,我们没有观察到任何改善,并且发现MoveiLens的效果更差。这可能归因于更多层的过度匹配问题。
5.2.4 α\alphaα的影响
??在图4中,我们描述了混合损耗函数中?的变化如何影响广义最小二乘法和两条强基线(SG-GNN和NGCF)的性能。左边的4个子图对应于微信的结果,右边的4个子图表示在电影镜头上的表现。由于当?设置为0或1时,三种方法的性能都会显著下降,从而验证了显式和隐式排序损失函数相结合的合理性。此外,在α\alphaα的大多数情况下,GLS-GRL的性能都优于SG-GNN和NGCF,其优化结果明显优于SG-GNN和NGCF。这表明我们的模型性能是稳健的。此外,对于数据集上的最佳结果,?的值及其变化趋势并不完全相同,表明这两个损失的相对重要性取决于特定数据集的特性。
6 总结
??本文阐述了序贯分组推荐这一新颖而重要的问题。GLS-GRL的提出解决了基于群成员顺序的用户-项目交互来学习动态群表示的根本挑战。该模型的主要创新之处在于将群体表征学习和长期和短期用户表征学习统一在一个框架内。在真实数据集上的实验验证了整个模型的有效性及其主要组成部分的贡献。