步骤
1.计算物品相似度矩阵S(Item-Item Similarity matrix)
2.计算用户与物品的关系矩阵A(User_Item affinity matrix)
3.计算得分,得到分数矩阵A*S,推荐分数最高的几件商品(Top-k recommendations)
4.可以通过时间衰退与删除浏览过的商品来增加准确度
计算项目共现和项目相似度(计算S)
SAR基于项目之间的共性数据(两个项目对于给定用户一起出现的次数)定义相似性。
构建了m*m的矩阵C,ci,jc_{i,j}ci,j?代表的是项目i与项目j一起出行的次数,m是项目的总和
- 对称,ci,j=cj,ic_{i,j} = c_{j,i}ci,j?=cj,i?
- 非负 ci,j≥0c_{i,j} \geq 0ci,j?≥0
- 项目单独出现的次数肯定比两个项目同时出现的次数少 ci,i,cj,j≥ci,jc_{i,i} , c_{j,j} \geq c_{i,j}ci,i?,cj,j?≥ci,j?
计算相似度
Jaccard
: sij=cij(cii+cjj?cij)s_{ij}=\frac{c_{ij}}{(c_{ii}+c_{jj}-c_{ij})}sij?=(cii?+cjj??cij?)cij??lift
: sij=cij(cii×cjj)s_{ij}=\frac{c_{ij}}{(c_{ii} \times c_{jj})}sij?=(cii?×cjj?)cij??counts
: sij=cijs_{ij}=c_{ij}sij?=cij?
通常,将“counts”用作相似性度量标准有利于可预测性,这意味着大多数时候都会推荐最受欢迎的商品。
相比之下,“lift”则有利于发现性/偶然性:总体上较不受欢迎但受到一小部分用户高度青睐的商品更可能被推荐。
“ Jaccard”是两者之间的折衷方案。
计算用户对物品的亲和力分数(计算A)
SAR中的亲和度矩阵捕获了每个用户与用户已经与之交互的项目之间关系的强度。 SAR包含两个可能影响用户亲和力的因素:
- 它可以通过对不同事件进行加权加权来考虑有关“用户-项目”交互类型的信息(例如,它可以权衡用户对特定项目的评价高于对特定项目的评价)
- 它可以考虑有关**何时发生用户项目事件的信息(例如,它可以抵消遥远过去发生的事件的价值)
将这些因素形式化可以使我们表达出用户与项目之间的相似性:
aij=∑kwk(12)t0?tkTa_{ij}=\sum_k w_k \left(\frac{1}{2}\right)^{\frac{t_0-t_k}{T}} aij?=k∑?wk?(21?)Tt0??tk??
其中,用户iii和项目jjj的相似度aija_{ij}aij?是涉及用户iii和项目jjj的所有 kkk事件的加权总和。 wkw_kwk?表示特定事件的权重,2项的幂表示时间折扣事件。 (12)n(\frac{1}{2})^n(21?)n缩放因子使参数TTT成为半衰期 t0t_0t0? 之前的事件 TTT单位的权重是发生事件的一半 在 t0t_0t0?。
对所有nnn个用户和mmm个项目重复此计算,将得出n?mn * mn?m矩阵AAA。 可以通过将所有权重设置为1(有效地忽略事件类型),或将半衰期参数TTT设置为无穷大(忽略交易时间),来简化上述表达式。
时间衰退(可选)
用户与商品之间的关系,如果经历的时间越长,则它们之间的关系就越小。
删除浏览过的项目(可选)
(可选)我们删除训练集中已经看到的商品,即不建议用户再次购买先前购买的商品。
为每个用户推荐Top_k项
然后可以通过将亲和度矩阵(AAA)乘以相似度矩阵(SSS)来获得针对一组用户的个性化推荐。 结果是推荐分数矩阵,其中每一行对应一个用户,每一列对应一个项目,每个条目对应一个用户/项目对。 分数越高,推荐项目就越强。
值得注意的是,推荐操作的复杂性取决于数据大小。 SAR算法本身具有 O(n3)O(n^3)O(n3) 的复杂度。 因此,单节点实现不应以可伸缩的方式处理大型数据集。 每当使用该算法时,建议运行足够大的内存。