当前位置: 代码迷 >> 综合 >> 零基础入门推荐系统【数据分析】Task2(学习心得)
  详细解决方案

零基础入门推荐系统【数据分析】Task2(学习心得)

热度:21   发布时间:2023-12-16 03:29:34.0

零基础入门推荐系统【数据分析】Task2(学习心得)

链接:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.41052b3aXVmMWE&postId=144451

个人觉得不进行数据分析,特征分析的机器学习都是纸上谈兵,故写一下学习心得,总的来说整个流程分为以下三点:

1.观其大略。先是对整个数据集的总览(常用技巧:排序、扩列),查看数据集的规模,对数据集进行表连接从而可以更容易发现分散的数据之间的关系;运用pandas describe函数,subplot画柱状图对每个字段进行可视化分析,运用max、min函数了解数据集的边界。

2.分析用户行为。因为是新闻推荐,对应的行为就是点击事件的分析。本文从同一用户重复点击的文章、以及用户点击文章次数的分布、点击文章的环境(操作系统、设备)、活跃用户(点击次数较多的用户)、热门文章(被点击最多的文章)、用户点击的文章的长度、新闻类型出现的频度、点击事件发生的时间 这些角度进行分析,多个维度展示了数据分布,便于日后特征工程有的放矢。

3.路径分析。路径分析个人认为有 同一用户连续点击文章的pair分析(即点击文章的行为路径)

4.用户画像。通过对用户点击过的新闻类型进行分析,可以得出用户的兴趣的用户画像。

5.制作文章的嵌入向量(embeding vector)。本文中采用的是word2vec算法,这个算法是谷歌提出的词向量算法(本质上是将没有上下文环境的one-hot编码通过神经网络训练后得到具有上下文语意的词向量),具体实现可以参照知乎这篇文章(https://zhuanlan.zhihu.com/p/269312855)。由于word2vec的核心思想是:出现在同上下文的单词大概率会是近义词,这与推荐系统中“一个用户选择过的商品大概率是相似”的思想相近,故我们可以把每个用户点击过的文章看作是一个上下文环境,每个商品id对应的就是一个个单词,由此做出embeding vector。

6.最后文中选择了相邻的文章进行余弦相似度的计算,个人觉得这里有点不妥,不应该是任意两篇文章都要做余弦相似度的计算?

7.还有一个地方可能是笔误。

希望可以抛砖引用,大家一起讨论学习。

 

  相关解决方案