当前位置: 代码迷 >> 综合 >> Supplementary Materials for The spread of true and false news online 解读
  详细解决方案

Supplementary Materials for The spread of true and false news online 解读

热度:39   发布时间:2023-10-14 10:48:38.0

前言

本文针对发表自science上的文章The spread of true and false news online一文的Supplementary Materials的前20页进行解读。
该文章主要讲的是,在社交媒体中,假新闻相对于真新闻而言在社交媒体上传播更快更广更深,之后作者探索其原因,发现假新闻的新颖程度更高。然后将新颖程度作为真假新闻的原因之一。
在Supplementary Materials中,对该文章中的一些概念和方法进行的介绍,也是该文章工作过程中的思考过程。其中前20页是纯粹的概念。Supplementary Materials是该文章的补充说明。

Supplementary Materials

首先是对该文章中研究主体True News,False News、Rumor and Rumor Cascade进行描述和定义
在该文章中,研究的news不是单纯的报刊发布的新闻,而是将推特上任何带有断言的故事或声明都看作是news,而不再乎其是否来源于机构。简单的说,就是任何有主观观点,任何有意义的推文都是news。

rumor则定义成新闻故事或者声明在推特网络上传播的一种社会现象。

rumor cascade定义成:谣言的传播过程可以描述为一个或多个级联,,这种模式展示了一个具有共同、单一起源的连续转发链。例如:当以个用户1关于某个断言发布了故事或声明A,这就开始了一个谣言级联,当用户2关于同个断言发布了新的故事或声明B,这就是开始第二个级联。两个级联相互独立,它们展示了同一个谣言的两个级联。总的来说,该文章通过谣言级联这一概念来描述新闻传播的过程。

关于rumor cascade,它有两个属性,number of cascade,即多少个级联(针对同一个主题);size of cascade,即单个级联的原始推文被转发了多少次。


在作者进行收集实验数据时,遇到了一个问题:如何保证自己数据中的真新闻就是真新闻,假新闻就是假新闻呢?

针对这一问题,作者的同事建议通过新闻的可靠来源来判断新闻的真假,(即,假如消息来源是可靠的,比如很大很公正的媒体,那我们就认为他们发布的新闻就如他们所说是真是假。)但这一建议被否决。
否决的原因是:

  • 首先即使消息来源可靠,他们发布的新闻也不一定就是可靠的。众所周知,一些媒体会因为政治目的而故意给新闻打上真实或虚假的标签来误导民众,从而实现自己的政治目的。
  • 其次,对于哪些消息来源是可靠的这并没有结论,每个人群对于各个新闻机构的信任度都不一样,保守派民众认为可信的机构在自由派民众看来并不可信,反之亦然。从下图figure
    1可以看到,基本上所有的新闻媒体都不能称为可信消息来源。
    (figure 1)Supplementary Materials for The spread of true and false news online 解读
  • 最后,许多美国民众认为,发布多少比例的可信新闻的机构与该机构是否可信并没有必然关系,也就是说一个机构之前发布了再多的准确的新闻,也不能保证下一次发布的新闻一定是准确的。(有点像马尔科夫过程)

基于以上原因,于是作者没有采纳同事的建议,而是选择了:采用多个独立事实检测机构:
snopes.com, politifact.com, factcheck.org, truthorfiction.com, hoax-slayer.com, urbanlegends.about.com
Supplementary Materials for The spread of true and false news online 解读
figure 2(snopes.com)
为了排除这些事实检测组织的选择偏颇,选择了一个新的新闻数据集,其真假是由作者聘请的三名独立的事实检测员来人工检测。


接下来便是收集数据。介于之前提到的谣言级联的概念。本文将谣言的传播过程描述成了谣言级联,当用户关于一个主题发布推文的时候(包含文本信息,图片或者链接),谣言级联便开始了,之后其他用户通过转发来转播。

推文的评论中有时会包含着事实检测机构的链接,证实原始推文的信息为真或者为假。除了链接,推文中经常包含一些图片,通过谷歌搜索来寻找图片的链接。

找到这些评论所回复的原始推文,将原始推文以及它的转发推文抓取下来
在抓取谣言推文的回复推文过程中,不考虑评论的评论。
利用推特api来获取2006.9-2016.9的包含链接的推文,一共有500K个推文。


下面进行一些真假判断的处理。

每个检测机构对新闻真假性的分级规则不同,有的是分了五个级别:真实、比较真实、混合,比较假、假,而有的是打分,对此进行统一,把新闻真假类别映射成真新闻,假新闻,混合新闻三类。

对于同一个新闻,可能不同事实检测组织给出的判定结果不同时,多数为准确。

上述组织已经给新闻加上了一个主题,根据这些主题分类,将新闻分成7类,政治、都市传奇、商业、科技、恐怖主义、战争、娱乐和自然灾害。对于没有主题标签的,用人工标记的方式来解决。


数据过滤
通过对比链接文章的标题和原始推文的标题,来删除直接包含事实检测网站的推文(因为该推文已经被证实真或假,本文想要研究未经证实和有争议的信息时如何传递)
经过上述操作,158K个级联幸存。

使用ParagraphVec和Tweet2Vec算法将链接文章标题和原始推文转换成向量来捕获它们的语义内容,使用余弦相似性来测量向量们之间的距离,当相似性低于0.5,则移除,0.5~0.9,则人工审查,高于0.9,则正确。
该阶段移除了10331个级联。

使用了机器人检测算法,将13.2%的被认定为机器人账户移除。

在经过数据处理之后,剩下了126301个谣言级联。
关于2448个谣言,其中1699个是假新闻,490为真,259混合。
126301个谣言级联中,,其中82605是假新闻级联,24409是真新闻级联,19287是混合新闻级联。


构建谣言传播轨迹
由于推特api提供的转发树,所有转发推文都指向了原始推文,这并不是真实的传播轨迹,需要修正。

修正的方式是通过粉丝信息来修正的。

例如:
Supplementary Materials for The spread of true and false news online 解读
a中是推特api提供的转发树,所有的节点都指向了原始的的节点。作者通过b中的粉丝信息,得知C用户关注了B用户却没有关注A用户,从而判断,关于该推文,C用户是从B用户那里转发的,而不是从A用户。如此一来,便得到了c中的传播轨迹。
针对更一般的情况,修正工作的成果如下图所示,更加清晰。
Supplementary Materials for The spread of true and false news online 解读
之后的研究都是建立在修正的结果上的。

其中用到来得粉丝信息是通过推特api返回粉丝信息的逆时序 结合 用户什么时候加入推特 来大致推断得到的。


谣言级联特征·静态特征

  • depth:某一节点到根节点的边的个数,而级联的深度是最大节点深度,如a所示
  • size:级联中的用户数(每个用户转发推文只能转发一次)如b所示
  • structural virality:级联中各个点之间的平均距离,如c所示
  • max-breadth:级联中每个深度都有许多个节点,节点个数最大的即使宽度,如d所示

谣言级联特征·动态特征

  • depth over time:达到不同深度的平均时间

  • unique users over time:达到不同用户时的平均时间

  • breadth vs depth:每个深度的宽度

  • unique users vs depth:不同深度的总用户数量

Supplementary Materials for The spread of true and false news online 解读
Supplementary Materials for The spread of true and false news online 解读

  相关解决方案