目录
0 摘要
1 小白基础知识补充:
2 Introduction
3 Deep learning model(InfGCN)
3.1 构造邻居网络
3.2 基于图卷积神经网络的模型
3.2.1 输入层
3.2.2 FC层
3.2.3 输出层和损失函数。
3.3 模型预训练
4 构造数据集的方法
0 摘要
复杂网络是普遍存在的,识别复杂网络中有影响的节点是非常关键的。传统的方法有基于中心性的方法和基于机器学习的方法,这些方法只考虑网络结构或节点特征来评价节点的重要性。但是,节点的影响重要性应该是由网络结构和节点特征共同决定的。为了解决这个问题,文章提出了一种基于图卷积网络(GCN)的深度学习模型InfGCN,用于识别复杂网络中最具影响力的节点。InfGCN以相邻图和4个经典结构特征作为图卷积网络的输入,用于学习节点的表示,然后将表示输入任务学习层,将SIR模拟实验得出的ground truth与定量感染率进行比较。
关键词:识别有影响力的节点、深度学习、图卷积网络、复杂网络
1 小白基础知识补充:
复杂网络(Complex Network)是指具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络。
病毒传播和信息传播是复杂网络中十分重要的研究课题。目前,很多工作解释了信息传播迅速的原因以及如何加速传播。在实际的网络中,有一类节点对于传播的过程有着十分重要的作用,这类节点被定义为影响力节点。影响力节点比其他节点能够使得病毒传播和信息传播更快更广。
SIR(Susceptible Infected Recovered)模型是一种传播模型,是信息传播过程的抽象描述。是传染病模型中最经典的模型,其中S表示易感染者,I表示感染者,R表示移出者。
应用于信息传播的研究时,SIR模型可以描述如下:最初,所有的节点都处于易感染状态,对应个体不知道信息的情况。然后部分节点接触到此信息,变成感染状态。这些节点试着感染处于易感染态的节点,或者进入恢复状态。感染一个节点,即传递信息或者影响节点对某事的态度。恢复状态,即免疫,处于恢复状态的节点不再参与信息的传播。
mini-batch(小批量)为一次权重参数更新所用的数据条数。迭代次数=数据总数/小批量,对于model而言,mini-batch的值必须是事先设计好的,而且其值要能被数据总数整除(初步接触batch的概念,理解有误请指出)。
对称归一化拉普拉斯算子
Skip connection通常用于残差网络中,主要是在深度网络中解决在训练过程中梯度爆炸和梯度消失的问题。简而言之就是在深度网络的中间层额外加入浅层的input,使得gradient的“路径”不再那么长。类似提供一个复合路径,在原来的“长路径”的基础上,现在额外添加一个“捷径”。
2 Introduction
网络影响节点识别是网络科学中具有重要意义的一门学科,其应用广泛,包括在社交网络中寻找有影响力的传播者、预测essential proteins、量化科学影响、检测金融风险、预测职业发展等。以往的研究揭示了复杂网络的各种性质,表明了在复杂网络中只有少数节点起着重要作用。因此,必须确定最具有影响力的节点。对于节点的重要性,前人已经做了很多的工作,如:
- 基于物理结构重要性的中心性方法:结构的重要性和功能的重要性之间存在不匹配,单一结构信息的节点重要性不能充分反映影响场景下的功能重要性。
- 基于节点特征的机器学习方法:依赖特征工程,特征选择可以显著影响基于机器学习方法的性能。
但,节点的影响重要性不仅取决于它们的特征,还取决于它们的邻居之间的联系。
图卷积神经网络(Graph Convolutional Networks,GCN)是目前流行的深度学习模型,既能处理节点特征,又能处理节点之间的链接,在多个研究领域取得了巨大成功。GCN模型的一个重要优点是能够处理图形结构数据,这些数据可以用作跨不同领域的大量系统的表示,使得GCN可以用于处理复杂网络中的一些任务。
文章将影响力前5%的节点作为最具有影响力的节点,将其他节点作为影响力较小的节点。在此基础上,将节点重要性评估转化为分类任务,提出一种既能处理节点特征又能处理节点间链接的深度学习框架InfGCN。在框架上,首先选取4个经典的结构特征,通过广度优先搜索得到节点的固定大小的近邻网络,然后利用图卷积技术学习潜在预测信号。最后,将预测信号送入任务学习层,将SIR模拟实验得到的ground truth与定量感染率进行比较。
3 Deep learning model(InfGCN)
3.1 构造邻居网络
一个节点的影响力往往由它的邻居节点决定。先前的工作表明,在GCN模型中,节点的k+1层表示与邻居的第k层表示有关,这种局部性质导致节点的第k层表示只与其k步网络(即邻居网络)有关。构造节点邻居网络的一种有效方法是先从节点开始进行广度优先搜索(BFS),得到节点的邻居,然后由这些邻居诱导出节点的邻居网络。但是,不同节点的邻居网络大小可能不同,这并不适合于最深度学习模型的小批量(mini-batch)学习。
因此,文章指定一个固定数目F作为网络中每个节点的邻居网络的大小,对于BFS的每一步i,我们得到目标节点的第i步邻居,然后计算出距离目标节点不大于第i步的邻居总数(称为ti)。如果ti小于固定值F,则继续下一步;如果ti大于F,则根据第i步邻居的中间度对其进行过滤,去掉中间度较小的邻居,保留中间度较大的邻居。
3.2 基于图卷积神经网络的模型
model由一个输入层、一个GCN层、三个全连接层和一个输出层组成。
3.2.1 输入层
输入层构建邻居网络的对称归一化拉普拉斯和节点的特征向量。为了不过多依赖特征工程,文章选取以下四个特征:(1)degree; (2)closeness centrality; (3) betweenness centrality; (4) clustering coefficient。
Fearures | description |
Degree |
度量一个节点的邻居数目 |
closeness | 度量一个节点与其他节点之间最短路径的总长度,描述一个节点在网络中的传播角色。 |
betweenness | 度量通过节点的最短路径数,描述节点在网络中的桥接作用。 |
clustering coefficient | 度量节点的邻居之间的聚类程度 |
为了避免过拟合,对每个特征进行归一化:
fk表示根据中心性特征k的值表示网络中的排名位置, S表示网络中的节点数。通过归一化,将每个特征值在-0.5到0.5之间进行转化。GCN层是利用图结构和特征向量学习节点表示向量的半监督算法。GCN层定义如下:
其中A是邻居网络的对称归一化拉普拉斯算子,Hi是第i层GCN层的节点表示,wi和bi分别是weights和bias, σ是非线性激活函数。为了更好的利用节点特性,我们在GCN层增加了Skip connection;同时,为了避免过拟合,在这一层使用了Dropout技术。
3.2.2 FC层
用于任务学习的三个全连接层(full-connected,FC)。每个FC层后面都有Elu非线性函数。前两个FC使用dropout技术来避免过拟合。
3.2.3 输出层和损失函数。
将FC的输出作为LogSoftMax分类器的输入,并将分类结果与SIR模拟实验得到的ground truth进行比较,并优化负对数似然损失。
3.3 模型预训练
深度学习需要大量的数据,对于小型网络,节点数量少,这意味着深度学习模型没有足够的数据对节点进行分类。为了克服这一问题,并使我们的模型适用于小型网络,我们借鉴了转移学习技术的思想,并对我们的模型进行了预训练。
4 构造数据集的方法
在实际工作中,大多数复杂网络缺乏节点的有影响力能力标签。因此,一些研究者使用SIR模型来模拟节点的影响力,这也是文章采取的方法。文章引入了判别的概念和选择最适合的传染率度量。
定义1 影响能力 我们使用SIR模型来模拟网络中节点的影响能力。模拟实验是将一个节点作为初始感染节点,将其他节点作为易感节点,然后以最终爆发规模作为节点的影响能力。爆发的最终规模表示最终感染和恢复的节点数,表示SIR模拟实验中受影响的节点数,反映了初始受感染节点的影响能力。我们对每个节点进行SIR实验,以获得它们的影响能力,在我们的实验中,我们设置恢复率K为1,影响力前5%的节点被认为是网络中最具影响力的节点。
问题1.判别。 在SIR仿真实验中,不同的感染力b值对测量节点的影响能力有很重要的影响。引入判别的概念来得到最合适的感染率b,判别往往是用来衡量判别能力的心理评估,其值越大,判别能力越好,常见的判别指标为D,表达式如下:
式中,XH、XL分别表示高影响力组和低影响力组的总影响力,H、L分别表示高影响力组和低影响力组的影响力,N表示高影响力组的比例,始终设置为27%。给定感染率b,通过模拟实验,我们可以得到中性影响力以及网络中所有节点和计算的值d值,当该值最大时,感染率b是最适合区分网络中节点的影响能力的。