Predicting Human Microbe-Drug Associations via Graph Convolutional Network with Conditional Random F_综合

l论文题目：Predicting Human Microbe-Drug Associations via Graph Convolutional Network with Conditional Random Field（基于条件随机场的图卷积网络预测人体微生物-药物关联）

文章目录

摘要
一、引言
二、相关工作
- 2.1 Graph convolutional networks
- 2.2 Conditional random field
三、材料与方法
- 3.1 Heterogeneous network for microbes and drugs
- 3.2药物和微生物的特征处理
- 3.3 Graph convolutional network for node embeddings
- 3.4 CRF layer for embedding update
- 3.5 Decoder for microbe-drug association reconstruction
- 3.6 Overall loss and optimization
四、结果
- 4.1 Experimental setup
- 4.2 Comparison with state-of-the-art methods
- 4.3 Model Ablation Study
- 4.4 Parameter sensitivity analysis
- 4.5 Case study
五、讨论与总结
个人总结

摘要

Motivation：人类微生物在药物开发和精密医学中起着至关重要的作用。如今，如何系统地理解人类微生物与药物之间复杂的相互作用机制仍然是一个挑战。识别微生物与药物之间的联系不仅可以为了解机制提供重要见解，而且可以促进药物发现和用途的发展。考虑到生物实验的高成本和高风险，计算方法是另一种选择。但是，目前，很少有计算方法可以解决此任务。
Results：在这项工作中，我们利用丰富的生物信息构建了一个药物和微生物的异构网络，包括微生物相似网络、药物相似网络和微生物-药物相互作用网络。然后，我们提出了一个新的基于图形卷积网络(GCN)的框架来预测人类微生物-药物关联，命名为GCNMDA。在GCN的隐藏层中，我们进一步开发了条件随机场(CRF)，它可以确保相似的节点(即微生物或药物)具有相似的表示。为了更精确地聚集邻域的表示，在通用报告格式层设计了一个注意机制。此外，我们在药物和微生物相似性网络上执行了一个基于重启随机游走的方案，以分别学习药物和微生物的有价值的特征。在三个不同数据集上的实验结果表明，我们的GCNMDA模型始终比七种最先进的方法获得更好的性能。对三种微生物(包括SARS-CoV-2和两种抗菌药物(即环丙沙星和莫西沙星))的案例研究进一步证实了GCNMDA在识别潜在微生物-药物关联方面的有效性。

源码：https://github.com/longyahui/GCNMDA

一、引言

细菌或微生物是一类微生物体，可以是单细胞或多细胞的。越来越多的证据表明，微生物群落主要由细菌、古虫、病毒、原生动物和真菌等组成，与人类宿主关系密切(Huttenhower et al.， 2012;Sommer and Backhed, 2013)。微生物由于具有保护人体免受病原体侵袭、提高代谢能力、增强免疫系统等功能，通常被认为是人类“被遗忘的”器官(V enturaet al.，2009)。例如，微生物可以保护机体免受条件致病菌的侵袭(Sommer and Backhed, 2013)，促进难消化多糖的代谢，并通过合成必需的维生素促进t细胞反应(Kau et al.， 2011)。此外，它们也是人类肠道上皮细胞和免疫系统发育分化的重要组成部分(Sommer and Backhed, 2013)。

另一方面，微生物群落的失衡或生态失调可引起广泛的人类感染疾病(Huttenhower et al.， 2012;比如肥胖(Zhang et al.， 2009)、糖尿病(Wen et al.， 2008)、类风湿关节炎(Lynch and Pedersen, 2016)，甚至癌症(Schwabe and Jobin, 2013)。因此，这些微生物可以被视为个体化药物的靶标(Kashyap等，2017)。事实上，许多微生物与药物的相互作用已经在文献中报道过。例如，肠道微生物的葡萄糖醛酸苷酶通过活化排泄的非活性代谢物来辅助伊立替康治疗结直肠癌(Guthrie et al.， 2017)，并被发现是降低CPT-11诱导毒性的有效抑制剂(Wallaceet al.， 2010)。因此，检测微生物与药物的相互作用将对微生物治疗和药物发现非常有用。然而，用于揭示微生物-药物关联的常规湿实验室实验(例如，基于培养的方法)耗时、费力且昂贵。因此，有效和准确预测微生物-药物关联的计算方法是对有限实验方法的有益补充

最近，一些经实验验证的微生物-药物关联的数据库公开可用，如(孙等人，2018)、aBiofilm (Rajput等人，2018)和DrugVirus (Andersen等人，2020)，这些数据库使机器学习技术能够预测新的微生物-药物关联。特别地，图卷积网络(GCN)是一种有前途的机器学习方法，因为其对图数据建模的优越能力，其已被成功地用于预测MiRNA-耐药性关联(黄等人，2019)、疾病-基因关联(Hanet等人，2019)和lnc rNA-疾病关联(宣等人，2019)。因此，我们被激励为新的微生物-药物关联预测定制GCN。

然而，现有的基于GCN的方法有两个主要限制。首先，它们中的大多数是在二分网络或同构网络上实现的，以处理相关的任务。与这些网络相比，异构网络可以包括不同类型的节点和连接，因此它能够利用多样和丰富的语义信息，使GCN能够更好地保留节点的内在特征。其次，图形数据具有不同节点之间的相似性信息。然而，现有的基于GCN的方法平等地考虑所有邻居，因此在学习节点嵌入/表示时不能保留这种相似性信息。

为了解决上述问题，我们开发了一个基于GCN的框架，称为GCNMDA，用于异构网络中的微生物-药物关联预测。首先，GCNMDA利用药物化学信息、微生物基因信息和高斯相互作用轮廓特征分别量化药物和微生物的相似性。考虑到相似性中的噪声，在药物相似性网络和微生物相似性网络上设计了一种基于重启随机游走的预处理方案，分别有效地捕捉药物和微生物的有价值特征。其次，我们在GCN嵌入了一个条件随机场(CRF)层，以加强对药物和微生物的节点表示学习，使得相似的节点具有相似的表示。我们进一步在CRF层设计了一种注意力机制，用于更精确地聚集邻域的表示。实验结果表明，我们提出的模型优于现有的最先进的方法。对三种微生物(即SARS-CoV-2、铜绿假单胞菌和大肠杆菌)和两种常用抗生素(即环丙沙星和莫西沙星)的案例研究进一步验证了所提出模型的有效性。
总体而言，我们的主要贡献总结如下。
（1）我们构建了一个异构网络来有效地集成丰富的生物信息，包括微生物基因信息、药物化学信息和微生物-药物相互作用。
（2）我们提出了一个新的基于GCN的框架来预测异构网络中的微博客关联。据我们所知，这是第一个将GCN用于预测微生物-药物关联的工作。
（3）GCN中设计了一个CRF层，它可以强化相似的节点(即药物和微生物)具有相似的表示。我们进一步设计了一个关注机制，赋予更多拓扑相似的邻域更大的权值，以保持节点间相似的信息。
（4）我们的综合实验结果和案例研究表明，该方法在三个不同的数据集上优于七种最先进的方法。

二、相关工作

在这一节中，我们首先介绍图卷积网络(GCN)及其在生物信息学中的应用。然后我们引入条件随机场来模拟图中相邻节点之间的依赖关系。据我们所知，到目前为止，很少开发出预测微生物-药物关联的方法。

2.1 Graph convolutional networks

GCN的基本思想是通过基于邻域节点的性质对图进行卷积运算来学习节点嵌入/表示。近年来，在节点分类(Kipf和Welling，2016)、推荐系统(Ying等人，2018)和关系抽取(Zhang等人，2018)等方面取得了很大的成功。

最近，研究人员开发了许多基于GCN的方法来处理各种生物信息学任务。例如，Zitnik等人(2018年)使用图形卷积网络来预测基于多模态数据的多相副作用。黄等(2019)提出了一种基于图卷积网络的端到端GCMDR学习框架，以解决基于二分网络的MiRNA-耐药性关联预测问题。韩等人(2019)通过将图卷积网络与矩阵分解相结合，开发了一个名为-MF的新框架，用于疾病-基因关联的识别。为了推断候选疾病相关的lncRNA，宣等人(2019)首先结合多种生物医学信息来源构建了一个异构网络。他们进一步提出了一个结合框架GCNLDA通过聚集图卷积网络与卷积神经网络。虽然上述方法取得了良好的预测性能，但在表征学习过程中没有考虑隐藏层中的节点相似性。

2.2 Conditional random field

Lafferty等人(2001)提出的条件随机场(CRF)是一种概率图形模型。一般来说，CRF用于预测序列数据的标签。它的优点是对给定节点和其邻域之间的成对关系建模，以改进最终预测。

近年来，CRF与不同深度学习方法的结合在各个研究领域取得了成功的应用。例如，刘等人(2015)提出了一种将卷积神经网络(CNN)与CRF相结合的图像分割新方法。此外，郑等人(2015)开发了一种称为CRFRNN(循环神经网络)的网络，并将其与CNN结合用于语义图像分割。此外，程等(2017)还将CRFRNN应用于语义映射。此外，高等。（2019）将图卷积神经网络与CRF耦合，用于各种同构网络中的节点分类任务。

三、材料与方法

在这项工作中，我们提出了一个新的图形卷积网络(GCN)为基础的框架称为GCNMDA，以预测微生物-药物协会。如图1所示，GCNMDA由三个主要步骤组成。首先，我们利用丰富的生物数据构建了一个异构网络，包括药物相似性、微生物相似性和微图二分图。其次，我们学习基于GCN的微生物和药物的表示，其中插入了一个通用报告格式层，以加强邻域的表示聚合。第三，我们基于学习的表示重构微生物-药物二分网络。接下来，我们详细介绍以上三个步骤。
在这里插入图片描述

3.1 Heterogeneous network for microbes and drugs

对于已知的微生物-药物关联，我们使用了三个不同的数据集，即(孙等人，2018年)、aBiofilm(拉杰普特等人，2018年)和药物病毒(安德森等人，2020年)。MDAD数据集 chengroup.cumt.edu.cn/MDAD/) 包含5505种临床或实验验证的微生物-药物关联，1388种药物和174种微生物。aBiofilm数据集(http://bioinfo.imtech.res.in/manojk/ aBiofilm/)记录了1720种独特的抗生物膜剂/药物，针对140多种生物/微生物，包括细菌和真菌。在过滤掉重复的数据后，我们最终下载了2884个微生物-药物关联，涉及1720种药物和140种微生物。DrugVirus数据集(https://drugvirus.info/tech_doc/)总结了共针对83种人类病毒的118种化合物/药物的活性和发展状况，包括最近出现的新型冠状病毒SARS-CoV -2。此外，我们从药物数据库和相关出版物中手动策划了76种药物和12种病毒之间的57种临床或实验证实的药物-病毒关联。结果，收集了933种药物-病毒相互作用，包括175种药物和95种病毒。总体而言，上述三个微生物-药物关联数据集的统计数据如表1所示。我们定义了相邻矩阵I ∈ Rnd×nm来表示微生物-药物的关联，其中nd和nm分别表示药物和微生物的数量。如果观察到药物diand和微生物mjis之间的关联，ijis等于1；否则为0。
在这里插入图片描述
我们进一步构建了微生物功能相似矩阵FM和药物结构相似矩阵DS。特别地，FM是通过Kamneva (2017)提出的方法计算的。DS是使用SIMCOMP2方法测量服部哲等人，2010年)。更多关于FM和DS的计算细节可以在补充材料中找到。

很明显，FM和DS都是稀疏的，即由于缺乏微生物功能信息和药物结构信息，很多微生物或药物分别在FM和DS中没有相似性得分。为了发现更有价值的相似性信息，我们利用高斯相互作用剖面核函数计算微生物和药物的高斯核相似性。关键思想是相似的微生物(药物)与相似的药物(微生物)相互作用，导致相似的相互作用概况。更具体地说，在微生物-药物关联矩阵I中，我们将第I行(di)和第j列(mj)分别定义为药物和微生物mj的相互作用谱。然后，药物和微生物的高斯相互作用分布核相似矩阵GD和GM计算如下:
在这里插入图片描述
其中ηd和ηm代表归一化的内核带宽，它们在等式3和4中定义

其中ηd和ηm代表原始带宽，两者均设为1。
为了补充生物信息，提高药物相似性，综合药物结构相似性和高斯核药物相似性，构建最终的药物相似性。具体来说，对于药物diand dj，如果两者之间存在药物结构相似性，则综合药物相似性定义为GD和DS的平均值；GD不然。综合药物相似性Sdis定义如下:
在这里插入图片描述
我们最终构建了一个药物和微生物的异构网络，它由三个网络组成:1)微生物-药物相互作用网络，2)药物相似性网络，3)微生物相似性网络。特别是让G = (V，E)表示异构网络，V = (νm，νd)表示一组nm微生物节点和nd药物节点。它的邻接矩阵A ∈ R(nd+nm)×(nd+nm)定义在方程7中。
在这里插入图片描述

3.2药物和微生物的特征处理

如上所述，Sdale和Smare矩阵分别表示药物相似性和微生物相似性。在Sd(或Sm)中，每一行或每一列表示一种药物(或微生物)的相似性概况，它可以被认为是该药物(或微生物)的特征向量。然而，直接将相似性作为微生物和药物的输入特征是不够的，因为由于误报和计算方法的限制，计算的相似性可能包含一些噪声。因此，在本文中，我们进一步实现了一种基于随机游走重启的方法来从相似性中提取特征。RWR是一种基于网络的方法，可以有效地捕捉网络的局部和全局拓扑内在特征。注意的是随机游走已被广泛应用于图像处理中的降噪(Jain等人，2018)和特征学习中的保持邻居信息(Grover和Leskovec，2016)，因此我们将其用于我们的问题。形式上，RWR(克勒等人，2008年)的定义如下:
在这里插入图片描述
另外，ei∈Rn×1是第I个节点的初始概率向量，j = i时eij = 1；否则为0。pt I∈Rn×1显示从第i个节点在时间t到达其他节点的概率，我们将pti作为平稳概率作为第i个节点的特征向量。在对药物相似性网络和微生物相似性网络进行RWR后，我们获得了每个微生物或药物的概率分布向量。因此，这些概率分布向量可以形成新的药物特征矩阵Fd∈ Rnd×nd和新的微生物特征矩阵Fm∈ Rnm×nm。为了使不同节点之间的特征具有可比性，我们进一步对Fd和Fm中的概率分布向量进行归一化，即将每个向量中的概率之和归一化为1。最终，在我们的模型中，Fda和Fm中的归一化概率分布向量被视为微生物和药物的输入特征。与异构网络一致，新的特征矩阵X ∈ R(nd+nm)×(nd+nm)描述如下:
在这里插入图片描述

3.3 Graph convolutional network for node embeddings

然后，我们可以使用图形卷积网络使用它们来学习药物和微生物的初步嵌入。GCN的基本思想是通过基于邻域节点的性质对图进行卷积运算来学习节点嵌入。在形式上，我们假设异构网络中的每个节点都与其自身相连(即自环)，A的归一化邻接矩阵A定义为A SEa = D 12AD 12其中D是对角矩阵，对角元素为Dii= Pnd+nm j=1 Aij。（就是图卷积公式，自己对字母）基于这些术语，初步嵌入Q ∈ R(nd+nm)×n被表述如下:
在这里插入图片描述
其中文∈ R(nd+nm)×nis为参数矩阵，本∈ R(nd+nm)×nis为偏差矩阵，ReLU(整流线性单位)为激活函数，n为药物和微生物的嵌入维数。

3.4 CRF layer for embedding update

在得到初步嵌入之后，我们进一步引入一个CRF层，以确保相似的药物(或微生物)在特征空间中也是相似的，即具有相似的嵌入。同时，我们还需要对嵌入进行平滑更新。因此，在高等人(2019)的激发下，我们在方程12中定义了该层的损失函数。
在这里插入图片描述
在等式11中，Qi表示从GCN卷积层获得的节点I的初步嵌入，Hi表示节点i在CRF层中更新的嵌入。此外，λ表示节点之间的注意得分，λij衡量相邻节点j对节点i的重要性。Ni是节点i的邻域，而α和β是权重因子，用于平衡第一项和第二项对预测性能的影响。等式(11)中的第一项旨在鼓励节点i的表示的平滑更新，而等式(11)中的第二项强制Hi节点I应该靠近Hj邻居节点j。同时，我们根据以下规则更新在CRF层中嵌入Hi的节点。
在这里插入图片描述
其中初始嵌入H(1) i被设置为Qi，并且H(k) i是在第k次迭代中更新的嵌入。我们将Hi = H（K）i设置为节点i的最终表示，并且在我们的实验中将K设置为2。请注意，第一层平等地考虑所有邻居，而我们提出的CRF层侧重于相似/重要的邻居。此外，随着CRF层迭代次数的增加，节点将从其高阶邻居那里获得越来越多的信息。

此外，与Gaoet等人(2019)不同，我们采用自注意力(V aswani等人，2017)来区分相邻节点对给定节点的贡献。形式上，等式11中节点i和节点j之间的注意效率λij定义如下。
在这里插入图片描述
其中att表示执行注意的单层前馈网络，Wt表示潜在的可训练矩阵。

3.5 Decoder for microbe-drug association reconstruction

H是在CRF层中学习的特征/嵌入矩阵，让我们将药物和微生物的学习特征矩阵分别表示为Hd∈Rnd×n和Hm∈Rnm×n。因此，我们在等式16中重构了微生物-药物关联的邻接矩阵Znd×nm，并在等式17中导出重构损失。
在这里插入图片描述
其中Wde d∈Rn×r和 Wde m∈Rn×r潜在因子，分别将表示投影回药物和微生物的原始特征空间。此外，φ是均方误差损失(即均方误差)，A+和A-分别表示正样本集和负样本集。

3.6 Overall loss and optimization

在编码器和解码器中，我们有可训练的参数，包括Wen、Ben、Wde d和Wde m。除了损耗LCRF和LREC之外，我们还包括一个正则项，用于在等式18中表示为Lθ的模型参数。因此，总损失LTotal在等式19中定义。
在这里插入图片描述
其中γ是权重因子。
然后通过优化上述总损失来训练GCNMDA模型。我们采用Adam优化器(Kingma和Ba，2015)进行优化。最后，我们利用重构矩阵Z中的分数对未知对进行排序，用于新的微生物-药物关联预测。

四、结果

在这一节中，我们首先简要介绍了我们的实验设置，然后通过与七种现有方法的比较和消融研究来展示我们的GCNMDA模型的性能。最后，我们展示了通过我们的方法对三种选定的微生物和两种选定的药物预测的排名靠前药物和微生物的案例研究。

4.1 Experimental setup

在三个数据集上使用了2倍、5倍、10倍交叉验证。并使用了ROC曲线和PR曲线来作为评估指标。训练了200个epoch，学习率设置为0.001。

4.2 Comparison with state-of-the-art methods

如前所述，很少有现有的方法被开发出来专门解决微生物-药物关联预测问题。因此，我们将我们的方法与七种最先进的方法进行了比较，这些方法是为了解决计算生物学领域中的其他链接/关联预测任务而提出的。
（因为之前没有做微生物-药物关联预测的）这里比较了一些做miRNA-disease关联预测和miRNA-drug以及drug-target预测的模型。

5倍交叉验证实验结果
在这里插入图片描述

4.3 Model Ablation Study

GCNMDA由四个组件组成，包括1)基于角色的特征处理，2) CRF层，3)CRF层中的注意机制，4)用于重建的解码器层。分别对每个部分进行了消融实验研究。
在这里插入图片描述

4.4 Parameter sensitivity analysis

在我们的模型中，有几个重要的参数，如隐层中的神经元数目、负采样率、CRF层的迭代时间和权重因子α、β和γ。在这一部分中，所有实验都是基于MDAD数据集进行的，并在5倍交叉验证下进行评估。神经元数目可能影响我们模型的预测性能。因此，我们用不同数量的神经元来测量我们的模型性能，从5到95，步长值为5。从图3 (a)和(f)中，我们观察到我们的模型相当稳健，因为AUC和AUPR值都略有变化，即1-2%，并且它们在25个神经元的情况下达到最佳性能。
在这里插入图片描述

4.5 Case study

五、讨论与总结

最近的研究清楚地表明，人体内和人体上的人类微生物对人类健康起着至关重要的作用。预测微生物与药物的关联可以促进药物和个性化医学的有效发展，从而造福人类。与传统的基于培养的方法相比，计算方法能够在全局范围内更有效地识别现有药物的目标微生物或已知微生物的新药。然而，到目前为止，我们发现很少有计算方法来解决这个重要的问题，这可能是因为直到最近，一些经过实验验证的微生物-药物关联才可用于设计计算方法。
在这篇文章中，我们提出了一个新的图形卷积神经网络框架，命名为GCNMDA，用于预测新的微博客关联。特别是，我们首先构建了一个异构网络来有效地集成丰富的生物信息，包括微生物基因信息、药物化学信息和微生物相互作用。然后，我们实现了一个基于RWR的预处理机制，用于有效的特征提取。最后，我们在GCN引入了一个额外的CRF层，它可以强制相似的节点(即药物和微生物)具有相似的表示。我们进一步在CRF层设计了一种关注机制，为更多相似的邻域分配更大的权重值，以保留节点之间的拓扑相似信息，从而得到更准确的节点表示。大量的实验结果和案例研究表明，在基准MDAD数据集上预测微生物与药物的关联方面，建议的GCNMDA方法明显优于7种最新方法，并且其巨大的发现潜力。

尽管我们利用多种类型的先验生物信息来构建微生物和药物的相似性，但通过进一步的数据集成，我们的预测模型仍有改进的空间。未来可以整合更多的生物学信息，如微孢子虫病关联(陈等，2016)，microRNA-病关联(肖等，2018；Chenet等人，2019年)、LNCRNA-疾病关联(陈等人，2017年)和药物靶标关联(刘等人，2016年；Ezzat等人，2019年)，用于微生物-药物关联预测。更具体地说，我们可以利用这些信息来丰富微生物和药物的输入特征，或者构建多重和异构的生物网络(V aldeolivas等人，2019年)，以提高我们模型的预测性能。

个人总结

这篇论文和我之前写的Predicting human microbe–disease associations via graph attention networks with inductive matrix同是出自骆老师的组，可以发现两篇论文在计算谱核相似性以及整合相似性时都比较相似。这篇论文的思想和那篇的思想都在使用图神经网络，聚合邻居节点信息时，考虑到了不同邻居的重要性，一个使用了图注意力，一个使用基于注意力的CRF，主要思想有些异曲同工之处。但这篇论文有些优点可以借鉴的，首先，该方向就是一个比较新的点，而且将条件随机场和图卷积相结合在生物网络中算是第一次，可能在图网络嵌入中不是首次，但一些生物网络模型的构建的方法的灵感来源于一些图嵌入，图表示学习的方法。