当前位置: 代码迷 >> 综合 >> AEMDA: Inferring miRNA-disease associations based on deep autoencoder
  详细解决方案

AEMDA: Inferring miRNA-disease associations based on deep autoencoder

热度:82   发布时间:2024-02-21 22:04:16.0

AEMDA: Inferring miRNA-disease associations based on deep autoencoder

文章目录

  • 摘要
  • 一、引言
  • 二、材料与方法
    • 2.1.Human miRNA-disease associations
    • 2.2 Disease semantic similarity
    • 2.3 miRNA functional similarity
    • 2.4 Gaussian interaction profile kernel similarity for miRNA and disease
  • 三、方法
    • 3.1 Overview
    • 3.2 Feature representation
      • 3.2.1 Disease representation
      • 3.2.2 miRNA representation
    • 3.3 Autoencoder-based association predictor
    • 3.4 Results
      • 3.4.1 Implementation details
  • 四、总结
  • 五、个人总结


摘要

动机:MicroRNAs(miRNAs)是一类非编码RNA,在各种生物过程中起着关键作用。许多研究表明,mirna与人类疾病的发生、发展和诊断密切相关。传统的生物学实验既费钱又费时。因此,有效的计算模型在预测miRNAs与疾病之间的关联方面变得越来越流行,它可以有效地促进人类疾病的诊断和预防。

我们提出了一个新的计算框架,称为AEMDA,以确定miRNAs和疾病之间的联系。AEMDA采用一种基于学习的方法,从疾病语义相似性、miRNA功能相似性和异构相关交互数据中提取疾病和miRNA的高维密集表示。此外,AEMDA采用深度自动编码器,不需要负样本来检索miRNAs与疾病之间的潜在联系。此外,重建误差被用作预测疾病相关miRNAs的测量。我们的实验结果表明,AEMDA可以有效地预测疾病相关的miRNAs,并优于现有的方法。
代码:https://github.com/CunmeiJi/AEMDA

一、引言

人类细胞含有大量microRNAs(miRNAs),这是一种非编码RNA,长度约为22 nt,可在转录后水平调节蛋白质合成,并参与调节各种生物过程,如细胞增殖、细胞分裂和细胞死亡[Ambros,2004;Bartel,2004;Ambros,2001]。研究表明,miRNAs与人类疾病的发生和发展密切相关,包括乳腺肿瘤、肝脏肿瘤和肺肿瘤[Ambros,2001;Chen等,2019;Chou等,2016;Huang等,2019b;V olinia等,2012]。许多研究者通过生物学实验来鉴定与疾病相关的miRNA,这些实验成本高、费力且容易失败。因此,为人类疾病的诊断和治疗开发了越来越多的计算模型。

通过构建复杂的网络、整合多种生物数据、机器学习或结合上述算法,已经开发了许多模型来预测miRNA疾病的关联。姜等。[Jiang et al.,2010]提出功能相似的miRNAs可能与相似的疾病相关,反之亦然。首先,他们通过靶基因计算miRNA功能相似性,确定疾病表型相似性,并手动验证miRNA与疾病的关联性。然后,基于累积超几何分布预测潜在的疾病相关miRNAs。基于多种生物信息的预测模型有很多种。Shi等人。[Shi等人,2013]考虑了蛋白质-蛋白质相互作用(PPI)网络中miRNA靶基因和疾病基因之间的功能联系。他们构建了一个miRNA疾病网络,然后根据随机游走预测了miRNA疾病关联。莫克等人。[M?rk等人,2014]构建了一个以蛋白质为中介的miRNA蛋白疾病网络,并发现了与疾病相关的miRNAs。曾等。[Zeng and Liu,2018]整合人工验证的miRNA靶基因关联、miRNA家族信息、miRNA聚类信息和手动验证的miRNA疾病基因关联,然后通过结构扰动识别疾病相关的miRNAs。还提出了基于复杂网络的模型。Chen等人。[Chen et al.,2012]首先建立了miRNA疾病关联网络和miRNA功能相似性网络,然后实现了一种随机游走算法,其转移矩阵被设置为一个归一化的miRNA相似矩阵。Chen等人。[Chen等人,2018a]建立了包含miRNA疾病关联网络、整合miRNA相似网络和整合疾病相似网络的二部网络。他们通过聚集的层次聚类获得了偏见评级。然后,通过基于偏差的二分网络投影推荐得到候选miRNA。矩阵因子分解在miRNA疾病关联预测中取得了显著的效果。Zhong等人。[Zhong et al.,2017]构建了包含miRNA功能相似性、疾病语义相似性、疾病表型相似性和miRNA疾病关联性的双层网络。他们利用了来自三个子网络的复杂关联。然后,将三个模型整合成一个组合模型,用于发现疾病相关的miRNA。肖等。[Xiao et al.,2017]通过靶基因和疾病语义相似度测量miRNA的相似性,然后将Tikhonov正则化和graph-Laplacian正则化引入非负矩阵因子分解,得到预测得分。

机器学习和深度学习在生物信息学中也得到了广泛的应用。徐等。[Xu et al.,2011]基于miRNA目标网络提取特征,并通过支持向量机(SVM)分类器区分正样本和负样本。Chen和Yan【Chen和Yan,2014年】为发现疾病相关的miRNAs,对miRNA疾病协会(RLSMDA)实施了正则化最小二乘法。RLSMDA是一种可以同时预测整个疾病miRNAs的全局方法。这种方法不需要阴性样品。Chen等人。[Chen et al.,2015]开发了一种称为限制性Boltzmann机器的多类型miRNAdisease关联预测(RBMMMDA)的模型,该模型可以识别miRNA-disease关联。通过卷积神经网络(MDA-CNN)模型的miRNA疾病关联预测[Peng等人,2019]使用基于三个网络的自动编码器提取特征,并将特征输入CNN并识别与疾病相关的miRNAs。CNNMDA[Xuan et al.,2019]采用非负矩阵分解和双-CNN预测相关miRNAs。

大多数深度学习方法将此任务视为一个有监督的学习问题。然而,很少有已知的miRNA-疾病关联,称为阳性样本。此外,由于缺乏负样本,这些方法的负样本获取方法,无论是使用未知关联还是随机构造,都很难训练出一个能够获得良好性能的模型。因此,我们使用深度自动编码器来学习潜在疾病相关的miRNAs而不需要阴性样本。另外,在没有额外信息的情况下,我们训练了两个回归模型,从疾病语义相似性、miRNA功能相似性和相关的高斯相互作用轮廓核相似性来学习疾病和miRNAs的高维表示。根据超参数对集成性能进行了进一步的微调。

在这篇论文中,我们提出了一种新的预测疾病相关miRNAs的方法,称为AEMDA,它试图将表征学习和关联预测结合起来。我们的方法包括三个部分:疾病模型、miRNA模型和深度自动编码模型。这三个模型都是通过深度学习算法建立的。我们首先训练一个疾病模型和miRNA模型来学习各自的高维表示,然后通过一个深度自动编码模型将这些表示应用于从已知的miRNA疾病关联中学习潜在的关联。所有模型均以端到端的方式进行训练和预测。本文的主要贡献如下:
(1)我们介绍了一个基于深度自动编码器的端到端预测潜在疾病相关miRNAs的框架,该框架有效且健壮。
(2)我们设计了一种基于学习的方法来提取疾病和mirna的表征。通过综合疾病相似性、miRNA相似性和高斯相互作用轮廓核相似性,自动学习高维、高密度向量来表示疾病和miRNA。
(3)我们使用一个深度自动编码模型来从已知的人类miRNA疾病对中学习潜在的关联,这些联系可以用上一步学习到的向量来表示。基于自编码器的重构误差,提出了一种新的预测器。
(4)最后,我们定量地评估了我们的方法的性能,结果表明我们的AEMDA方法优于现有的方法。

二、材料与方法

2.1.Human miRNA-disease associations

已知的人类miRNA和疾病关联直接从人类microRNA疾病数据库(HMDD)[Wang等人,2010a;Huang等人,2019a]下载,包括HMDD v2.0(http://www.cuilab.cn/static/hmdd3/data/hmdd2.zip)和v3.2(http://www.cuilab.cn/static/hmdd3/data/alldata.xlsx). hmddv2.0包含5430个人类miRNA疾病关联条目,包括495个miRNA基因和383个疾病。在hmddv3.2中有35548个人类miRNA疾病关联,包括1206个miRNA基因和893个疾病。为了保持一致性,我们将hmddv3.2中的条目映射到383×495。对于疾病名称,我们应用了疾病映射文件(http://www.cuilab.cn/static/hmdd3/data/disease_mapping2019.txt). 对于miRNAs,我们遵循之前的工作[Wang et al.,2010b]对miRNA名称进行预处理;例如,hsa-mir-199a-1和hsa-mir-199a-2被视为一类。最后,我们在hmddv3.2中获得了12034个已知的人类miRNAdisease关联。

2.2 Disease semantic similarity

mesh数据库,包括许多疾病描述,是从国家医学图书馆下载的(http://www.nlm.nih.gov). 有向无环图(DAG)用于计算疾病语义相似度[Wang等人,2010b]。对于节点D,我们定义DAG(D)=(T(D),E(D)),其中T(D)和E(D)分别是节点集和边集。T(D)包括节点D及其祖先节点,E(D)表示父节点和子节点之间的直接连接。定义SS为疾病语义相似度矩阵,SS(di,dj)为疾病与dj之间的相似度。

2.3 miRNA functional similarity

基于功能相似的miRNAs对类似疾病敏感的假设,可以计算miRNA功能相似性得分[Wang等人,2010b]。在本文中,我们首先直接下载了这些数 (http://www.cuilab.cn/files/images/cuilab/misim.zip) 利用这些数据构造了一个383×383矩阵。在F S中的每个元素用fs(mi,mj)表示,它代表miRNA mi和mj之间的功能相似性。

2.4 Gaussian interaction profile kernel similarity for miRNA and disease

基于前人的研究[Wang等人,2010b],利用已知的人类miRNA疾病关联,可以计算出miRNA和疾病的高斯相互作用轮廓核相似性,其中KD(di,dj)表示疾病间的高斯相互作用核相似性。同样,KM(mi,mj)是miRNAs-mindmj之间的高斯相互作用核相似性。

三、方法

在这里插入图片描述

3.1 Overview

AEMDA包含三个主要组件:疾病模型(用于学习疾病的表示)、miRNA模型(用于学习miRNAs的表示)和深度自动编码器,其中包括编码器(用于编码miRNA疾病对)和解码器(用于重建)。综合相似性用于训练疾病和miRNA模型,已知的miRNA疾病关联用于训练深层自动编码器。AEMDA的工作流程如图1所示

3.2 Feature representation

在基于神经网络的方法中,独特疾病和miRNAs的恰当表达是非常重要的,并且对模型的预测性能有很大的影响。有几种方法可以提取疾病和miRNA特征。通过引入一个基因层来计算疾病基因网络和miRNA基因网络中的关联得分,彭等。应用疾病(或miRNA)和基因的Pearson关联作为载体来表示疾病(或miRNA)[Peng等人,2019]。宣等。结合miRNA和疾病的相似性以及它们之间的联系来形成特征表示[Xuan等人,2019]。Fu等人。通过整合miRNA功能相似性、miRNA疾病相关性和miRNA靶基因相互作用,提取miRNA特征,可用于表示miRNA和疾病矩阵载体[Fu和Peng,2017]。

与这些方法不同的是,我们通过学习算法直接从综合疾病相似性中提取疾病表征。miRNA的表示是从miRNA的整体相似性中学习的。我们将疾病和miRNAs分别视为疾病空间和miRNA空间中的高维载体。通过将疾病评分和miRNA相似性作为高维空间的距离度量,我们构建了两个回归模型来学习这些向量,这些向量是准确和信息量大的。

3.2.1 Disease representation

受最近通过学习向量自动表示单词和句子的神经语言处理的大量成果的启发[Bahdanau等人,2015;Mikolov等人,2013;Devlin等人,2018],我们训练了两个模型来学习向量来表示疾病和miRNAs。

我们首先定义一个代表疾病的数字,然后用它作为一个查询从一个代表矩阵D的嵌入中检索一个稠密向量Di,它也是D的i行。在训练过程中,矩阵D被随机初始化。经过许多时代的学习,我们获得了对疾病的良好描述。D的定义如下:
在这里插入图片描述
其中dii是代表第i种疾病的表示。kd表示向量的大小,nd表示疾病的个数,因此疾病矩阵为D∈Rnd×kd。

计算方法。疾病语义相似性是一个稀疏矩阵,单用该矩阵很难获得良好的预测性能。另外,利用已知的人类miRNA疾病关联计算高斯相互作用剖面核相似性KD,但其计算精度不够。因此,有必要将疾病语义相似性SS与高斯互作特征核相似性kd相结合,以达到较好的预测性能。该模型首先将SS和KD作为一个疾病相似矩阵,通过加权参数表示为SD。最后,使用矩阵SD学习疾病向量D,综合疾病矩阵如下:
在这里插入图片描述
其中SD与SS和KD具有相同的维数,即SD∈Rkd×nd。α是权重,范围在0到1之间。不同的值显示出显著不同的预测性能,我们将在第3.4.3节中讨论。根据以往的工作,矩阵SS和KD中的每个元素都在[0,1]范围内。我们的模型认为SD(di,dj)是两种疾病之间的距离。余弦相似性是通过向量之间夹角的余弦来度量两个向量之间的相似度,在信息检索和数据挖掘中被广泛应用[Tan等人,2005;Manning等人,2008]。我们用余弦相似性作为两种疾病的距离度量,SD作为基本真实标签。余弦相似性在-1和1之间,这意味着SD的值应限制在[-1,1]。然而,SD和SS中的元素是非负的,因此积分矩阵SD中的每个元素都应该在[0,1]的范围内。α表示疾病语义相似度矩阵受影响程度的置信度。我们用一个因子调整余弦函数,以确保两种疾病的结果在[0,1]范围内。对于疾病di和dj,疾病模型的输出,学习的余弦相似性d0由以下公式给出:
在这里插入图片描述
其中di是表示疾病di的向量表示。SD’是疾病di和dj计算的距离,SD(di,dj)是基本真实相似性。我们建立了一个回归模型来学习疾病表示D。两个向量的相似性得分大意味着它们在高维疾病空间中高度相似。疾病模型试图最小化所有样本的损失,其定义如下:
在这里插入图片描述
式中,Nd=Nd?(Nd?1)/2是训练样本数。在每次训练迭代中,均方损失作为准则,我们使用带有反向传播的随机梯度下降(SGD)方法更新疾病矩阵D。训练细节将在第3.4.1节中描述。

3.2.2 miRNA representation

同样,代表miRNAs的矩阵M可以定义为:
在这里插入图片描述
其中km是代表miRNA的向量大小,nm是miRNA的数量。 同样,我们然后通过引入权重β来建立miRNA模型,以通过以下方程式学习矩阵M:
在这里插入图片描述
其中nm为训练样本数,sm和sm‘’定义如下:
在这里插入图片描述

3.3 Autoencoder-based association predictor

自动编码器是20世纪80年代由Hinton[Rumelhart et al.,1986]首先提出的一种无监督学习方法,在特征提取、异常检测和生成模型中得到了广泛的应用。在本文中,一个自动编码器被用作一种半监督学习技术,它被用来学习miRNA疾病对的潜在联系,并预测疾病相关的miRNA。我们的深度自动编码器模型由两部分组成:编码器和解码器。编码器将高维对压缩成低维潜码时,解码器重构来自潜码的输入。该模型包括七个完全连接的神经网络层,图2显示了AEMDA体系结构中的自动编码器结构。

重建误差测量miRNA疾病对的相关性大小;重建误差越小,miRNA与疾病之间的相关性越大。在训练过程中,已知的miRNA和疾病关联被视为可观察样本。对于已知的疾病d和miRNA m的关联,我们首先查询d中的疾病向量d和m中的miRNA向量m,然后将级联的向量[d,m]用作我们的自动编码器的输入。

我们定义了第i个训练样本作为席=(d,m)rkd+km。给定样本席,编码器负责提取低维码的特征,由以下方程:
在这里插入图片描述
其中l={1,····,l},我们设置l=2来表示编码器中的两个隐藏层。H(L)I表示L个隐层表示,H(0)I表示输入席。wl是权重矩阵,bli是第l层的偏差。ZIIS编码器的输出,代表席的潜在表示。线性单位(ReLU)[Nair和Hinton,2010年],因为它对训练是有效的。

解码器的目的是尽可能地从编码器中的潜在表示zi重构输入xia。以下等式定义了解码器:
在这里插入图片描述
其中h(l)i是第l隐藏层表示,h(0)i=zi。L=2表示解码器中的两个隐藏层,L={1,···,L}。Wland在l层中显示权重矩阵和偏差。解码器席席的输出是输入XI的重构。我们分别将非线性激活函数fd(·)和gd(·)分别设置为ReLU和tanh。
在这里插入图片描述
最后,我们的自动编码器的损失是所有训练样本的重建误差之和,表示如下:
在这里插入图片描述
其中N是已知的miRNA疾病关联数。损耗的第一项是平方损失,第二项是正则化的Jacobian Jh(席)(FRIAI等人,2011)的Frobenius范数,而La是超参数。对深度自动编码器进行训练,使上述损失最小化,并对自动编码器中的所有参数进行迭代更新。

3.4 Results

3.4.1 Implementation details

AEMDA是在pythorch的基础上用pythorch实现的,PyTorch是一个开源的机器学习框架,在我们的环境中使用的是版本1.1。我们所有的实验都是在Ubuntu16.04平台上进行的,平台上有2个特斯拉P100处理器。

AEMDA按照以下计划进行训练。我们首先用均方误差(MSE)作为损失函数训练疾病模型和miRNA模型。在50个时代之后,我们有两个密集的表示,D和M。然后,我们使用D,M和已知的miRNA疾病关联来训练一个深层的自动编码器。深度自动编码器通常在100-150个周期内收敛。HMDD v2.0数据库用于训练深度自动编码器,因此我们设置nd=383和nm=495。矩阵D和M分别表示疾病模型 miRNA模型的权重,它们在PyTorch中通过两个嵌入实现。两个模型中的权重都是用?0.1和0.1之间的均匀分布初始化的。疾病模型通过反向传播的SGD方法进行端到端的训练[Lecunet al.,1989]。我们使用Adam算法[Kingma and Ba,2014]优化模型,β1=0.9,β2=0.999。小批量为128对疾病。学习率最初设置为1e?4,如果损失没有改善,则每4个周期后,学习率降低0.1倍。最后,选择损失最小的最优模型。为了简单起见,我们在实验中设置kd=km。类似的设置用于训练miRNA模型。

对于深度自编码模型,模型的输入是疾病和miRNAs的串联向量,这意味着输入层有(kd+km)个神经元。该编码器的隐藏层为b(kd+km)/2c和b(kd+km)/8c,隐码大小为32。解码器的结构与编码器相反。

四、总结

计算方法在识别疾病相关miRNAs方面发挥着越来越重要的作用。在这篇论文中,我们提出了一个新的预测框架叫做AEMDA,它是基于一个深层自动编码器来识别miRNA疾病的关联。首先,通过整合疾病语义相似度、miRNA功能相似度和高斯交互轮廓核相似度,训练两个模型来提取疾病和miRNA表达。然后,我们提出了一个深层自编码模型,从这些表现和已知的miRNA疾病联系中学习miRNA与疾病之间的关系。基于交叉验证和案例研究的实验结果表明,AEMDA是可靠和有效的,并优于几种最先进的方法。我们的方法还有进一步改进的余地。未来,我们将整合HMDD v3.2和miRNA相似性MISIM v2.0中的数据,以培训AEMDA。随着越来越多的样本可用,我们将应用更深或更复杂的神经网络架构来获得更好的性能。

五、个人总结

在我个人看来,如果该篇论文放在两年前的话,可能是一个比较新的点,在这两年普遍使用深度学习来做生物的时代,该方法并不是一个很新的点。
(1)在这个强调使用多数据的时代,该方法并没有使用与miRNA或疾病相关的多源数据,只是利用了miRNA-疾病关联数据,疾病语义相似性,对于miRNA功能相似性和高斯谱核相似性都是根据miRNA-疾病关联计算出来的。
(2)使用回归模型整合两种相似性,在我看来并不一定是一个很好的方法,如果将计算出来的相似性标签的话,在我看来有一定的问题,其中采用交叉验证时,如果功能相似性被重新计算的话,原来的相似性将会包含测试集中的关联信息。deepNF: deep network fusion for protein function prediction 2018这篇论文使用了自动编码器来进行多源数据整合。
(3)miRNA-疾病关联预测问题相当于分类问题,将经过第一步得到的miRNA和疾病的特征低维表示拿出来拼成疾病对的形式然后丢在自动编码器当中意义何在?为什么不直接使用神经网络进行分类,然后预测miRNA-疾病对的得分呢。

  相关解决方案