摘要
背景:全球网络比对已被认为是计算功能正畸的有效工具。常用的全局比对技术(如IsoRank)依赖于两步过程:第一步是基于迭代扩散的方法,用于将相似性分数分配给所有可能的节点对(匹配);第二步将最大权重二部匹配算法应用于该相似性分数矩阵,以识别同源节点对。虽然在识别基于序列的正交法方面取得了明显的成功,但这个两步过程的计算代价很高。最近在计算节点对相似矩阵方面的工作表明,第一步的计算成本可以显著降低。这些加速方法的使用使得二部匹配步骤成为主要的计算成本。这促使对与二部匹配步骤相关的计算成本和解决方案质量(匹配质量、拓扑匹配和生物学意义)的权衡进行关键评估。本文利用IsoRank中最新的基于核心扩散的步骤进行相似度矩阵计算,并将其与两种启发式二部匹配算法--基于矩阵的贪婪算法和我们开发的可调、自适应、基于拍卖的匹配算法相结合。然后,我们将我们的实现与参考IsoRank二进制生成的解决方案的性能和质量特征进行比较,该参考IsoRank二进制也实现了最优匹配算法。
结果:在IsoRank流水线中使用启发式匹配算法具有显著的加速比;在大多数感兴趣的情况下,整个比对过程通常要快30倍。更令人惊讶的是,计算时间的这些改进通常伴随着生成的网络比对的更好或可比的拓扑和生物学质量。这些度量由比对图中的保守边的数量、丰富成分的百分比和覆盖的基因本体(GO)术语的总数来量化。
结论:通过将启发式二部匹配方法与IsoRank过程的相似性评分步骤相结合,我们已经证明了全球网络比对计算时间的显著减少。我们的启发式匹配技术在结果比对中保持了相当(如果不是更好)的质量。我们工作的一个结果是,在典型的蛋白质相互作用网络上,基于网络比对的直方图可以在几分钟(而不是几小时)内计算出来,从而能够更全面地调整精细化直方图的比对参数。
绪论
背景将细胞描述为相互作用的生化成分的路径的集合是生物过程的系统观点的基础。与调节、代谢和信号相互作用相关的数据被系统地、自然地编码到网络中[1]。高通量技术产生的物种、细胞过程、抽象和大量交互数据的多样性有力地推动了有效和高效分析算法的发展。在过去的二十年里,在序列、集合和特殊图形结构(树、DAG)的保守成分识别、区分成分、模块性、聚类和比对算法方面取得了重大进展。然而,在为结果提供可靠的统计基础的同时,解决一般大型稀疏图的这些问题仍然是一个重要的正在进行的研究课题。这些问题的有效解决方案必须利用特定数据集的属性来提供所需的性能。
在本文中,我们主要研究网络对齐问题。该问题的目的是量化两个给定图的相似度,导致从一个图到另一个图的节点映射,以及诱导边映射。作为这个问题的一个具体实例,在蛋白质相互作用(PPI)网络中,物理上相互作用的蛋白质被表示为边连接的节点。识别不同物种网络之间的(拓扑)相似区域,可以深入了解子网络的功能组织和一致性。具体地说,如果连通子图是跨物种保守的,则它们可能对应于子图之间和子图内的共享功能。这可以用来注释蛋白质(通过绘制跨物种的注释),推断缺失的相互作用,以及绘制功能正构图。
网络路线可以从本地或全局成本测量中导出。在局部网络对齐(LNA)[2-4]中,局部评分函数奖励潜在的较小的子图匹配。在PPI中,一个节点(蛋白质)可能潜在地参与许多映射。相比之下,全球网络对齐(GNA)[5-7]依赖于在整个网络上定义的成本函数。这意味着在PPI中,来自一个网络的单个蛋白质被映射到另一个网络中的单个蛋白质。
建议的全局对齐方法通常分两个步骤进行:
- 在第一步中,构造相似度得分矩阵X,其中元素xij表示第一图中的节点i与第二图中的节点j的相似度。
- 在第二步中,节点匹配算法从每个网络中选择节点对,使用矩阵X优化聚合相似性得分度量。
两个节点的相似度由其交互剖面的相似度(也称为拓扑相似度)和节点的固有相似度决定。后一种固有相似性的概念是由Singh等人引入的。[6,7],作为元素(或节点)相似度。元素相似度得分补充拓扑相似度,并依赖于节点标签或属性。例如,对于蛋白质对,由BLAST独立计算的序列相似性分数可用于元素相似性。Singh等人的方法。[6,7],称为IsoRank,使用基于迭代扩散过程的拓扑相似度概念来计算矩阵X。在该方法中,节点对的相似度由其相邻节点的相似度迭代确定。这样计算的拓扑相似度在每个迭代步骤中与元素相似度累加,并运行该过程以收敛,以产生矩阵相似度矩阵X。
在该方法的第二步骤中,标识最佳匹配的节点对。矩阵X被视为加权二部图G=(VA,VB,E),其中第一个图的节点i表示VA中的顶点,第二个图的第n个e j表示Vband矩阵条目xij中的顶点表示两个节点之间的加权边。可以应用二部图匹配算法来获得一组边M,M_?_E,使得M中没有边对关联到相同的顶点。此外,加权边INM上的和被最大化(IsoRank[6,7],NetAlignBP[8],H-Graal[9])。
在IsoRank中,矩阵X的计算代表主要成本。然而,对该步骤的算法改进已经显著降低了相似性矩阵计算的成本[10],特别是在具有一小部分主要的基本相似性分量的情况下。这导致第二个两部分匹配步骤现在成为性能瓶颈,并因此成为性能改进的焦点。
在这篇文章中,我们从生物学含义和拓扑匹配的角度,批判性地检查了对最优二部匹配的需求,适用于二部匹配的启发式算法,总体运行时间的相关改进,以及它们对解质量的影响。
具体地说,对于一系列PPI网络对,我们试验了我们定制的两阶段流水线实现:我们使用IsoRank评分矩阵计算作为第一阶段,随后应用基于矩阵的、贪婪的、自适应的、基于拍卖的匹配算法。这两种方法为每个输入网络对生成两个比对-(mat3贪婪和mat3拍卖结果)。然后,对于相同的输入网络和参数,我们运行由Singh等人[6]提供的IsoRank的参考本机二进制实现,他们报告说,他们的软件将贪婪和匈牙利算法应用于计分矩阵X、n d p r o o d u c e s iso greedy和iso匈牙利对齐。
我们的主要结果是总体运行时间改善了一个数量级以上--对于几乎所有测试的PPI网络对,通常加速了×30-在拓扑和生物学质量方面具有相当的、在某些情况下更优越的结果(mat3*与iso*计算相比)。这意味着PPI网络的典型情况的运行时间从几小时减少到几分钟-从而能够更全面地探索参数空间以提取所需的正交法。
结果与讨论
我们报告了我们的mat3*比对的计算成本和质量特征,并与IsoRank的参考本机二进制实现(iso*结果)生成的Mat3*比对进行了比较。通过IsoRank公共网站[11]获得PPI网络集合、相应蛋白质的序列相似性和IsoRank[6,11]的可执行文件。该数据集中的PPI网络(其列表在表1中提供)收集自可公开获得的数据库,例如BioGRID和DIP,以及Stelzl和Vdal的数据集。通过对从Ensemb1检索到的序列使用BLAST来产生关联的序列相似性。在所有实验中,我们使用α=0.8作为固定迭代次数(20)。
计算性能
图1绘制了mat3*和iso*实现的计算时间。
可以进行两个重要的观察:
- 对于几乎所有的网络对,我们的mat3*匹配的生成速度大约是iso*的30倍。对于最大的数据集,在我们的例子中,这大致相当于不到5分钟(与iso*的2小时处理时间相比)。
- 自适应拍卖算法是这种性能改进的关键因素,而不是匈牙利算法-假设IsoRank(构造X)和贪婪匹配实现具有相当的性能。请注意,我们无法单独对这些时间进行基准测试,因为Singh等人的参考实现没有报告这些时间。有人可能会争辩说,我们的相似性矩阵计算的实现比Singh等人的相应实现要快得多。虽然这是不太可能的,即使是这样,我们相对于最广泛分布的IsoRank实现的显著性能改进代表了我们贡献的核心。
我们还注意到,特别是对于最大的网络对,我们的自适应拍卖算法是从相似得分矩阵中提取匹配对的最有效的方法。具体地说,在运行来自[11]的本机二进制之后,唯一可用的计时信息是总运行时间,它包括三个独立的组成部分-(I)它们的相似性矩阵构造阶段,(Ii)它们的匈牙利算法运行,以及(Iii)它们的贪婪方法。这三次是分不开的。然而,我们可以分别测量(I)我们的相似性矩阵构建阶段,(Ii)我们的拍卖匹配运行,和(Iii)我们的贪婪方法运行的时间。只有第二部分的实现,即他们的匈牙利拍卖算法与我们的拍卖算法有根本的不同。第一阶段对应的相似度计算和贪婪匹配算法依赖于相似的算法。这表明,我们在两种情况下从这三个部分观察到的总体运行时间的性能增益(大约×30加速比)可以主要归因于它们在匈牙利和我们的拍卖算法实现之间的性能差异。
就运算次数而言,匈牙利算法的复杂度为O(|V|(|E|+|V|log|V|))。这与ε缩放拍卖算法的最坏情况复杂度形成对比,后者由O(|V||E|LOG(|V|C))给出,用于整数权重(具有C=maxij|xij|和xijthe相似性分数)。这里|V|是待对齐的两个图之间的最大顶点数,|E|i s t h e n u m b e r o f e n t r i e s i n X.E x p的实验结果表明,拍卖算法的最坏情况运行时间是很少的.。速度提高的其他原因包括二进制代码中相似性矩阵计算中的次优数据结构,或未优化的匈牙利实现。这些都很难从二进制中破译出来--无论是哪种情况,我们的软件都大大加速了Singh等人采用的最先进的方法。来解决全局对齐问题。
线形图及其评价
拓扑透视图
在图2中,报告了对齐图中的保守边的数量。我们提出的mat3拍卖方法在6种情况中至少有2种优于其他方法-更保守的边缘意味着更好的比对,如方法部分所述-Mat3*匹配优于iso*匹配(平均而言,在6种情况中有5种)。然而,没有明确的“赢家”,也就是说,单一的方法对所有测试用例都是最好的。
生物学视角
为了评估计算的比对的功能一致性,我们报告了它们的敏感性和特异性(更多细节请参见方法部分)。表2总结了相应的统计数据。然后,我们对具有共同富集项的排名靠前的组件的子集进行详细分析,其中功能项在两个输入网络(来自不同物种)的各自的子图中被富集化。
图1计时结果。用于提取图4的所有四种类型匹配的定时结果。用于获得mat3*匹配的时间被表示为具有标识三个算法块(mat3、贪婪、拍卖)中的每一个的相对贡献的颜色的条。在生成mat3*匹配时,黑线给出了相应的加速比(在右侧垂直轴上读取),相对于iso*o*n e s
Sensitivity
在总体敏感度方面(对对比对物种的平均真阳性率(TPR)),mat3拍卖表现出优越的性能,除了在人与蝇的比对方面,mat3贪婪优于mat3拍卖方法。这里值得注意的是,灵敏度在不同的表中不具有可比性,因为预期丰富项的总数是被比对的物种对之间进化距离的函数。最近分化的物种更有可能有共同的路径,这导致了更多的已识别术语的数量。然而,对于定义了唯一功能空间的固定的物种对,我们可以用灵敏度作为比较不同方法的度量。
特征
在平均特异性方面,我们观察到不同方法之间的差异更大。令人惊讶的是,除了酵母对细菌和细菌对人的比对之外,mat3贪婪在6个实验中有4个是排名最高的方法,在这两个方面,饥饿和mat3拍卖分别表现得更好。这些结果表明,著名的匈牙利最大加权二部匹配算法并不一定提高结果的生物学质量。对这种现象的一种可能的解释是过度拟合问题。在不同图中的结点的成对相似性分数集合上定义匹配阶段的THEO b j e c c函数,其本身是使用序列和拓扑来计算的。我们注意到,使用BLAST计算的初始分数-序列相似性分数和使用IsoRank计算的聚合分数都固有地存在噪声,并且在它们上过度拟合模型(匹配)可能会潜在地降低结果的性能。
图2对齐图中的守恒边数。物种对和计算方法的所有组合的排列图中的保守边数。
表2对齐图的生物验证
高度浓缩组件的示例
我们还通过提取在两个物种中都高度富集的成分来评估mat3拍卖方法的性能,这些成分相对于一个独特的GO术语。我们手动管理mat3拍卖确定的组件,并为我们的案例研究选择了四个重要组件,跨越四个不同的物种对。这些组件如图3所示,表明结构保守性和功能相似性之间存在很强的相关性,而mat3拍卖已经忠实地恢复了这一相关性。M o s t o f h e s e e o c o m ent有多个共同丰富的围棋术语,但足够有趣的是,这些术语在某种意义上是一致的,它们或多或少详细地描述了相同的功能。例如,成分3(B)用RNA处理作注释,这是术语“通过剪接体进行核mRNA剪接”的推广,这是3(B)中的另一个丰富术语。类似地,组分3(C)富集组蛋白乙酰化和组蛋白修饰。第一个术语显然是对修改类型的改进。
这些功能相似的模块表现出紧密相关的结构。在大多数情况下,较小的子图及其所有边都可以完美地嵌入到另一个species.Thesetofmissedinteractionscanbeexplainedby中,无论是进化分歧还是输入数据集的质量。
从进化论的观点来看,人们可以争辩说,这对物种中的一组同源基因可能已经分化,或者获得了特定的功能,或者失去了特定的功能。这些功能适应通过删除或插入伙伴关系反映在蛋白质-蛋白质相互作用的模式中。另一方面,基于蛋白质组的质量和覆盖范围,可以提出一个更容易的论点,注意到不同的实验室对每个物种预测了不同的PPI相互作用。其中一些物种得到了很好的研究,有更多高质量的互动可供它们使用。从图3(A)和3(D)可以明显看出,大多数遗漏的边缘驻留在酵母中,这可以简单地用初始PPI网络质量的异质性来解释。
图3由mat3拍卖方法确定的保守组件。由mat3拍卖方法确定的保守组分。每个组件都用生物过程的特定分支进行了连贯的注释。(A)过氧化物酶体组织。(B)RNA剪接。(C)H i s to e修饰。(D)核糖体生物发生。
结论
结果表明,基于IsoRank计算两个PPI网络节点间相似度得分的方法,结合快速、自适应、基于拍卖的实现和基于矩阵的贪婪算法提取匹配蛋白质,产生了一种高效的全局比对算法。该方法在计算时间上产生了超过一个数量级的改进-在大多数感兴趣的情况下,整个比对过程通常快30倍-结果的拓扑和生物学质量与之相当或更好。使用OUT方法,可以使用以前使用的方法(对于最大的输入配置,大约130分钟),在几分钟内(典型对齐不到5分钟)计算出对齐,而不是数小时。这使用户能够更好地调整路线参数并提取更好的路线。
方法
IsoRank中的节点对排序
在所有的比对方法中,我们都使用IsoRank中的相似度矩阵构造步骤。此方法基于网络对齐问题与识别单个网络中的“信誉”节点(有时也称为页面或节点排名问题)之间的类比。也许,单个给定网络中节点排名的最常用度量可以递归地定义如下:“如果一个节点链接到其他重要节点,则该节点是重要的”[12]。将这个定义扩展到我们的节点相似性问题,我们得到如下定义:“如果两个节点链接到其他(拓扑上)相似的节点对,则它们(拓扑上)相似”[6,7,13]。IsoRank有效地实现了“递归节点相似性”这一概念。请注意,这种观点并不新鲜-它已经在应用领域中得到了开发,比如自动图像字幕[14]和同义词提取[15]。
我们通过引入必要的符号来启动更正式的讨论。给定一个图GA=(VA,EA),VA和E分别表示GA的顶点和边,NA=|VA|。它a d j a c e n c y m a t r i x A有元素aij=1当当边(i,j)∈E,否则a n d aij=0。显然,A对于无向图是对称的。矩阵?A是矩阵AT的规范化版本;形式上,对于A的非零行,(?A)ij=aji/?na i=1aji,否则为零。我们用1表示由1组成的大小为nA的列向量。此外,还使用了用于将矩阵列堆叠成向量的vec(·)运算符(以及用于重新组装矩阵的与其相关联的“逆”揭示(·)运算符)。使用这些算子,vec(Axb)=(BT?A)x,h o l d s,w h e r e?表示两个矩阵的Kronecker积。
在IsoRank中,通过综合顶点属性(蛋白质序列的相似性)和拓扑亲和力(到相似节点的链接)来计算(PPI)网络中的顶点相似性得分。更具体地说,在[6]中,Singh等人。介绍以下计算相似性分数的迭代过程:
这里,x=vec(X)是垂直堆叠相似度矩阵X的列的向量,该相似度矩阵X的列具有作为条目的相似度分数xij。H=vec(H),类似地堆叠矩阵H的元素hij,即节点i∈Vb和j∈VA之间的元素相似度得分。Ve、c、t、o、s、x和h归一为一。逐次迭代结点的尺度拓扑相似度和元素相似度,分别按因子α≤1和nd1?α进行迭代。在PPI网络的背景下,向量对蛋白质序列相似性得分进行编码,并且假设蛋白质相互作用网络GA和GB是无向的。通过“揭开”(1),我们获得:
匹配算法
作为识别两个网络中相似子图的第一步,等秩计算|VA|-by-|VB|相似性得分矩阵X。我们假定|VA|≤|VB|不失一般性。该矩阵可以被视为编码加权二部图G=(VA,VB,E,w),w e r e VA∩VB=?,E?VA×VB,a n d t h e w e i g h t f u n c t i on n w:E→R≥0。每行代表VA中的一个顶点,每列代表VB中的一个顶点。矩阵中的非零条目被解释为行和列顶点之间的边。矩阵的数值xij表示边的权重。二部图中的匹配被定义为子集M_?_E,使得M的任何一对边都不会关联到相同的顶点上。在最大匹配中,不能在不违反匹配性质的情况下将任何边添加到M。最大(基数)匹配是包含最大可能数量的边的匹配。具体地说,我们感兴趣的是寻找具有最大权重的最大匹配。匹配的权重定义为?(i,j)∈mxij;这通常将t e s t t转换为a l a r g e n u m b e r f m a t c h i n g p a i r s w i t h a h i g h累计相似性得分。
已经提出了用于计算给定相似度矩阵X的加权匹配M的各种算法。计算具有最大权重的最大匹配的近似算法[16]和返回具有最大权重的最大匹配的最大加权匹配算法[17,18]都是寻找合适分配的候选。在我们的方法中,我们使用了1/2近似算法,并提出了一种基于拍卖原理的加权匹配实现。使用基于拍卖的方案的主要优点是所谓的ε-Scaling机制,使用该机制可以控制算法的质量和收敛性。
1/2近似算法
1/2近似算法这种简单的近似算法可以描述如下:首先,边的权重按降序排序。然后,选择并删除最重的边e以及与其端点关联的边。重复此操作,直到图形为空。此排序过程的最坏情况复杂度为O(|E|log|E|)。我们实现了Preis[16]的线性时间1/2近似算法,已知的时间复杂度为O(|E|)(算法1),将这种基于图的描述转换为矩阵运算(基于矩阵的贪婪算法):在从相似性矩阵X?=0中选择具有最大值xij的元素之后,我们报告节点i和j的匹配。然后我们将X的第j行和第j列清零,并重复上述步骤,直到X在其一个维度上仅包含零。
拍卖算法
拍卖算法[18]通过拍卖找出最大加权匹配:I∈Vis是人,j∈VB是对象,xij是买方i通过获取对象j而获得的利益。E a c h o b j e c t j具有关联的价格pj,初始值为零。在此,拍卖算法[18]通过拍卖找到最大加权匹配:i是人,j是对象,而xij是买方i通过获取对象j而获得的利益。e a c h o b j e c t j具有关联的价格pj,初始值为零。
在拍卖迭代中,执行投标和分配阶段,并更新ε的价格和价值。在竞价阶段,未分配的买家i竞标最佳对象ji,即,对象ji,th,a,a,s是买家i的最大利润。通过从最有价值的利润UI,即,UI?Vi减去次佳利润Vi来计算出价。买家I最有价值的利润UI定义为{xiji?pji},次佳利润Vi由maxj?=ji{xij?pj}计算。签字的买家提交了投标,指定的标的物被授予投标人,产生其潜在的先前所有者未被转让。价格是通过相应的出价和一个小增量ε更新旧价格来计算的。由此得出,基于拍卖的算法(参见算法2的简化描述也假设为整数xij)由四个阶段组成:初始化阶段(第1-7行)、投标阶段(第9-12行)、分配阶段(第13-15行)和终止阶段(第8行)。
增量ε的初始值对拍卖算法的计算代价有很大影响。理想情况下,ε的值应该接近e p r i c e的最佳值,s in c e t h e n u m b e r of i e r a t i n s to s查找匹配项将很小。通常,ε缩放拍卖算法的计算最坏情况复杂度为O(|V||E|LOG(|V|C))(其中C在算法2的第5行中定义)。由于伪多项式的复杂性,我们在算法2的基于拍卖的实现中嵌入了一种积极的ε-Scaling策略,从而得到了我们的自适应拍卖算法,该算法有效地将εScaling阶段划分为多个ε-Scaling阶段,其步骤在算法3中有详细介绍。
这里,ε值用一个较小的值初始化,并且相对于匹配的整体进度自适应地增加。建议的启发式背后的基本思想是,在内部迭代中,至少δ买家被分配给一个对象,而ε将该对象的价格推高到一个很大的值。一般而言,启发式提供具有最大权重的最大匹配。由于矩阵X是稠密的,因此随后应用简单的贪婪方法,以实现最大匹配。后处理方法将不匹配的买家分配给对象列表中的第一个不匹配的对象,从而产生具有最大权重的最大匹配。
有关我们使用的拍卖算法的更详细介绍,请读者参考Sathe等人。[19]其中描述了算法的可伸缩分布式版本。该公式在数百个计算节点上运行的稀疏和密集二部图上计算加权匹配,同时有效地利用每个计算节点上的多核。
数值实验
在所有情况下,相似性矩阵X的构造都是基于等秩的。我们在Matlab中实现了公式(2)的迭代方案(mat3*case-name mat3用于表示三重矩阵乘积核),并针对netalign包[20]中的等效代码对这一部分进行了测试,得到了完全一致的结果(在机器精度范围内)。然后,将得到的相似性分数矩阵X输入到(I)1/2近似算法(以下称为贪婪)的基于矩阵的实现(在Matlab中)以进行贪婪比对,以及(Ii)将得到的相似性分数矩阵X输入到自适应拍卖算法(在C中)以生成相应的Mat3拍卖比对。
然后,对于相同的运行时参数,我们执行引用IsoRank二进制文件以生成iso greedy和iso匈牙利对齐,并将它们与我们的方法(mat3*对齐)进行比较。不幸的是,参考本机代码没有提供用于生成相似性矩阵X或用于其计算的定时的选项。它在内部使用第一阶段(第二阶段)的结果来提取最佳匹配节点对。在这种情况下,两个阶段的总计时结果与提取的匹配对一起报告。具体地说,报告了两种匹配算法的结果[6],即它们实现了贪婪算法和匈牙利算法-从而证明了为完整的路线管道选择iso贪婪和iso匈牙利名称是合理的。可以理解,由于算法思想的内部优化目标实现,可能会出现明显的偏差,但是这些不容易访问或报告。图4总结了驱动每对PPI网络的四组匹配的生成的算法块。
线形图及其评价
给定一组匹配的节点对(本文中的四个3*、iso*可能的备选方案之一),我们需要评估解的质量。对齐图是为便于执行此任务而构建的辅助结构。对齐图中的每个节点是来自计算的匹配组的匹配节点对。此外,如果VA×VB中的m1=(i1,j1)和m2=(i2,j2)是两个这样的匹配,则m1和m2由一条边连接当且仅当i1与输入图GA和GB中的i2相连,而j1与j2相连。最终,对齐图标识当替换一个图的节点时保持不变的链接结构图4算法块算法块用于生成比较中的四种类型的匹配(mat3贪婪、mat3拍卖、iso贪婪、iso匈牙利)。它捕捉到我们计算的节点之间的匹配如何保留它们的关联边之间的隐式/诱导匹配。
图4算法块用于生成比较中的四种类型的匹配(mat3贪婪、mat3拍卖、iso贪婪、iso匈牙利)的算法块。
拓扑透视图
在分析两个网络的对准图时,可以使用两种方法对计算的匹配进行拓扑评估:
- 对齐图中的边数(保留边)。请注意,在两个网络中的匹配节点上关联的保守边越多,也可以放在直接映射(即对齐)下的“链接结构”(最小或更大的连通子图上的边)的百分比就越大。
- 对齐图(公共连通子图)中连通分量的大小。这些是原始图中匹配节点对的“群集”,也保留了它们的链接模式。
许多保守边的存在明显增加了它们成为广泛连通子图一部分的概率。然而,也可能是这样的情况,即它们都是大小适中的大量连通子图的一部分。从生物学的角度来看,比较、连通的子图统计是质量评价的主要焦点。
生物学视角
对准图的拓扑评估可以揭示每种对准方法的重要特征。但是,必须考虑额外的考虑因素,以避免以过度泛化组件为代价增长组件。这可能会对预测的特异性产生负面影响。例如,通过分析连接组件的大小,可以弥补功能模块碎片化的不足。与可以将多个相关节点(及其对应的蛋白质)组合在一起的较大的连接组件相比,具有许多单个节点(在对齐图中是孤立的节点对)的比对更不可取。另一方面,通过将共享一小部分基因的功能独立的群体混合在一起,人们可以创造出功能不连贯的更大的组件。为了解决这个问题,我们采用了一种类似于Kalaev等人提出的方法。[21]评估对齐图中每个连通部件的功能一致性。在这种方法中,每个连接的成分被视为一组功能相关的蛋白质的计算预测,并与现有的GO注释进行交叉验证,作为实际的功能相关基因集。给定关于每个物种的成员基因的生物过程(BP)的基因本体(GO)[22]注释,我们使用GO::TermFinder工具[23]计算比对图中每个连接组件内丰富的GO项的集合。我们分别处理每个图,类似于Kalaev等人。[21]应用阈值0.05来提取丰富的围棋术语集。最后,我们定义了两个互补的标准来验证每种对齐方法-丰富组件的比例(组件中至少有一个丰富的GO项)和所有组件中覆盖的GO项的总数。前者捕获特异性(真阴性率或TNR),而后者捕获敏感性(真阳性率或TPR)的概念。
源代码和数据集
有关此项目的所有在线材料均可在http://compBio.soihub.org/jects/fast align/上找到。这包括Matlab脚本、拍卖算法(更通用的分布式版本)的C代码、输入数据集,以及在实际运行的中间阶段生成的数据。