Title
cryosPArc: algorithms for rapid unsupervised cryo-em structure determination
Summary
在低温电镜中,得到的是蛋白质在各个姿态下的二维图,本文主题的研究内容即使用SGD,以及分支定界算法。在耗时短,计算资源占用少的前提下,得到高分辨率的3D结构图,且结果比同行的结果更好,耗时更短。算法集成在网站(http://www.cryosparc.com)可供查阅
Research Objective
单粒子低温冷冻电镜是确定生物大分子结构的一种方法,可是显微镜拍到的图片仅仅只是同一个物体(如蛋白质)在各个不同的角度的二位图片,作者解决的问题即将从数量众多的二位图片中,恢复出蛋白质的三维结构。
Problem Statement
人工干预
在目前的算法中,重建蛋白质的三维结构并提高分辨率,需要大量的人工干预,先验知识对重建效果影响巨大。
计算成本
重建三维结构的过程中,需要在计算机集群上做数周的计算,成本太高且耗时过长。
Method(s)
作者在解决上述问题时,将具体的重建问题拆成了两个步骤。
步骤一
作者使用SGD随机梯度下降法进行三维重建,得到了一个初步的三维模型。执行时,算法细节如下:
- 如图a所示,x轴:所有的3D结构图,y轴:给定图像的3D图概率,描述的是算法搜寻合适的3D结构的过程,
- 图c描述图a算法迭代的过程
- 图b表示算法执行的过程中,由于数据集图片众多,每次只随机选取一部分进行迭代,类似深度学习中batch的概念
步骤二
SGD之后得到的3D结构还很粗糙,需要进一步提高分辨率,即标题“Branch and bound: rapid refinement of maps to high resolution”下的内容,算法细节如下图:
- 图a:首先需要确定每张二维图所对应的方位角,x轴:方位角,y轴:图像对齐错误,图a展示两次迭代的过程。选取的过程即先定义一个误差函数(true error),计算每张图的true error,对于一个true error,再计算出一个“Lower bound level 1”,选定一个阈值后,得到阈值以下的范围,即“Candidate poses”候选姿势,在候选区间内再计算一个“Lower bound level 2”,用同样的方式得到更加精确的“Remaining candidate poses”剩余候选姿势。,之后不断重复这个过程,直到姿态选择满意为止。
- 图b,确定最佳姿势,计算过程和图a类似
b左上–所有姿态的true error分布、
b左中–计算“Lower bound iteration 1”的结果,类比a中“Lower bound level 1”、
b右中–选择候选区间“Remaining candidate poses”后的结果类比a中的“Candidate poses”、
b左下–“Lower bound, iteration 2”、
b右下–“Remaining candidate poses”之后不断迭代,得到最佳pose
Evaluation
作者评估的方式是利用已有数据集,将自己算法得出的三维结构图与同行得到的结果进行对比,全面碾压即展示自己用时短,分辨率高,分辨率相同时即展示作者的算法用时更短。
作者算法的结果图,这部分在吹自己的结果多么多么好=_=(都是生物学知识,总结起来就是速度快,分辨率高)
Conclusion
- 算法收敛更快:主要来自于SGD收敛快以及每次迭代只随机抽取部分数据(类似batch),不用每次迭代都全局搜索,计算资源占用较少。
- 分辨率高:与分支定界方法有关,不懂怎么做到的
- SGD方法的引入使得推断3D结构时不依赖于先验知识,即推断结果对初始化不敏感。在作者的实验过程中,还发现了一种酶的第三种形态
Notes(optional)
冷冻电镜科普
贝叶斯估计
Reference(optional)
太多了。。。。