在最近几年,冷冻电镜技术有了革命性的进步■■,主要得益于三个方面的突破。首先是样品制备★◆◆★,通过利用薄膜碳层甚至石墨烯可以用更薄的冰层包裹分子样品来提高信噪比。第二个突破是电子的探测技术★◆★★,也就是电子探测器的发明★★。在300 keV 电子的轰击下■★★◆◆,传统的器件都会被高能量打坏,因此在电子探测器出现之前,冷冻电镜中使用的CCD相机需要将电子打在探测器上变成光信号◆■■★,再通过CCD 把光信号转成电信号后得到图像,“电光—光电”转换的过程降低了信噪比■◆◆■。而现在电子探测器能够直接探测电子数量,同时,互补型金属氧化物半导体(CMOS)感光元件的应用使得探测器支持电影模式(movie mode),可以在一秒钟之内获得几十张投影图片。通过后期对样品进行漂移修正,再把这几十张图片叠加起来,从而大幅提高成像的信噪比。模糊的子弹一下子变得清晰,冷冻电镜的分辨率不断上升。第三个突破是计算能力的提高和软件算法的进步■★■。冷冻电镜的模型重构通常需要对几万甚至几十万张投影图片进行分析、组装和优化。这需要先进的计算资源配合有效的算法才能实现。基于贝叶斯理论的模型重构框架解决了这个问题,我们在下文中详细介绍★★◆■◆■。综上所述,冷冻电镜技术不仅提高了空间分辨率■★,而且可以应用于很多以前不能解决的生物大分子的结构研究。
在超低温的条件下,电子带来的辐射损伤被有效控制。即便如此■◆■,分子样品所能承受的辐射剂量也是非常低的,导致信噪比非常低。另外,随着观测的进行,额外的电子会累积而造成分子的移动,导致获得的图像变得模糊。这就好比用一个简单的傻瓜相机拍摄在雨中飞驰的子弹,得到的影像必然是模糊的并且充满噪音◆★★◆■◆。因此,冷冻电镜的方法技术在很长时间内只能确定个头比较大的样品的结构,比如病毒颗粒的结构,而且通常分辨率都不高。然而随着工程技术和算法的不断发展◆★◆◆★,能够确定的分辨率也越来越高(图1(a)),2016 年发布的谷氨酸脱氢酶结构的分辨率甚至已经达到了1★■■◆◆★.8 ?。与此同时◆◆■★,也有越来越多的通过冷冻电镜技术得到的研究成果发表在高水平的期刊上(图1(b)),冷冻电镜正备受科学界的关注。
我们最近在研究一个新的方法来对旋转参数进行分步处理,初步的结果显示这种方法可以把计算复杂度降低一个维度,这个方法可很好地应用于高信噪比的数据处理,但对于低信噪比的数据分析还需要对该方法进行改进★★■■★★。
当前的高分辨分子结构基本都是在溶液中提纯出来的分子样品,也就是通常所说的in vitro 实验。现在可以利用快速冷冻的方法把细胞固定,再用高能粒子枪对细胞进行高精度切片。在细胞的某些部位,常常有大量同类分子聚集,比如在内质网(endoplasmic reticulum★■★■,ER)部分有很多核糖体,在细胞骨架上会有大量的肌动蛋白(actin)分子。对这些切片进行成像研究可以获取这些分子在细胞环境的结构信息。
在早期的分析中★◆◆◆◆■,对于结构的了解还非常少,优先考虑的都是人工挑选。但是自动的颗粒图像获取方法的出现使得在很短时间内可以收集数十万张颗粒图像,人工挑选大量的颗粒图像不太现实■■◆■,并且人工的挑选通常会过于集中于某一类颗粒图像,导致遗漏和偏差■★◆★◆■。
(2)一个中等分辨率的生物大分子结构精度大约在4—10 ■★◆★■?之间◆◆◆■■,在这个分辨率范围内的生物大分子结构已经可以得到一些二级结构的信息和分辨出大部分组成结构的相对位置关系■■◆■。分子结构之间如果存在构象变化也可以分辨出来。
在低温下使用透射电子显微镜观察样品的显微技术,就叫做冷冻电子显微镜技术,简称冷冻电镜(cryo-electron microscopy★★★★◆, cryo-EM)。冷冻电镜是重要的结构生物学研究方法,它与另外两种技术◆★:X射线晶体学(X-ray crystallography)和核磁共振(nuclear magnetic resonance★■◆◆,NMR)一起构成了高分辨率结构生物学研究的基础★■★■◆,在获得生物大分子的结构并揭示其功能方面极为重要。
近年来在单颗粒分析中取得重大突破的应当是最大似然估计(maximum likelihood)理论。最大似然估计的理论可以贯彻整个单颗粒技术图像分析的过程◆★■◆◆,在图像匹配,2D■◆、3D分类 和模型优化上均可以应用,是一个强有力的理论工具。最大似然估计的算法已经在RELION★■◆、FREALIGN 等软件中实现★◆,方便普通用户使用◆■◆★◆★,这对于推动冷冻电镜成像技术的应用有重大意义,近三四年来有许多突破性的近原子级别分辨率的分子结构大多是由基于最大似然估计理论的分析软件得到。
最大似然估计算法的计算量很大■★,如何降低计算量是一个重要问题。过多的计算资源消耗曾经阻碍这个方法在冷冻电镜单颗粒重构中的广泛应用。在减少最大似然算法在冷冻电镜应用中的计算需求方面,有两个重要的贡献是空间降维(domain reduction)算法和网格插值(grid interpolation)算法。
随着图像匹配的完成,颗粒图像需要进行分类◆■■■★。主要利用多元统计分析和主成分分析方法等算法,其他流行的二维颗粒分类技术还有神经网络分类,将图像在二维空间自组织映射(self-organising mapping,SOM)再进行分类和排序。
电子显微三维重构技术起源于1968 年■■★,D.J■◆◆◆。 De Rosier 和Aaron Klug 在Nature 上发表了一篇关于利用电子显微镜照片重构T4 噬菌体尾部三维结构的著名论文,提出并建立了电子显微三维重构的一般概念和方法★■。Aaron Klug 本人也因为这个开创性的工作获得了1982 年的诺贝尔化学奖。
根据不同的分辨率,可以从结构中得到不同的信息量。按照分辨率数值大致分为三个范围:
生物大分子通常具有内禀的柔性,所以生物分子的动态结构变化以及结构的不均一性一直是结构生物学的研究重点之一。在晶体状态下,生物分子的结构变化被晶格约束■★◆■■,一般只提供一个静态的结构和有限的动力学参数。冷冻电镜相比晶体学方法的优势在于可以捕捉生物分子在溶液中的形态,并记录下不同构象下的投影★■◆。因此针对冷冻电镜的数据可以进行多构象的重构★◆★◆★■,现有的一些算法是通过聚类分析、最大似然法分析等对多构象进行分析,得到的生物大分子结构形态和构象差异还需要结合分子功能来检验分子结构的合理性◆◆★。
具有里程碑意义的成果是◆★■,2013 年加州大学旧金山分校(UCSF) 程亦凡和David Julius 的研究组首次得到膜蛋白TRPV1 的3.4 ? 近原子级别高分辨率三维结构★★◆◆,结果发表在Nature 上★★■★◆◆。我国在冷冻电镜的应用领域也有很大突破■■■,代表性工作包括清华大学的施一公研究组和剑桥大学MRC 实验室Sjors H.W◆◆。 Scheres 研究组合作在2015 年获得的γ 分泌酶复合物结构( 图2(c)), 以及2015 年清华大学高宁研究组和香港科技大学戴碧瓘研究组合作得到的3.8 ? 的线 年北京大学毛有东研究组■■★◆、欧阳颀研究组与哈佛医学院吴皓研究组合作得到炎症复合体的高分辨率三维结构(图2(a));2014 年中国科学院生物物理研究所朱平研究组和李国红研究组合作得到的30 nm 染色质左手双螺旋高级结构(图2(b))以及2016 年中国科学院生物物理研究所柳振峰、李梅、章新政三个研究组合作得到3.2 ? 的捕光复合物II 型膜蛋白超级复合体结构。这些成果在结构生物领域得到巨大的反响,这也使得冷冻电镜高分辨率成像技术获得空前的关注◆■★。
在模型优化中经常伴随着过拟合的问题。过拟合的出现通常由于在优化过程时无法分辨“噪声”与“信号”。为了避免过拟合对分辨率的误判,最近一种被称为“黄金标准”(gold standard)的优化过程开始被广泛使用■■◆。
衬度传递函数(contrast transfer function,CTF)是在数学上描述通过透射电子显微镜得到样品图像上的像差变化。准确地判断衬度传递函数对于确认显微图像的质量以及后续的三维结构重建极为重要。常用的估算衬度传递函数的参数软件是CTFFIND4。确定了CTF 的参数以后,就可以对采集到的冷冻电镜图像进行修正★■◆■■。这个修正过程其实就是图像处理中的图像复原技术。
编者按:瑞典皇家科学院宣布将2017年度诺贝尔化学奖授予三位科学家,瑞士科学家Jacques Dubochet■★■■★,美国科学家Joachim Frank,英国科学家Richard Henderson◆★◆◆★,以表彰他们发展了冷冻电子显微镜技术,以很高的分辨率确定了溶液里的生物分子的结构!
(2)基于模板的方法,通过扫描数据图像和已知的模板比较来挑选出潜在的颗粒图像,模板的来源通常为手动选出的数据图像中较为清晰的颗粒图像,或者是已知结构的投影。
(1)结构分辨率大于10 ★■? 的生物大分子结构被视为低分辨率的结构,在低分辨率的结构范围内只观察得到一个大致的整体形状,以及有可能分辨出主要成分的相互位置关系。
冷冻电镜的技术突破及其在生物分子结构领域的应用把我们对分子生物学的研究推进了一大步,开始探索未知的区域。立足于解决单一构象的基础,对多构象以及动力学过程和热力学的研究也需要展开,这需要对现有技术进行提升并与其他方法进行结合,计算建模和模拟的方法也需要紧密结合起来,实现对生物分子系统的集成研究。
在模型优化的过程中★■◆◆◆,通常有很多指标给出结构的分辨率信息。目前一个较为广泛使用的分辨率信息参数是被称为傅里叶壳层关联函数(Fourier shell correlation,FSC)曲线■■◆◆★★,并通过在曲线上选取一个合适的阈值来判定分辨率。
模型三维重构的基础是中心截面定理■★★★,重构过程中的关键问题是如何确定每个颗粒图像的空间角(orientation determination)★■■◆。大多数模型重构和优化算法都是基于投影匹配(projection matching)的迭代方法。简单说就是,先利用粗糙的三维结构模型,进行投影得到参考的图像★■◆■,和实验颗粒图像进行比对,根据结果来更新空间方位参数,继而构造新的三维结构,对实验图像的空间方位修正,形成迭代的过程◆■★◆◆★,直至收敛就获得了最终的三维模型★◆■■。
接下来需要从原始数据中筛选出颗粒投影,也被称为“颗粒挑选”,颗粒挑选的好坏也将影响所有后续的分析和处理过程★◆★,是一个重要并且繁琐的步骤★■。颗粒挑选方式可以分为手动挑选、半自动挑选和完全自动挑选这几种。
(3)结合无模板和有模板的方法,通过一些有监督的机器学习算法进行颗粒挑选。
生物分子在室温下是活跃的■◆★,而且大多数的分子功能是通过结构的变化来实现的。基于X射线■■★, 尤其是最近发展的X 射线自由电子激光(XFEL)的结构生物学的研究重点之一便是实现时间分辨的结构生物学研究(time-resolved structure determination)。到目前为止◆◆■■,基于X 射线的研究取得了很大的进展,但主要还是局限在对晶体的衍射方面,比如对光合作用过程中水分子分解的研究和光敏黄蛋白的光吸收过程的研究。三维冷冻电镜的单颗粒成像技术最有希望在单分子水平上实现对时间分辨的结构变化研究,同时,这对于样品制备和实验操作提出了非常高的要求。
随着图像识别领域中深度学习方法的流行,各类基于深度学习的颗粒识别框架也被引入到颗粒挑选的过程中◆★■◆。随着深度学习方法的发展,相信如何把深度学习方法应用到单颗粒冷冻电镜图像分析领域的研究将会越来越多■◆。
为了降低高能电子对分子结构的损伤,Kenneth A。 Taylor 和Robert M。 Glaeser 于1974 年提出了冷冻电镜技术,并且用于实验研究★■。经过三十多年的发展◆★◆,冷冻电镜技术已经成为研究生物大分子结构与功能的强有力手段。冷冻电镜本质上是电子散射机制,基本原理就是把样品冻起来然后保持低温放进显微镜里面,利用相干的电子作为光源对分子样品进行测量,透过样品和附近的冰层,透镜系统把散射信号转换为放大的图像在探测器上记录下来★★■◆★◆,最后进行信号处理■★★■◆■,得到样品的三维结构。
图2 我国在冷冻电镜领域中获得高质量的研究成果(a)近原子分辨率的炎症复合体结构(图中NBD为核酸结合结构域,HD1 为螺旋结构域-1◆★,WHD为翼螺旋结构域,HD2 为螺旋结构域-2,LRR为亮氨酸重复序列);(b)30 nm 染色质左手双螺旋高级结构;(c)3★★◆◆◆.4 ★◆? 的人源γ 分泌酶复合物结构(图中NCT是一种I 型单次跨膜糖蛋白◆◆◆■★,APH-1 为前咽缺陷蛋白-1■★★■◆,PS1为早老素-1,PEN-2 为早老素增强子-2)
在加快计算速度的同时■■◆★,提高模型的重构的准确性则更为重要。如何提高颗粒图像的准确性以及最大似然方法在这些方面的应用还有待深入探索。总而言之◆■◆★■,最大似然方法独特的、可扩展的统计理论框架可以适用在冷冻电镜的各种问题上,如多构象★■◆★、低噪声■◆★◆、信息缺失中均有很好的应用★◆★。
4■■■.2 细胞内分子结构测定■◆■★:从溶液内(in vitro)到细胞内(in situ)
图4 利用衬度分离方法得到对称失配情形下的病毒颗粒结构(a)外部的衣壳结构;(b)内部的基因组结构
(1)通过例如降噪、反衬增强、边缘算子等图像形态学方法搜索区域◆◆★,基于数字图像处理学的原理◆■★★,将颗粒图像与背景分离开来★◆◆■★。
经过多年的发展◆◆■,目前冷冻电镜的数据处理部分主要包含了以下的流程(图3):
总之,FSC 曲线等标准提供的分辨率是一个有指导意义的数字,不可作为绝对参考来评价所获得的模型质量,需要批判地对待,尤其是要与生物分子系统的生物化学知识相结合。
二维颗粒图像的分类是获取三维结构过程的第一步。对二维图像的分析包括两部分:颗粒图像的匹配和颗粒图像的分类。
二维图像分析的目的是■◆,首先通过图像匹配消除旋转和平移的误差,利用类内紧致★■◆◆、类间离散的原则进行图像分类■★,最终可以对类内颗粒图像进行平均■■★■,提高信噪比,从而实现对高分辨率三维结构的构建。
匹配的过程通常会对颗粒图像应用一些变换操作,通过关联函数去判断不同颗粒图像之间的相似程度■◆■■★■。图像匹配的算法主要分为两种,即不依赖模型的方法和基于模型的方法,取决于是否存在利用样本先验信息得到的模板■★★◆。
图像处理软件的发展对冷冻电镜单颗粒重构技术极其重要,当前广泛使用的电镜分析软件系统主要包括SPIDER,EMAN2, FREALIGN,SPARX■★,RELION等。对于刚刚接触单颗粒重构技术的人来说◆■,更偏好集成的软件套装来完成整个分析流程。我们在表1 中列出了大部分主流的综合冷冻电镜图像处理软件,以供参考。
人们开始不满足于近原子级别分辨率能够提供的信息,想要进一步刻画分子结构连续变化的状态。得益于冷冻电镜的成像特性■★,相对其他技术而言◆■,冷冻电镜技术在时间尺度的系综上具有优势★◆。在冷冻电镜下分子结构的动力学研究中,有两个值得关注的趋势■◆★,分别是能够获取分子结构“ 慢★■◆◆★◆” 反应过程(10—1000 ms) 时间分辨(time-resolved)的冷冻电镜技术,以及能够分析出连续构象变化的分类算法◆★★■◆。获取短期反应过程(10—1000 ms)分子结构的基础是在准备样本过程中分子反应的速度慢于冷冻样本的时间,目前混合喷雾(mixing-spraying)等快速冷冻技术的实现使得一些较慢的反应过程可以看到动力学变化。而流形嵌入算法在分类过程中取得突破,在更好地利用冷冻电镜观察分子的平衡态结构动力学变化和展现自由能景观上取得了令人鼓舞的成果。
图1 冷冻电镜技术和单颗粒重构技术越来越备受关注(统计数据来源于EMDataBank )(a)不同年份中利用冷冻电镜单颗粒重构技术能够达到的最高分辨率;(b)通过冷冻电镜技术进行的研究成果在不同杂志上发表的论文数
电镜可以用来做断层成像(cryogenic computed tomography,cryo-CT),应用于亚细胞层面的研究,比如细胞器的结构,蛋白质分子的分布■★,以及一些细胞骨架的构成。与超低温样品操作结合■★◆■◆★,cryo-CT 可以提供更高分辨率的信息,衔接分子层面和细胞层面的知识,对于了解细胞功能至关重要。在电镜成像研究领域■◆★,这将是一个有广阔前景的课题。
自然界的分子过程通常是连续的,比如三磷酸腺苷(ATP)合成酶等分子结构的状态变化通常都是连续的★★★◆。现有的方法只能得到有限的★★■★■、若干个离散的构象变化,限制了我们对于分子结构的进一步观察。而流形嵌入法则是通过将颗粒图像映射到具有特定拓扑结构的参数空间(manifold space),可以分辨出更为细致的动力学变化,进而实现对生物分子连续的结构变化过程的研究。Ali Dashti 等人已经利用这种方法成功刻画出核糖体的结构变化路径★★。
由于膜蛋白是镶嵌在磷脂分子构成的细胞膜内★◆◆,目前在冷冻电镜领域的样品制备还没有很好的处理方法,因此还很少见到对膜蛋白的结构解析◆■■■■。随着技术的发展,新的试剂分子或者纳米尺度的容器可以用来制备单一性很高的稳定的细胞膜以及镶嵌在内的膜蛋白◆■★■。这样就可以利用冷冻电镜的方法对膜蛋白进行结构研究。目前在纳米盘(nanodiscs)的研究领域已经取得了一定的进展,对
最近的研究成果显示,最大似然估计算法能够更好更快地完成三维重构,多伦多大学的Marcus A。 Brubaker 教授针对最大似然估计算法提出了优化,有效地缩短了三维重构所需的时间。对传统迭代算法极度依赖于初始模型结构的缺点进行改进,同时通过采样优化的方式降低了计算量,减少计算时间★■,据称这些优化可以达到100000倍的加速,利用一台计算机工作站在一天内就能完成模型重构◆★★◆★。
在此,我们转发《物理》杂志的《冷冻电镜单颗粒技术的发展、现状与未来》一文,供读者了解相关研究情况。
冷冻电镜对更为复杂的结构并没有很好的处理方式,在一些分子量比较大,包含多层的病毒结构研究中,一直没有高分辨率的三维模型,这也是由于病毒普遍具有对称失配的特性,基因结构被壳体完全覆盖★◆★,无法通过二维图形处理的方式对内部结构直接进行重构。刘红荣教授通过改进衬度分离方法展示出了解决该类问题的途径,其发展的新方法已经成功应用在一个多面体衣壳NCPV的病毒颗粒(图4)上,通过该重构方法,使得外部的衣壳结构(图4(a))和内部的基因组结构(图4(b))分离■■,成功得到包含在内部的dsRNA 近原子级高分辨率结构和分布。
冷冻电子显微镜技术已经发展成为一个成熟的方法■■★,应用于各种复杂的生物分子体系的高分辨结构研究。按照目前的发展势头,解决生物分子结构组(structural proteome)的问题已经不是遥不可及的了★■◆。在解决单一静态结构的基础上,冷冻电镜也展示了其研究多构象体系的潜力。下面对冷冻电镜在结构生物学研究领域的应用做一些大胆的展望★★◆,希望能抛砖引玉。
(3)高精度甚至是近原子级别的分子结构分辨率可以达到4 ? 以下。在高分辨率的三维结构中■◆◆◆★★,可以准确地看见如α肽链等的二级蛋白质结构以及部分单独的残基,多肽链的结构变得清晰起来★◆◆■◆■。同时高分辨率的分子结构可以描述精确的构象变化★★◆★◆◆。
在未来的研究中★◆★★■,关注点是减少计算的耗时和增加准确度★■◆★★。通用图形处理器(GPU)的应用和CUDA 编程框架已经显示出了在高性能计算领域的威力,研究表明GPU 技术可以显著减少计算时间,而RELION 也将发布支持GPU 计算的2★■■◆★.0 版本。