精准预测蛋白质结构解开生命密码的钥匙

百姓健康频道 2024-05-13 15:47:03

使用AlphaFold 3进行生物分子相互作用的精确结构预测

摘要:AlphaFold 2的问世为蛋白质及其相互作用的结构建模带来了革命性的变化,极大地拓展了蛋白质建模和设计的应用范围。本文详细介绍了我们研发的AlphaFold 3模型,该模型采用了经过显著改进的基于扩散的架构,能够全面预测蛋白质、核酸、小分子、离子以及修饰残基等组成的复合物结构。相较于以往的专业工具,AlphaFold 3在多个关键领域展现了显著的准确性提升:在蛋白质与配体相互作用的预测上,其准确性显著超越了现有的对接工具;在蛋白质与核酸相互作用的预测上,其准确性也远高于专业的核酸预测器;同时,在抗体与抗原相互作用的预测上,其准确性同样显著优于AlphaFold-Multimer v2.3模型。这些成果共同证明了,在统一的深度学习框架下,实现跨生物分子空间的高精度建模是完全可行的。

背景介绍

生物复合物的精确模型对于深入理解细胞功能和设计治疗剂具有关键意义2-4,9。AlphaFold技术的进步已经显著推动了蛋白质结构预测领域的发展1,随后众多方法在AlphaFold的基础上进一步发展,这些方法均继承了AlphaFold的核心思想和技术10-12。AlphaFold发布之初,通过简单的输入调整,便能够以惊人的准确度预测蛋白质间的相互作用13-15,特别是为蛋白质相互作用预测专门训练的AlphaFold 2,已经形成了一个高精确度的系统7。

这些成就引出了一个问题:我们是否能够在深度学习框架内,准确预测包含更广泛类型生物分子的复合物结构,例如配体、离子、核酸和修饰残基。尽管已经开发出多种针对特定相互作用类型的预测器16-28,以及一种与本研究同步发展的通用方法29,但这些基于深度学习的尝试在准确性上表现不一,通常低于基于物理的方法30,31。此外,这些方法大多专注于特定类型的相互作用,难以预测包含多种实体的一般性生物分子复合物结构。

在本研究中,我们介绍了AlphaFold 3 (AF3),这是一个能够以高精度预测几乎所有Protein Data Bank(PDB)32中分子类型的复合物模型(见图1a,b)。在几乎所有类别中,AF3的表现均显著优于针对特定任务设计的强有力方法(见图1c, 扩展数据表1),包括在蛋白质结构和蛋白质-蛋白质相互作用结构方面的更高精度。

图1:AlphaFold 3准确预测生物分子复合物结构的能力。a,使用AF3预测的结构示例:与DNA和cGMP结合的细菌CRP/FNR家族转录调节蛋白(PDB ID 7PZB,完整复合物的局部距离差异测试LDDT33: 82.8, 全局距离测试GDT: 90.1)。b,使用AF3预测的结构示例:人冠状病毒OC43的刺突蛋白,含有4665个残基,大量糖基化并被中和抗体结合(PDB ID 7PNM,完整复合物的LDDT: 83.0, GDT: 83.1)。c,在PoseBusters(V1, 2023年8月发布)、我们最近的PDB评估集和CASP15 RNA上的性能。性能指标包括配体和共价修饰的口袋对齐配体的均方根偏差RMSD小于2Å的百分比,蛋白质-核酸复合物的界面LDDT,核酸和蛋白质单体的LDDT,以及蛋白质-蛋白质和蛋白质-抗体界面的DockQ大于0.23的百分比。所有分数均取自5个模型种子(每个种子有5个扩散样本)中排名最高的置信度样本,除了蛋白质-抗体分数,这些分数是基于两个模型(每个AF3种子有5个扩散样本)的1000个模型种子进行排名的。详见方法部分以了解采样和排名的详细信息。对于配体,N代表目标数量;对于核酸,N代表结构数量;对于修饰,N代表簇;对于蛋白质,N代表簇。条形高度表示平均值;***表示p < 0.001,**表示p < 0.01。P值(从左到右):2.27 * 10^-13, 2.57 * 10^-3, 2.78 * 10^-3, 7.28 * 10^-12, 1.81 * 10^-18, 6.54 * 10^-5, 和 1.74 * 10^-34。d, AF3的推断架构。矩形代表处理模块,箭头指示数据流向。黄色代表输入数据,蓝色代表抽象网络激活,绿色代表输出数据。彩色球体代表物理原子坐标。

这是通过AlphaFold 2架构和训练程序的重大演化实现的(见图1d),这两者都旨在适应更广泛的化学结构并提高数据处理的学习效率。该系统通过采用更简洁的Pairformer模块替代AlphaFold 2的Evoformer,减少了多序列比对(MSA)的处理需求(见图2a)。此外,它直接利用Diffusion Module来预测原始原子坐标,取代了AlphaFold 2的Structure Module,后者操作基于氨基酸的特定框架和侧链扭转角(见图2b)。扩散过程的多尺度特性——低噪声水平促使网络改进局部结构——还允许我们省去了立体化学损失,并在网络中轻松集成任意化学组分,从而避免了对键合模式的大部分特殊处理。

网络架构和训练

AlphaFold 3(AF3)的整体架构(参见图1d及补充方法3)与AlphaFold 2保持了一致性,其核心是一个主体干,该主体干演化出用于表示化学复合物的成对表示,随后是一个结构模块,该模块利用成对表示来明确地生成原子位置。然而,每个主要组件都经历了显著的改进。这些改进的动机在于两个方面:一是能够容纳多样化的化学实体而无需复杂的特殊化处理,二是对AlphaFold 2在不同修饰下的性能观察。在主体干内部,多序列比对(MSA)的处理得到了大幅度简化,MSA嵌入块变得更紧凑、更高效(参见补充方法3.3)。与AlphaFold 2中的原始Evoformer相比,处理块的数量减少,MSA表示的处理采用了一种成本效益高的成对加权平均方法,并且仅使用成对表示进行后续处理步骤。"Pairformer"模块(参见图2a及补充方法3.6)取代了AlphaFold 2中的"Evoformer",成为主要的处理单元。它仅在成对表示和单一表示上操作;MSA表示不再保留,所有信息都通过成对表示传递。成对处理和处理块的数量(48个)基本与AlphaFold 2保持一致。生成的成对和单一表示与输入表示一同传递给新的Diffusion Module(参见图2b),该模块取代了AlphaFold 2中的Structure Module。

图2:架构和训练的细节。a, Pairformer模块的输入和输出包括具有维度(n, n, c)的成对表示和具有维度(n, c)的单一表示,其中n代表标记数量(聚合物残基和原子),c代表通道数量(成对表示为128,单一表示为384)。每个48个块都配备一套独立的可训练参数。b, Diffusion模块的输入是粗略数组,描述每个标记的表示(绿色:输入,蓝色:成对,红色:单一)。精细数组描述每个原子的表示,彩色球体代表物理原子坐标。c, 训练设置从网络主干的末端开始,彩色数组表示来自网络主干的激活(绿色:输入,蓝色:成对,红色:单一)。蓝色箭头表示抽象激活数组,黄色箭头表示地面真实数据,绿色箭头表示预测数据。停止标志用于停止梯度操作。图中展示的两个Diffusion模块共享权重。d, 初始训练和微调阶段的训练曲线,展示了在评估集上的LDDT作为优化器步骤的函数。散点图显示原始数据点,曲线表示使用9个数据点的核宽度中值滤波器平滑后的性能。交叉标记指示平滑性能首次达到初始训练最大值97%的点。

Diffusion Module(参见图2b及补充方法3.7)直接在原始原子坐标上操作,采用一个粗略的抽象标记表示,无需旋转框架或等变处理。我们在AlphaFold 2中观察到,去除Structure Module的大部分复杂性对预测准确性的影响有限,同时保持骨架框架和侧链扭转角表示对于一般分子图的构建增加了不必要的复杂性。此外,AlphaFold 2在训练期间需要精细调整立体化学违规惩罚,以确保生成结构的化学合理性。我们采用了一种标准的扩散方法,其中扩散模型被训练接收“噪声”原子坐标,并预测真实坐标。这一任务要求网络在不同长度尺度上学习蛋白质结构,小噪声去噪任务强调了对局部立体化学的深刻理解,而大噪声去噪任务则强调了对系统整体结构的把握。在推理阶段,通过随机采样噪声并循环去噪来产生最终结构。值得注意的是,这是一种生成性训练过程,它为每个问题生成了一系列可能的答案。这意味着,即使网络对某些位置不确定,局部结构(例如侧链键合几何)也将被清晰定义。因此,我们避免了使用基于扭转角的残基参数化和结构上的违规损失,同时处理了一般配体的全部复杂性。与最近一些研究一致,我们发现在架构中无需考虑全局旋转和平移的不变性或等变性,因此我们选择省略这些特性以简化机器学习架构。

使用生成性扩散方法虽然带来了一些技术挑战,但我们已找到了解决方案。最主要的挑战是生成性模型可能会产生幻觉,即在无结构区域创造出看似合理的结构。为了对抗这一效应,我们采用了一种创新的交叉蒸馏方法,通过在训练数据中加入AlphaFold-Multimer v2.3预测的结构来丰富数据集。在这些结构中,无序区域通常以长延伸环而非紧凑结构的形式表示,训练模型以模仿这种行为。这种交叉蒸馏显著降低了AF3的幻觉行为,如扩展数据图1中CAID 237基准集的无序预测结果所示。

我们还开发了置信度量,用以评估最终结构中可能存在的原子级和成对错误。在AlphaFold 2中,这是通过在训练期间回归Structure Module输出中的错误直接完成的。然而,由于完整的结构生成训练过程的不可行,我们开发了一种扩散“展开”程序,用于训练期间的完整结构预测生成(使用比常规更大的步长;参见图2c中的“迷你展开”)。然后利用这个预测结构来对齐对称的地面真实链和配体,并计算性能指标以训练置信度头部。置信度头部使用成对表示来预测局部距离差异测试(pLDDT)和预测的对齐误差(PAE)矩阵,以及距离误差矩阵(PDE),这是预测结构与真实结构距离矩阵之间的误差(更多详细信息见补充方法4.3)。

图2d展示了在初始训练阶段,模型迅速掌握了局部结构的预测(所有链内度量迅速提升,并在前20k训练步骤内达到了最大性能的97%),而学习全局构型则需要更长的时间(界面度量提升较慢,蛋白质-蛋白质界面LDDT直到60k步骤后才达到97%的里程碑)。在AF3的开发过程中,我们注意到一些模型能力很早就达到了顶峰并开始下降(很可能是由于训练样本数量有限导致的过拟合),而其他能力仍然训练不足。我们通过调整相应训练集的采样概率以及使用加权平均值提前停止所有上述指标和一些额外指标来选择最佳模型检查点。较大的裁剪尺寸的微调阶段在所有指标上都改进了模型性能,特别是在蛋白质-蛋白质界面上。

准确度跨越复合体类型

AlphaFold 3(AF3)能够基于输入的聚合物序列、残基修饰以及配体SMILES来预测结构。在图3中,我们展示了一系列预测复合物的示例,这些示例突显了模型在推广至多种生物学重要性和治疗相关性模态方面的卓越能力。在选择这些示例时,我们特别考虑了它们在个体链和界面上与训练集的相似性方面的新颖性(详细讨论见补充方法8.1)。

图3:预测复合物的示例(AF3所预测的结构。图中,预测的蛋白质链以蓝色显示,抗体以绿色显示,配体和糖基以橙色显示, RNA以紫色显示,而真实结构则以灰色显示。)a,包含7663个残基的人类40S小核糖体亚基,它与18S核糖体RNA和Met-tRNAiMet(以不透明的紫色表示)以及翻译起始因子eIF1A和eIF5B(以不透明的蓝色表示)形成复合物(PDB ID 7TQL,完整复合物的局部距离差异测试LDDT: 87.7, 全局距离测试GDT: 86.9)。b, 糖基化的EXTL3二聚体的球形部分(PDB ID 7AU2,平均口袋对齐RMSD: 1.10 Å)。c, Mesothelin C末端肽与单克隆抗体15B6结合的复合物(PDB ID 7U8C,DockQ: 0.85)。d,临床阶段抑制剂LGK974与PORCN结合的复合物以及与WNT3A肽的结合(PDB ID 7URD,配体RMSD 1.00 Å)。e, (5S,6S)-O7-硫酸DADH与AziU3/U2复合物结合,展现出新的折叠(PDB ID 7WUX,配体RMSD 1.92 Å)。f, NIH-12848的类似物结合到PI5P4Kγ的变构位点(PDB ID 7QIE,配体RMSD 0.37 Å)。

我们在每个复合体类型的最新一代界面特定基准测试上评估了AF3的性能(见图1c及扩展数据表1)。蛋白质-配体界面的性能在PoseBusters基准集上进行了评估,该基准集包含2021年或之后发布到PDB的428个蛋白质-配体结构。由于我们的标准训练截止日期是2021年,我们训练了一个单独的AF3模型,使用了更早的训练集截止日期(具体方法详见方法部分)。PoseBusters集的准确性定义为口袋对齐配体RMSD小于2Å的蛋白质-配体对的百分比。基线模型被分为两类:一类仅使用蛋白质序列和配体SMILES作为输入,另一类则额外泄露了已解决的蛋白质-配体测试结构信息。尽管在现实世界的应用案例中这些信息不可用,但传统的对接方法仍使用这些特权信息。即便如此,AF3在不使用任何结构输入的情况下,其性能也大大超过了经典的对接工具,如Vina(Fisher精确p=2.27 * 10^-13),并且显著优于所有其他真正的盲目对接工具,如Rosetta All-Atom(p=4.45 * 10^-25)。扩展数据图3展示了三个由AF3准确预测,而对接工具Vina和Gold未能实现的示例。PoseBusters分析使用的是2019-09-30的训练截止日期进行的AF3训练,以确保模型没有在任何PoseBusters结构上进行训练。为了与RoseTTAFold All-Atom的结果进行比较,我们使用了PoseBusters版本1。版本2的结果(从基准集中移除晶体接触)包括了显示在扩展数据图4b-f和扩展数据表1中的质量指标。我们采用了多个种子以确保正确的手性并避免轻微的蛋白质-配体碰撞(与使用扩散引导来强制执行的方法不同),但通常能够产生高质量的立体化学。此外,我们还训练了一个接收“口袋信息”的AF3版本,这是一些最近深度学习工作所采用的方法(见扩展数据图4a中的结果)。

AF3在预测蛋白质-核酸复合体和RNA结构方面的准确性超过了RoseTTAFold2NA(见图1c的第二个图)。由于RoseTTAFold2NA只在1000个残基以下的结构上进行了验证,我们在这一比较中仅使用了我们最近的PDB评估集中1000个残基以下的结构(具体方法详见方法部分)。AF3能够预测包含数千个残基的蛋白质-核酸结构,一个例子展示在图3a中。请注意,我们没有直接与RoseTTAFold All-Atom进行比较,但基准测试表明RoseTTAFold All-Atom在核酸预测方面的准确性与RoseTTAFold2NA相当或略低。我们在10个公开可用的CASP15 RNA目标上评估了AF3的性能:在与RoseTTAFold2NA和AIchemy_RNA(CASP15中表现最佳的基于AI的提交)的共同子集上,我们实现了更高的平均性能(详细结果见扩展数据图5a)。我们未能达到最佳人类专家辅助CASP15提交AIchemy_RNA的性能(见图1c,中心左侧)。由于数据集规模有限,我们在这里不报告显著性测试统计数据。预测单独核酸(不含蛋白质)的准确性的进一步分析显示在扩展数据图5b中。

共价修饰(包括共价配体、糖基化、修饰的蛋白质残基以及核酸碱基)也通过AF3被准确预测(见图1c,中间右侧)。修饰涵盖了对任何聚合物残基(蛋白质、RNA或DNA)的化学改变。我们报告的准确性是基于成功预测的百分比(口袋RMSD < 2Å)。我们对共价配体和糖基化数据集应用了质量过滤器(与PoseBusters相同):仅包括具有高质量实验数据的配体(根据RCSB结构验证报告,ranking_model_fit > 0.5,即模型质量高于中位数的X射线结构)。与PoseBusters集相似,共价配体和糖基化数据集没有根据与训练数据集的同源性进行过滤。基于结合的聚合物链同源性(使用聚合物模板相似性 < 40%)的过滤仅产生了共价配体的5个簇和糖基化的7个簇。我们在这里排除了多残基糖苷,因为RCSB验证报告没有为它们提供ranking_model_fit值。所有质量实验数据上多残基糖苷的成功预测百分比(口袋RMSD < 2Å)为42.1%(N=131个簇),略低于所有质量实验数据上单残基糖苷的成功预测率46.1%(N=167)。修饰残基数据集的过滤与我们其他聚合物测试集类似:仅包含在与训练集同源性低的聚合物链中的修饰残基(具体方法详见方法部分)。详细结果请参见扩展数据表1;扩展数据图6展示了预测的蛋白质、DNA和RNA结构的示例,其中包括共价修饰,以及磷酸化对预测影响的分析。

尽管AF3在建模能力上有所扩展,但与AlphaFold-Multimer v2.3相比,它在蛋白质复合体准确性方面也展现了提升。总体上,蛋白质-蛋白质预测成功率(DockQ > 0.23)有所提高(配对Wilcoxon符号秩检验,p=1.8 * 10^-18),特别是在抗体-蛋白质相互作用预测方面,改进尤为显著(见图1c右侧,配对Wilcoxon符号秩检验,p=6.5 * 10^-5,预测排名前1000而非典型的5个种子,详细结果见图5a)。蛋白质单体LDDT的改进同样显而易见(配对Wilcoxon符号秩检验,p=1.7 * 10^-34)。AF3对MSA深度的依赖性与AF-M 2.3非常相似;具有浅MSA的蛋白质预测准确度较低(见扩展数据图7a,比较单链LDDT对MSA深度的依赖性)。

预测置信度与准确性相符

与AlphaFold 2相似,AlphaFold 3的置信度量与预测准确性之间呈现出良好的校准关系。我们的置信度分析是基于最近的PDB评估集进行的,该集合未经过同源性过滤,并涵盖了肽类结构。配体类别经过筛选,仅保留了如上文所述的高质量实验结构,并且仅限于考虑标准非共价配体。共价配体和其他界面的类似评估详见扩展数据图8。所有统计数据均采用簇权重法进行加权处理(具体方法细节见方法部分),同时仅考虑了排名最高的预测结果(有关排名的详细信息见补充方法5.9.3)。

在图4a的顶部一行中,我们展示了链对ipTM(界面预测TM分数,见补充方法5.9.1)与多种界面准确性度量之间的关系:包括蛋白质-蛋白质的DockQ分数、蛋白质-核酸的iLDDT分数,以及蛋白质-配体的成功率,后者定义为口袋对齐RMSD值低于特定阈值的预测实例的百分比。在图4a的底部一行中,我们展示了每个蛋白质、核苷酸或配体实体的平均pLDDT分数与定制的LDDT_to_polymer度量之间的关系,该度量与pLDDT预测器的训练目标高度相关(度量细节见方法部分)。

图4:AlphaFold 3置信度与准确性的相关性。a,(上)蛋白质界面准确性与链对ipTM分数的函数关系。a(下)不同链类型的LDDT_to_polymer准确性与链平均pLDDT分数的函数关系。图中的框、中心线和须边界分别表示第25百分位至第75百分位区间、中位数和第5百分位至第95百分位区间。b, PDB ID 7T82的预测结构,颜色根据pLDDT分数进行着色(橙:0-50,黄:50-70,青:70-90,蓝:90-100)。c,相同预测的不同链着色。d,蛋白质-蛋白质界面的DockQ分数。e,预测的对齐误差(PAE)矩阵,颜色深浅表示置信度高低,带有按链着色显示的侧边栏。图中的虚线黑线表示链的边界。

在图4b-e中,我们特别展示了PDB ID 7T82的一个单独预测示例,其中每个原子的pLDDT分数通过颜色编码揭示了不确定的链尾部区域、一些确定的界面区域以及其他确定的二级结构元素。图4c中展示了按链着色的相同预测,图4d中的DockQ界面分数,以及每链的着色显示在轴上供参考。从图4e中可以观察到,对于DockQ > 0.7的粉红色-灰色和蓝色-橙色残基对,PAE置信度较高,而对于DockQ约0.0的粉红色-橙色和粉红色-蓝色残基对,置信度最低。扩展数据图5c-d展示了一个包含蛋白质和核酸链的示例的类似PAE分析。

模型局限性

我们认识到AlphaFold 3在立体化学、幻觉现象、动态性表现以及某些目标的准确性上存在模型局限性。

在立体化学方面,我们观察到两类违规现象。第一类是模型输出有时不遵守手性规则(见图5b),尽管模型在输入特征中接收到了正确的手性参考结构。为了解决PoseBusters基准集中的这一问题,我们在模型预测的排名公式中纳入了对立体化学违规的惩罚。尽管如此,我们仍然在基准集中记录到了4.4%的手性违规率。第二类违规是模型偶尔会生成重叠(即“碰撞”)原子。这有时表现为极端违规,整个链出现重叠现象(见图5e)。在排名过程中对碰撞进行惩罚减少了这种失败模式,但未能完全消除。几乎所有剩余的碰撞案例都出现在核苷酸超过100个、总残基数超过2,000个的蛋白质-核酸复合体中。

图5:模型局限性示例。a,随着模型种子数量增加,抗体预测质量的提升。低同源性抗体-抗原界面预测的质量随种子数量的函数变化。每个数据点代表1200个种子中用于排名的1000个随机样本(允许重复)的均值。置信区间是基于对每个数据点进行10000次重采样的簇分数,采用95%自助法计算得出。样本根据蛋白质-蛋白质ipTM分数进行排名。显著性测试采用双向Wilcoxon符号秩检验。N=65个簇。***表示p < 0.001。P值分别为2.0 * 10^-5(%正确)和0.009(%非常高的准确性)。b,Thermotoga maritima alpha-葡萄糖醛酸酶和beta-D-葡萄糖醛酸的预测结构(彩色)与实际结构(灰色),这是PoseBusters集中的一个目标(PDB ID 7CTM)。AF3错误地预测了alpha-D-葡萄糖醛酸,不同手性中心以星号标出。展示的预测是基于配体-蛋白质ipTM分数排名的,且包含了手性和碰撞惩罚。c,构象覆盖的局限性。真实结构(灰色)的cereblon展示了开放(apo,PDB ID 8CVP,左侧)和闭合(holo,与mezigdomide结合,PDB ID 8D7U,右侧)构象。apo和holo结构的预测(蓝色)均为闭合状态。虚线表示N末端Lon蛋白酶样结构域与C末端thalidomide结合域之间的距离。d,一个含有1854个未解决残基的核孔复合物(PDB ID 7F60)。真实结构(左侧)、来自AF-M 2.3(中间)和AF3(右侧)的预测结构。e,一个三核小体的预测结构(PDB ID 7PEU),其中突出显示了重叠的DNA(粉红色)和蛋白质(蓝色)链,包括重叠的蛋白质链B和J以及自重叠的DNA链AA。除非另有说明,预测是基于全局复合物排名度量进行排名的,该度量包括手性不匹配和立体冲突惩罚(见补充方法5.9.1)。

我们注意到,从非生成性的AlphaFold 2模型转换到基于扩散的AlphaFold 3模型时,面临着在无序区域(幻觉现象)中引入错误结构秩序的挑战(见图5d,扩展数据图1)。尽管幻觉区域通常被标记为低置信度,但它们可能缺乏AlphaFold 2在无序区域特有的丝带状外观。为了在AF3中鼓励丝带状预测,我们采用了基于AlphaFold 2预测的训练蒸馏技术,并且引入了一个排名术语以增加溶剂可及表面面积37。

蛋白质结构预测模型的一个关键局限性在于它们通常只能预测静态结构,而非溶液中生物分子系统的动态行为。这一局限性在AlphaFold 3中依然存在,因为模型并不产生溶液集合的近似,而是通过多个随机种子对扩散头部或整个网络进行建模。在某些情况下,模型化的构象状态可能并不准确或不全面。例如,E3泛素连接酶在apo状态下自然呈现开放构象,仅在与配体结合时才观察到封闭状态,但AF3无论是在holo还是apo系统中都倾向于预测封闭状态44(见图5c)。

为了从以前的AlphaFold模型生成多样性,已经开发了许多方法,特别是围绕MSA重新采样的方法,这些方法也可能有助于AF3中的多态预测45-47。尽管AlphaFold 3在建模准确性上取得了显著进步,但对于某些目标的准确建模仍然具有挑战性。为了获得最高的准确性,可能需要生成并排名大量的预测,这将增加额外的计算成本。我们特别观察到抗体-抗原复合体这一目标类别具有这种效果,类似于其他最近的研究工作48。图5a显示,对于AlphaFold 3,随着模型种子数量的增加,排名前的预测质量不断提高,即使在多达1000个种子的情况下也是如此(Wilcoxon符号秩检验,5个和1000个种子之间的p=2.0 * 10^-5用于%正确,p=0.009用于%非常高的准确性;按蛋白质-蛋白质界面ipTM排名)。对于其他类别的分子,通常不会观察到使用更多种子所带来的这种显著改进(见扩展数据图7b)。使用每个模型种子的一个扩散样本而不是五个(未展示)进行AF3预测,结果没有显著变化,这表明为了提高抗体得分,运行更多的模型种子是必要的,而不仅仅是增加更多的扩散样本。

讨论

分子生物学的核心挑战在于理解和最终调控生物系统中复杂的原子级相互作用。AlphaFold 3模型在这一领域取得了显著进展,证明了在统一框架下准确预测多样化生物分子系统结构的可行性。尽管在所有相互作用类型上实现高度准确预测仍面临重大挑战,但我们成功展示了构建一个深度学习系统的可能性,该系统对这些相互作用展现出强大的覆盖范围和泛化能力。我们还证实了缺乏跨不同实体的进化信息并不是预测这些相互作用的一个实质性障碍。特别值得一提的是,抗体预测结果的显著提升表明,AlphaFold 衍生的方法能够在不依赖多序列比对(MSA)的情况下,对分子相互作用的化学和物理学特性进行有效建模。

综上所述,蛋白质-配体结构预测的显著改进揭示了在通用深度学习框架内处理化学空间广泛多样性的可能性,从而避免了在蛋白质结构预测和配体对接之间进行人为划分的必要性。

自下而上的细胞组分建模是揭示细胞内分子调控复杂性的关键步骤。AlphaFold 3所展现的性能表明,正确的深度学习框架的开发可以显著减少实现生物学相关性能所需的数据量,并扩大已有数据的影响力。我们预期,结构建模领域的进步不仅源于深度学习技术的不断发展,而且得益于实验结构测定方法的革新,如冷冻电镜和断层扫描技术的显著改进,这些进展将带来大量新的训练数据,进一步增强这些模型的泛化能力。实验与计算方法的协同进步,预示着我们即将迈入一个由结构信息驱动的生物理解和治疗开发新时代。

附:研发方法完整的算法细节在补充方法2~5中,对各个组件提供了详尽的解释。此外,补充算法1~31中包含了相应的伪代码,而网络图则展示在图1d、图2a、b、c以及补充图2中。输入特征的具体信息可在补充表5中找到,而训练过程中使用的额外超参数则详细记录在补充表3、4、7中。

训练制度训练过程中使用的结构数据均发布于2021年9月30日之前。特别地,对于PoseBusters评估所用的模型,我们排除了2019年9月30日之后发布的PDB结构。优化器的每个步骤基于256个输入数据样本的小批量进行,而在初始训练阶段,我们采用了12,288个扩散样本。在微调阶段,扩散样本数量减少至8,192。模型的训练分为三个阶段:初始训练使用384个标记的裁剪尺寸,随后是两个连续的微调阶段,裁剪尺寸分别增至640和768个标记。更多细节请参见补充方法5.2。

推断制度在推断阶段,未使用发布日期晚于2021年9月30日的模板或参考配体位置特征。对于PoseBusters评估,采用了更早的截止日期,即2019年9月30日。模型可以结合不同的随机种子运行,以产生多种替代结果,每个种子生成一批扩散样本。除非另有说明,所有展示的结果均基于选择5个相同训练模型的种子(每个种子5个扩散样本)中排名最高的置信度样本,共有25个样本可供选择。预测中的标准结晶助剂已排除(见补充表8)。结果的展示基于排名最高的样本,这取决于是选择全局最佳输出还是特定链、界面或修饰残基的最佳输出。全局排名采用了pTM和ipTM的混合方法,并引入了减少冲突和增加无序率的术语。个别链排名使用特定链的pTM度量,界面排名使用相关链对的定制ipTM度量,修饰残基排名则使用感兴趣残基上的平均pLDDT(排名细节见补充方法5.9.3)。

指标评估指标通过比较预测结构与相应真实结构来确定。对于包含多个相同实体的复合体,通过最大化LDDT来确定预测单元与真实单元的最佳匹配。配体中原子的局部对称群分配通过穷举搜索解决,该搜索基于RDKit提供的每个残基的前1000个对称性。预测质量的衡量采用DockQ、LDDT或口袋对齐RMSD。对于核酸-蛋白质界面,通过界面LDDT(iLDDT)来衡量界面准确性,这是基于不同链中界面上原子间距离的计算得出的。DockQ和iLDDT高度相关(见扩展数据图9),因此DockQ的标准截止值可以转换为等效的iLDDT截止值。核酸LDDTs(链内和界面)的计算采用了30Å的包含半径,相较于通常用于蛋白质的15Å,这是因为核酸的规模更大。对于置信度校准评估,使用了定制的LDDT度量“LDDT_to_polymer”,它考虑了给定实体的每个原子与包含半径内任何Cα或C1'聚合体原子的差异。这与置信度预测的训练方式密切相关(详细信息见补充方法4.3.1)。口袋对齐RMSD的计算定义为:口袋是与配体任何重原子在10Å内的所有重原子,限制在配体或修饰残基的初级聚合物链上,并进一步限制为仅蛋白质的主链原子。口袋用于通过最小二乘刚性对齐将预测结构与真实结构对齐,然后计算配体所有重原子的RMSD。

最近的PDB评估集一般模型评估基于我们最近的PDB集进行,该集包含2022年5月1日至2023年1月12日之间发布的8,856个PDB复合物。该集几乎包含了该期间发布的所有小于5,120个模型标记大小的PDB复合物(更多细节见补充方法6.1)。每个结构中的单链和界面分别进行评分,而非仅考虑完整复合物的分数。然后对链和界面应用聚类,以便首先在聚类内部聚合分数,然后跨聚类进行平均分数,或使用倒数聚体大小的权重进行分布统计(详细信息见补充方法6.2和6.4)。

对配体的评估排除了标准结晶助剂(补充表8)、我们的配体排除列表(补充表9)和糖苷(补充表10)。共价和非共价配体被分别评估。离子只在特定情况下包括(见补充表11)。

最近PDB集被进一步过滤为低同源性子集(见补充方法6.1),这在某些结果中有所说明。同源性定义为与训练集中序列的序列一致性,并通过模板搜索进行测量(详细信息见补充方法2.4)。如果评估复合物中的单个聚合物链与训练集中的链的最大序列一致性超过40%,则该聚合物链被过滤掉。单个肽链(少于16个残基的蛋白质链)总是被过滤掉。对于肽的界面,如果两个聚合物都与训练集中的同一复合物中的两个链有超过40%的序列一致性,则该界面被过滤掉。对于与肽的界面,如果非肽实体与训练集中的任何链有超过40%的序列一致性,则该界面被过滤掉。

为了比较蛋白质-蛋白质界面和蛋白质单体预测质量与AlphaFold-Multimer v2.3 (AF-M 2.38)的质量,以及比较单个蛋白质链预测质量与MSA深度的依赖性,我们将低同源性最近的PDB集限制为少于20个蛋白质链和少于2,560个标记的复合物。我们与未放松的AF-M 2.3预测进行了比较。

为了研究抗体-抗原界面预测,我们将低同源性最近的PDB集过滤为至少包含一个蛋白质-蛋白质界面的复合物,其中一个蛋白质链是PDB链簇中两个最大的之一(这些簇代表抗体)。我们进一步过滤到最多有2,560个标记的复合物,并且PDB中没有未知氨基酸,以允许与AlphaFold-Multimer v2.3的放松预测进行广泛比较。最终剩下71个抗体-抗原复合物,包含166个抗体-抗原界面,跨越65个界面簇。

MSA深度分析(见扩展数据图7a)基于计算查询序列每个位置的有效序列数(Neff)的归一化值。每个残基的Neff值是通过计算MSA中该位置的非间隙残基数,并使用Neff方案加权序列获得的,该方案在任一序列的非间隙区域上测量80%的序列一致性阈值。

核酸预测基线为了在核酸结构预测上建立性能基准,我们报告了与现有的蛋白质-核酸和RNA三级结构预测机器学习系统RoseTTAFold2NA的比较结果。我们使用相同的多序列比对(MSAs)运行了开源的RF2NA,这些比对也用于AlphaFold3预测。对于AlphaFold3和RF2NA之间的比较,我们选择了最近PDB集的一个子集,以满足RF2NA的标准(总残基数和核苷酸数小于1000)。由于RF2NA未被训练来预测含有DNA和RNA的系统,分析仅限于只有一个核酸类型的靶标。在本文撰写时,没有公开可用的系统能够在PDB中对具有任意组合的生物分子类型的数据进行基准比较。

作为RNA三级结构预测的额外基线,我们在CASP15 RNA目标上评估了AlphaFold3的性能,这些目标目前公开可用(R1116/8S95, R1117/8FZA, R1126(从CASP 15网站下载 https://predictioncenter.org/casp15/TARGETS_PDB/R1126.pdb),R1128/8BTZ, R1136/7ZJ4, R1138/[7PTK/7PTL], R1189/7YR7, 和 R1190/7YR6)。我们比较了排名靠前的预测,并且在存在多个真实结构的情况下(R1136),预测是针对最接近的状态进行评分的。我们展示了与RF2NA的比较,作为代表性的机器学习系统,AIchemy_RNA2作为具有人类干预的最佳表现参与者,以及AIchemy_RNA作为最佳表现的机器学习系统。所有参与者的预测都是从CASP网站下载并内部评分的。

PoseBusters分析说明我们的PoseBusters分析与常规分析有所不同,尽管其他分析可能使用了截至2021年9月30日的AlphaFold模型进行训练,但我们的分析所用的模型在架构和训练计划上保持一致,仅在训练数据的截止日期上有所区别,即仅使用了2019年9月30日之前的结构数据。因此,本分析不涵盖该日期之后发布的任何训练数据、推断时间模板或“ref_pos”特征。

在PoseBusters分析中,推断过程针对指定的PDB非对称单元进行,并进行了一些细微的调整。在几个PDB文件中,由于与研究中的配体存在冲突,一些链被移除(例如7O1T, 7PUV, 7SCW, 7WJB, 7ZXV, 8AIE)。另一个PDB结构(8F4J)由于其系统过于庞大(超过5120个残基标记),超出了推断能力,因此我们仅包括了距离配体20Å范围内的蛋白质链。每个目标生成了五个模型种子,每个种子进一步生成五个扩散样本,共计25个预测结果。这些预测根据质量和准确性进行排名,排名分数基于ipTM聚合计算得出(详见补充方法5.9.3第3点),若存在手性错误或与蛋白质发生冲突的配体,则分数会进一步除以100。

对于口袋对齐RMSD的计算,我们首先通过对真实口袋的主链原子(包括CA、C或N原子,这些原子与配体的任何重原子在10Å内)进行对齐,将预测结构与真实结构进行匹配。这些原子取自主要的蛋白质链,即那些与配体接触最为密切的链(距离在10Å内)。PoseBusters python软件包的v0.2.751版本被用于评分RMSD以及来自口袋对齐预测的违规情况。

尽管AlphaFold模型在预测蛋白质口袋时并不依赖于口袋残基的先验知识,但传统的对接方法通常在已知蛋白质口袋残基的情况下进行。例如,Uni-Mol对接方法将口袋定义为距离配体重原子6Å内的所有残基26。为了评估在给定口袋信息的情况下AlphaFold3“对接”配体的准确性,我们对截至2019年9月30日的AlphaFold3模型进行了微调,引入了一个额外的标记特征,该特征用于指定口袋-配体对(详见补充方法2.8)。具体来说,我们新增了一个标记特征,当对于感兴趣的配体实体和任何口袋残基(其重原子位于配体6Å内)时,该特征被设置为真。在训练过程中,随机选择单个配体实体用于此特征。请注意,可能会有多个具有相同实体(CCD代码)的配体链被选中。在推断阶段,配体实体是基于感兴趣配体的CCD代码进行选择的,因此有时也会选择到多个配体链。这种分析的结果在扩展数据图4中展示。

数据分析使用了Python v3.11.7(https://www.python.org/)NumPy v1.26.3(https://github.com/numpy/numpy)SciPy v1.9.3(https://www.scipy.org/)seaborn v0.12.2(https://github.com/mwaskom/seaborn)Matplotlib v3.6.1(https://github.com/matplotlib/matplotlib)pandas v2.0.3(https://github.com/pandas-dev/pandas)statsmodels v0.12.2(https://github.com/statsmodels/statsmodels)RDKit v4.3.0(https://github.com/rdkit/rdkit)Colab(https://research.google.com/colaboratory)TM-align v20190822(https://zhanglab.dcmb.med.umich.edu/TM-align/)用于计算TM分数。结构可视化是在PyMOL v2.55.5(https://github.com/schrodinger/pymol-open-source)中创建的。

数据可用性用于创建训练和评估输入的所有科学数据集都可从公共来源免费获得。用于训作为模板的结构来自PDB(https://files.wwpdb.org/pub/pdb/data/assemblies/mmCIF/; 用于序列簇参见 https://cdn.rcsb.org/resources/sequence/clusters/clusters-by-entity-40.txt; 用于序列数据参见 https://files.wwpdb.org/pub/pdb/derived_data/)。训练使用的是2023年1月12日下载的PDB版本,而模板搜索使用的是2022年9月28日下载的版本。我们还使用了在2023年10月19日下载的化学成分词典(https://www.wwpdb.org/data/ccd)。

我们还使用了以下公开可用的数据库进行训练或评估。详细使用情况描述在补充方法2.2和补充方法2.5.2中。

UniRef90 v.2020_01(https://ftp.ebi.ac.uk/pub/databases/uniprot/previous_releases/release2020_01/uniref/)UniRef90 v.2020_03(https://ftp.ebi.ac.uk/pub/databases/uniprot/previous_releases/release2020_03/uniref/)UniRef90 v.2022_05(https://ftp.ebi.ac.uk/pub/databases/uniprot/previous_releases/release-2022_05/uniref/)Uniclust30 v.2018_08(https://wwwuser.gwdg.de/~compbiol/uniclust/2018_08/)Uniclust30 v.2021_03(https://wwwuser.gwdg.de/~compbiol/uniclust/2021_03/)MGnify clusters v.2018_12(https://ftp.ebi.ac.uk/pub/databases/metagenomics/peptide_database/2018_12/)MGnify clusters v.2022_05(https://ftp.ebi.ac.uk/pub/databases/metagenomics/peptide_database/2022_05/)BFD(https://bfd.mmseqs.com)RFam v.14.9(https://ftp.ebi.ac.uk/pub/databases/Rfam/14.9/)RNAcentral v.21.0(https://ftp.ebi.ac.uk/pub/databases/RNAcentral/releases/21.0/)核苷酸数据库(截至2023年2月23日)(https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nt.gz)JASPAR 2022(https://jaspar.elixir.no/downloads/; 参见https://jaspar.elixir.no/profile-versions 了解版本信息)SELEX蛋白序列来自补充表94(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8009048/)SELEX蛋白序列来自补充表95(https://www.nature.com/articles/nature15518)

代码可用性AlphaFold3将作为一个非商业用途的服务器在https://www.alphafoldserver.com上提供,对允许的配体和共价修饰有限制。补充信息中有描述算法的伪代码。代码不提供。

原文网址:https://www.nature.com/articles/s41586-024-07487-w补充内容网址:https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-024-07487-w/MediaObjects/41586_2024_7487_MOESM1_ESM.pdf.

编辑:连翘

二审:清扬

三审:应泉

排版:半夏

0 阅读:14

百姓健康频道

简介:国家卫生健康委主管,中国健康教育中心主办的电视频道。