首页 > 资讯 > 生活 > 正文
2022-02-17 16:02

这个人工智能软件几乎预测到了Omicron的复杂结构

3D rendering of Omicron coro<em></em>navirus variant on black background

11月26日,世界卫生组织将在南非激增的冠状病毒称为“担忧的变种”,并将其命名为Omicron。第二天,英属哥伦比亚大学(University of British Columbia)教授斯利拉姆·苏布拉曼尼亚姆(Sriram Subramaniam)下载了一份发布在网上的基因组序列,并订购了欧米克隆基因的样本,送到他的实验室。

Subramaniam的团队使用电子显微镜来揭示蛋白质的3D结构,以便更好地理解它们是如何工作的。它已经绘制出了冠状病毒用于结合和进入人类细胞的刺突蛋白。描述Omicron的刺突蛋白迫在眉睫,因为其基因组的不同可能解释了该变体的快速传播。但就像那个周末在网上购物的其他人一样,苏布拉曼尼亚姆必须要有耐心:在样品收到邮件之前,他不能把Omicron蛋白质放在显微镜下。

在整个欧洲大陆,北卡罗莱纳大学夏洛特分校(University of North Carolina at Charlotte)的计算基因组学研究员科尔比·福特(Colby Ford)也一直在考虑欧米克隆的刺突蛋白。亲戚们一直在问他一个同样困扰着许多专家的问题:欧米克隆会逃避现有的疫苗吗?这些疫苗教会身体对来自早期菌株的刺突蛋白做出反应。福特没有订购实验室用品,而是尝试了一条最近发明的捷径。就在世卫组织命名为Omicron的同一天,他使用免费的人工智能软件,试图从Omicron基因组编码的氨基酸序列预测结构。

大约一个小时后,福特得到了他的第一个结果,并迅速将其发布到网上。12月初,他和两名同事发表了一篇完整的论文,现在已被接受发表,其中包括对以前菌株的一些抗体对Omicron的效力将会降低的预测。

Atomic structure of the Omicron variant spike protein  bound with the human ACE2 receptor  on offwhite background

Omicron变种刺突蛋白的原子结构(紫色)与人类ACE2受体结合(蓝色)。

由英属哥伦比亚大学Sriram Subramaniam博士提供

Subramaniam的实验室很快收到了它的Omicron基因样本,并在12月21日公布了它的显微镜观察结构和真实抗体测试结果。福特预测的两种结构中,有一种被证明是相当正确的:他计算出其中心原子的位置相差约半埃,大约是氢原子的半径。福特说:“这些工具可以让你非常迅速地做出有根据的猜测——这在像Covid这样的情况下很重要。”“随着任何新病毒的出现,其他人会复制我在这里所做的。”

在对Omicron的刺突蛋白进行实验之前,预测的速度如此之快,反映了人工智能给分子生物学带来的巨大变化。在Alphabet位于英国的人工智能实验室DeepMind和华盛顿大学(University of Washington)的竞争团队的帮助下,首个能够准确预测蛋白质结构的软件在Omicron问世前几个月才开始广泛使用。

福特使用了这两种基因包,但由于这两种基因包都没有被设计或验证用于预测像Omicron基因突变引起的小变化,所以他的结果更多的是暗示而不是确定。一些研究人员对他们持怀疑态度。但事实上,他可以很容易地用功能强大的蛋白质预测人工智能进行实验,这说明最近的突破已经改变了生物学家的工作和思考方式。

Subramaniam说,他收到了四五封电子邮件,人们在研究他的实验室结果时,提供了预测的欧米克隆峰状结构。“相当多的人这样做只是为了好玩,”他说。Subramaniam说,直接测量蛋白质结构仍将是最终的标准,但他预计人工智能预测将成为研究的中心,包括未来的疾病暴发。“这是变革性的,”他说。

“这些工具让你能够非常迅速地做出有根据的猜测——这在Covid这样的情况下非常重要。”

北卡罗莱纳大学夏洛特分校的计算遗传学研究员Colby Ford说

因为蛋白质的形状决定了它的行为,了解它的结构可以帮助各种生物学研究,从进化研究到疾病研究。在药物研究中,弄清蛋白质结构有助于揭示新治疗的潜在靶点。

确定蛋白质的结构远不是一件简单的事。它们是一种复杂的分子,由生物体基因组中编码的指令组装而成,充当酶、抗体和许多其他生命机器的角色。蛋白质是由一种叫做氨基酸的分子串组成,这些分子可以折叠成各种不同的复杂形状。

破译蛋白质的结构通常需要艰苦的实验室工作。大约20万个已知结构中的大多数都是通过一种复杂的过程绘制出来的,在这种过程中,蛋白质形成晶体,然后受到x射线的轰击。Subramaniam使用的电子显微镜等较新的技术可以更快,但这个过程仍然很不容易。

在2020年底,计算机可以从氨基酸序列预测蛋白质结构的长期希望突然变成了现实,经过几十年的缓慢进展。DeepMind名为AlphaFold的软件在一场蛋白质预测比赛中被证明是如此准确,以至于该挑战的联合创始人、马里兰大学(University of Maryland)教授约翰·莫特(John Moult)宣布问题已经解决。莫特说:“DeepMind个人在这个问题上研究了这么久,这一成就是一个非常特殊的时刻。”

这一时刻也让一些科学家感到沮丧:DeepMind没有立即公布AlphaFold如何工作的细节。去年,华盛顿大学蛋白质结构预测实验室的大卫·贝克在接受《连线》杂志采访时表示:“现在的情况很奇怪,你所在的领域已经取得了重大进展,但你却不能以此为基础。”他的研究小组使用DeepMind提供的线索来指导开源软件RoseTTAFold的设计。RoseTTAFold于今年6月发布,与AlphaFold类似,但功能不如它强大。这两种算法都是基于机器学习算法,通过对超过10万个已知结构进行训练,来预测蛋白质结构。下个月,DeepMind公布了自己的工作细节,并发布了AlphaFold供任何人使用。突然之间,世界有了两种预测蛋白质结构的方法。

贝克实验室的博士后研究员白明庆(Minkyung Baek)领导了RoseTTAFold的研究工作。她说,她对蛋白质结构预测在生物学研究中如此迅速地成为标准感到惊讶。谷歌学者报告称,华盛顿大学和DeepMind在他们的软件上发表的论文在很短的时间内一共被引用了1200多篇学术文章。

虽然预测对Covid-19的研究还没有被证明至关重要,但她认为,预测对应对未来的疾病将变得越来越重要。消除大流行的答案不会从算法中完全形成,但预测的结构可以帮助科学家制定策略。“一个预测的结构可以帮助你把你的实验努力放在最重要的问题上,”白说。她现在正试图让RoseTTAFold准确预测抗体和入侵蛋白质结合在一起时的结构,这将使该软件对传染病项目更有用。

尽管它们的表现令人印象深刻,但蛋白质预测器并不能揭示一个分子的一切。它们为蛋白质提供单一的静态结构,而不会捕捉到它与其他分子相互作用时发生的弯曲和摆动。这些算法是在已知结构的数据库上训练的,这些数据库更能反映那些最容易通过实验绘制的结构,而不是自然界的全部多样性。哥本哈根大学的Kresten Lindorff-Larsen教授预测,这些算法将被更频繁地使用,也会很有用,但他说:“作为一个领域,当这些方法失败时,我们也需要更好地学习。”

除了刺突蛋白结构,Subramaniam的Omicron论文还包括了一种人工智能尚未征服的结果——一种与人类蛋白质结合的刺突结合结构。研究结果表明,该变种的结构变化使其能够更强地与宿主细胞结合,同时也不那么容易受到以前菌株的抗体的影响,这一组合似乎可以解释为什么欧米克隆可以在高度接种疫苗的群体中泛滥。

Subramaniam说:“黄金标准永远是直接衡量。”“如果你正在建立一个价值数十亿美元的药物项目,人们想知道什么是真正的药物。”与此同时,他说他的实验工作现在经常受到人工智能预测的影响。“它改变了我们的思维方式,”Subramaniam说。