(经观东西)AI预测蛋白质结构 , 正在加快新药研发进程
中新社北京12月22日电 (采访人员 刘育英)中国初创公司深势科技近日推出蛋白结构预测工具Uni-Fold , 在中国国内首次复现谷歌Alphafold2全规模训练并开源训练、推理代码 。 深势科技创始人在接受中新社专访时表示 , 人工智能预测蛋白质结构这一突破 , 将给新药研发等领域带来新的突破 。
今年夏天 , 用人工智能预测蛋白质结构取得里程碑式进展 。 谷歌的AlphaFold2和华盛顿大学的RoseTTAFold工具 , 成功根据氨基酸序列预测了生命基本分子——蛋白质的三维结构 。 利用实验室手段可能需要数年的研究才能解析一个蛋白质结构 , 利用计算结构模型最快只需10分钟 。
预测蛋白质结构为什么重要?深势科技创始人兼首席科学家张林峰解释说 , 蛋白质是组成生命体的重要物质基础 。 不同的蛋白质通过折叠形成不同的三维结构 , 执行多种多样的生理功能 。 癌症、痴呆等几乎所有疾病 , 都与细胞内蛋白质结构变化相关 , 如果能够掌握蛋白质结构的变化 , 将对疾病的预防、治疗等带来重要影响 。
从氨基酸序列到对应蛋白质三维结构的预测问题被认为是生物学领域最具有挑战性的问题之一 。
在过去几十年的研究中 , 科学家们为探测蛋白质结构发展出三大实验手段:X射线晶体学、核磁共振和冷冻电镜 。 但实验方法成本高、周期长 。 目前人类已知有数十亿氨基酸序列 , 但还原出结构的只有十几万 。 生物学发展因此颇受掣肘 。
AI的发展为这一问题带来了新的可能 。 7月22日 , 谷歌旗下Deepmind公司在《自然》杂志发表文章称 , 基于深度学习神经网络的AlphaFold2已经预测出了35万种蛋白质结构 , 涵盖了98.5%的人类蛋白质组以及20种生物的蛋白质 , 并开源了它的数据库 。 这一结果也标志着蛋白质单体结构问题在一定程度上得到解决 。
中国公司已进入这一领域 。 张林峰说 , AlphaFold2公布了推理代码 , 但并未公布训练代码 。 意味着公布了产品 , 但未公布其“流水线” 。 而训练代码是行业中的真正壁垒 。 深势科技通过“投喂”数据 , 复现了整个训练过程 , 并开源其训练代码 。
另外 , 单一蛋白质的预测只是起点 , 深势科技希望通过分子动力学等物理模型 , 把蛋白质-蛋白质相互作用 , 蛋白质和药物分子之间的相互作用通过AI预测出来 , 这对下一步药物设计和生命科学发展都有重大意义 。
深势科技创始人兼CEO孙伟杰表示 , 深势科技对训练代码进行了开源 , 这意味着使用者能够更方便地训练和使用模型 , 降低了使用者的门槛 。
目前相应解决方案已集成至深势科技自主研发的药物设计平台Hermite , 供广大用户测试使用 。 未来 , AI预测蛋白质技术可以在几个场景落地 , 如新药研发、微尺度工业设计等 。
孙伟杰介绍 , 通常人们服用的药物大多是小分子化学药 , 它们的作用靶点大部分在蛋白质上 。 研发这类药物的一个重要前提 , 是解析蛋白质结构 。 只有绘制出人体内某些蛋白质的“三维地图” , 才能找到药物靶点 , 完成“精准制导” 。
深势科技致力于从更底层 , 用AI+物理模型+高性能计算的范式 , 去求解药物设计里很多通用问题 。
如何验证AI预测是否准确?孙伟杰说 , AI预测与冷冻电镜是互为协同关系 , 一部分AI预测的结果要通过冷冻电镜来验证 , 同时 ,AI数据集的不断增加 , 模型不断的训练和演化 , 以及实验手段和模拟手段的结合 , 是一个共同发展和相辅相成的过程 。 AI无法代替科学家的智慧 , 但能够提升科学家的效率 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
