(图:新冠病毒研究重点之一三聚体结构的刺突蛋白)
近日,深势科技与阿里云机器学习 PAI 团队联手,通过全新的蛋白质结构预测推理加速方案 FoldAcc,结合深势Uni-Fold 最新模型代码和参数,将单次预测能支持的最大氨基酸序列长度提升至 6.6k,覆盖99.992%已知的蛋白序列,同时推理速度显著提升,达到目前已知的最佳推理优化效果,将为 AI 预测蛋白质结构落地应用提供重要助力。
以新冠病毒研究重点之一——具有三聚体结构的刺突蛋白为例,其氨基酸序列典型总长度接近4k,原版 AlphaFold 会因为超出显存限制(OOM)而无法进行预测计算,使用 Uni-Fold + FoldAcc 则能在10分钟左右完成 AI 推理计算。
自2020年DeepMind 推出基于深度学习模型的 AlphaFold2 以来,AI技术辅助蛋白质结构精确预测的相关研究备受关注,产学研界不断涌现创新成果。然而,在推动 AI 蛋白质结构预测规模化、产业化落地进程中,基础设施及工具完善性、AI 模型开发与部署效率等问题,仍然是横亘在研究者面前的难题。
2022年8月,深势科技升级并开源Uni-Fold 项目,成功复现了AlphaFold2、AlphaFold-Multimer 模型的全尺寸从头训练,并通过多项效率优化,并将 AlphaFold 训练速度提升220%,超越 OpenFold、FastFold 等方案,惠及更多研究者。
其中,针对困扰业界已久的 Evoformer 神经网络结构推理性能瓶颈问题,深势科技与阿里云PAI 团队,基于在 AI 模型系统优化领域的长期积累,融合多卡并行、混合精度、编译优化等多项推理优化技术,使 Uni-Fold 训练的模型能进行多卡推理加速,并支持计算更长的氨基酸序列。
典型加速效果的测试结果如下(基于A100-80G GPU,并启用bf16)
Uni-Fold 升级开源,支持复合物训练
作为生命科学领域重要的基础问题,蛋白质结构研究关系到癌症预警、靶向药物研究、衰老等临床医学和生命科学课题。传统的蛋白质结构研究手段,如:X射线晶体学、冷冻电镜等,需要消耗大量时间和资源。如何快速高效并且能够规模化地预测蛋白质结构,一直是研究者们探寻求解的重要问题。
2021年12月,深势科技推出 Uni-Fold v1.0.0,国际首次复现了AlphaFold2官方代码的全尺寸从头训练,并开源了训练与推理代码;2022年8月,Uni-Fold升级并开源了最新代码与模型参数,完整支持蛋白质单体、复合物结构预测模型的推理与训练。
此次开源的Uni-Fold基于PyTorch复现并改进的AlphaFold (-Multimer) 模型,支持从头训练和推理部署,并且在Protein Data Bank(PDB)最新公布的、模板相似度小于40%的单体与复合物测试集上,都取得了与同类开源项目一致或更优的准确率。
此外Uni-Fold也进行了多项效率优化,将训练时间由11天缩短至约4天,显著优于其他同类开源项目。
机器学习平台 PAI 提供全链路 AI 工程支撑
阿里云机器学习平台PAI 为 Uni-Fold 项目提供了完善的AI工程能力。PAI 是国内唯一连续入选 Gartner 数据科学与机器学习平台报告的机器学习/深度学习平台,面向AI开发及应用全链路提供全面的工程化服务,并具备丰富的场景化落地实践。
针对模型推理优化场景,PAI自研的通用推理加速器 PAI-Blade 能在不同业务场景下,通过模型系统联合优化,使模型达到最优推理性能,兼容主流机器学习框架,适配GPU、CPU、端侧设备等多类型加速设备。
其中,PAI-Blade 核心组件 BladeDISC 具备业界领先的动态尺寸模型优化、大颗粒度算子融合等编译优化技术,在阿里巴巴集团内外客户的实际生产场景广泛应用,助力实现高性价比的 AI 应用部署。2022年2月,BladeDISC 项目正式开源。
未来,为前沿科研提供更好用的AI基础设施
以 AI 蛋白质结构预测为典型代表,AI for Science 的科学研究新范式正取得越来越多突破,人工智能与生命科学、物理、化学等领域的技术交织,将为科学研究和产业进步带来极大推动,也对AI基础技术与平台应用提出了新挑战。
深势科技是 AI for Science 科学研究范式的先行者,阿里云机器学习平台 PAI 是国内应用最广泛的机器学习平台之一,我们将持续为生物医药、能源、材料等领域的研究与产业应用提供更好用的AI基础设施,共同推动 AI for Science 领域的技术生态建设。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。