超长序列，超快预测！深势科技联手阿里云，AI蛋白质预测再下一城

强强联合，突破 AI 蛋白质预测模型推理性能瓶颈，支持最高 6.6k 长氨基酸序列蛋白质的预测计算，达到目前已知最优推理效果。

（图：新冠病毒研究重点之一三聚体结构的刺突蛋白）

近日，深势科技与阿里云机器学习 PAI 团队联手，通过全新的蛋白质结构预测推理加速方案 FoldAcc，结合深势Uni-Fold 最新模型代码和参数，将单次预测能支持的最大氨基酸序列长度提升至 6.6k，覆盖99.992%已知的蛋白序列，同时推理速度显著提升，达到目前已知的最佳推理优化效果，将为 AI 预测蛋白质结构落地应用提供重要助力。

以新冠病毒研究重点之一——具有三聚体结构的刺突蛋白为例，其氨基酸序列典型总长度接近4k，原版 AlphaFold 会因为超出显存限制（OOM）而无法进行预测计算，使用 Uni-Fold + FoldAcc 则能在10分钟左右完成 AI 推理计算。

自2020年DeepMind 推出基于深度学习模型的 AlphaFold2 以来，AI技术辅助蛋白质结构精确预测的相关研究备受关注，产学研界不断涌现创新成果。然而，在推动 AI 蛋白质结构预测规模化、产业化落地进程中，基础设施及工具完善性、AI 模型开发与部署效率等问题，仍然是横亘在研究者面前的难题。

2022年8月，深势科技升级并开源Uni-Fold 项目，成功复现了AlphaFold2、AlphaFold-Multimer 模型的全尺寸从头训练，并通过多项效率优化，并将 AlphaFold 训练速度提升220%，超越 OpenFold、FastFold 等方案，惠及更多研究者。

其中，针对困扰业界已久的 Evoformer 神经网络结构推理性能瓶颈问题，深势科技与阿里云PAI 团队，基于在 AI 模型系统优化领域的长期积累，融合多卡并行、混合精度、编译优化等多项推理优化技术，使 Uni-Fold 训练的模型能进行多卡推理加速，并支持计算更长的氨基酸序列。

典型加速效果的测试结果如下（基于A100-80G GPU，并启用bf16）

Uni-Fold 升级开源，支持复合物训练

作为生命科学领域重要的基础问题，蛋白质结构研究关系到癌症预警、靶向药物研究、衰老等临床医学和生命科学课题。传统的蛋白质结构研究手段，如：X射线晶体学、冷冻电镜等，需要消耗大量时间和资源。如何快速高效并且能够规模化地预测蛋白质结构，一直是研究者们探寻求解的重要问题。

2021年12月，深势科技推出 Uni-Fold v1.0.0，国际首次复现了AlphaFold2官方代码的全尺寸从头训练，并开源了训练与推理代码；2022年8月，Uni-Fold升级并开源了最新代码与模型参数，完整支持蛋白质单体、复合物结构预测模型的推理与训练。

此次开源的Uni-Fold基于PyTorch复现并改进的AlphaFold (-Multimer) 模型，支持从头训练和推理部署，并且在Protein Data Bank（PDB）最新公布的、模板相似度小于40%的单体与复合物测试集上，都取得了与同类开源项目一致或更优的准确率。

此外Uni-Fold也进行了多项效率优化，将训练时间由11天缩短至约4天，显著优于其他同类开源项目。

机器学习平台 PAI 提供全链路 AI 工程支撑

阿里云机器学习平台PAI 为 Uni-Fold 项目提供了完善的AI工程能力。PAI 是国内唯一连续入选 Gartner 数据科学与机器学习平台报告的机器学习/深度学习平台，面向AI开发及应用全链路提供全面的工程化服务，并具备丰富的场景化落地实践。

针对模型推理优化场景，PAI自研的通用推理加速器 PAI-Blade 能在不同业务场景下，通过模型系统联合优化，使模型达到最优推理性能，兼容主流机器学习框架，适配GPU、CPU、端侧设备等多类型加速设备。

其中，PAI-Blade 核心组件 BladeDISC 具备业界领先的动态尺寸模型优化、大颗粒度算子融合等编译优化技术，在阿里巴巴集团内外客户的实际生产场景广泛应用，助力实现高性价比的 AI 应用部署。2022年2月，BladeDISC 项目正式开源。

未来，为前沿科研提供更好用的AI基础设施

以 AI 蛋白质结构预测为典型代表，AI for Science 的科学研究新范式正取得越来越多突破，人工智能与生命科学、物理、化学等领域的技术交织，将为科学研究和产业进步带来极大推动，也对AI基础技术与平台应用提出了新挑战。

深势科技是 AI for Science 科学研究范式的先行者，阿里云机器学习平台 PAI 是国内应用最广泛的机器学习平台之一，我们将持续为生物医药、能源、材料等领域的研究与产业应用提供更好用的AI基础设施，共同推动 AI for Science 领域的技术生态建设。

来源：业界供稿

阿里云

0赞

好文章，需要你的鼓励

超长序列，超快预测！深势科技联手阿里云，AI蛋白质预测再下一城

来源：业界供稿

2022

09/05

17:49

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

阿里云李飞飞：将大模型，装进数据库里

国产软件再破记录！阿里云PolarDB数据库登顶TPC-C双榜第一

“数字中华”的1666天

在“云端”找步调，典名科技的“十年长跑”纪实

“双11”八年回响，“创云”创造下一个“云命题”

摘得“双11”首单，鼎峯云跨越9年顶峰相见

驻云科技的十年激荡云之路：我们在找更高“价值洼地”

双11七年“会战”，小牛云跨越山海

通义发布最强代码模型Qwen2.5-Coder，登顶全球开源代码模型王座

阿里云引领的SaaS进化论，AI加持的云端爆发

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: