阿里巴巴开源深度学习训练框架EPL 可支持10万亿参数超大模型

EPL由阿里云机器学习平台PAI团队自主研发，PAI是面向开发者和企业的机器学习/深度学习工程平台

3月4日消息，阿里巴巴宣布完全开源支持10万亿模型的自研分布式深度学习训练框架EPL(Easy Parallel Library，原名whale)，进一步完善深度学习生态。

EPL由阿里云机器学习平台PAI团队自主研发，PAI是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、编译优化、推理部署在内的AI开发全链路服务，内置140多种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

EPL是PAI团队一次面向大规模深度学习分布式自动化训练的探索，EPL希望能够简化深度学习模型从单机训练到分布式开发调试的流程。EPL通过对不同并行化策略进行统一抽象、封装，在一套分布式训练框架中支持多种并行策略，并进行显存、计算、通信等全方位优化来提供易用、高效的分布式训练框架。

EPL适合不同场景的模型，在阿里巴巴内部已经支持图像、推荐、语音、视频、自然语言、多模态等多样性的业务场景。同时，EPL也支持不同规模的模型，最大完成了10万亿规模的M6模型训练，相比之前发布的大模型GPT-3，M6实现同等参数规模能耗仅为其1%。最新测试结果显示，使用EPL的流水+数据并行对Bert Large模型进行优化，相比于数据并行，训练速度提升了66%。

阿里云资深技术专家九丰表示，“近些年，随着深度学习的火爆，模型的参数规模飞速增长，同时为训练框架带来更大挑战。为应对这个问题，我们研发了EPL，EPL功能也随着业务需求的迭代逐渐完善。未来，我们将在软硬件一体优化、全自动策略探索等几个探索性方向上持续投入精力。今天，我们将EPL完全开源，希望和深度学习训练框架的开发者或深度学习从业者之间有更多更好的交流和共建，持续完善深度学习生态。”

来源：业界供稿

深度学习

0赞

好文章，需要你的鼓励

阿里巴巴开源深度学习训练框架EPL 可支持10万亿参数超大模型

来源：业界供稿

2022

03/07

14:18

分享

点赞

几分钟完成3D渲染？HP ZBook Fury G1i 移动工作站让AI设计流程真正落地了

火山引擎：AI不再只是技术潜力，Agent成为下一个战场

零门槛?高产出！联想百应智能体携手通义万相2.6，助力企业AI营销破局增长

OpenAI或从亚马逊获得超100亿美元融资

2026年非结构化数据管理五大预测

Amazon重组AI部门：27年老将统领AGI组织

安全专家给出的8条AI聊天机器人使用安全建议

普渡大学将AI能力列为本科毕业必备要求

浩云长盛的算力工具箱：让兼容与前瞻同行

英特尔酷睿Ultra第三代，如何推动AI PC规模化落地？

Google发布Gemini 3 Flash并将其设为默认模型

思科自研AI模型正式应用于产品，首先赋能身份安全服务

这款古怪的 AI 智能手机可以创建你的数字分身

Hugging Face 首席科学官担忧 AI 正在成为"服务器上的应声虫"

AI 公司效仿 DeepSeek，通过"蒸馏"技术打造低成本模型

物理 AI 如何通过嵌入式智能改变行业格局

Sergey Brin 表示：如果谷歌员工每周工作 60 小时，AGI 指日可待

Tencent 发布新 AI 模型，称速度快于 DeepSeek-R1

IBM 发布新的 Granite 3.2 系列模型，实现按需推理能力

Anthropic 的 Claude 3.7 Sonnet 推理模型可以按需延长思考时间

DeepSeek 超越"开放权重"AI，计划发布源代码

iPhone 16E 证明苹果急切希望用户使用其 AI 功能

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: