阿里巴巴开源深度学习训练框架EPL 可支持10万亿参数超大模型

EPL由阿里云机器学习平台PAI团队自主研发，PAI是面向开发者和企业的机器学习/深度学习工程平台

3月4日消息，阿里巴巴宣布完全开源支持10万亿模型的自研分布式深度学习训练框架EPL(Easy Parallel Library，原名whale)，进一步完善深度学习生态。

EPL由阿里云机器学习平台PAI团队自主研发，PAI是面向开发者和企业的机器学习/深度学习工程平台，提供包含数据标注、模型构建、模型训练、编译优化、推理部署在内的AI开发全链路服务，内置140多种优化算法，具备丰富的行业场景插件，为用户提供低门槛、高性能的云原生AI工程化能力。

EPL是PAI团队一次面向大规模深度学习分布式自动化训练的探索，EPL希望能够简化深度学习模型从单机训练到分布式开发调试的流程。EPL通过对不同并行化策略进行统一抽象、封装，在一套分布式训练框架中支持多种并行策略，并进行显存、计算、通信等全方位优化来提供易用、高效的分布式训练框架。

EPL适合不同场景的模型，在阿里巴巴内部已经支持图像、推荐、语音、视频、自然语言、多模态等多样性的业务场景。同时，EPL也支持不同规模的模型，最大完成了10万亿规模的M6模型训练，相比之前发布的大模型GPT-3，M6实现同等参数规模能耗仅为其1%。最新测试结果显示，使用EPL的流水+数据并行对Bert Large模型进行优化，相比于数据并行，训练速度提升了66%。

阿里云资深技术专家九丰表示，“近些年，随着深度学习的火爆，模型的参数规模飞速增长，同时为训练框架带来更大挑战。为应对这个问题，我们研发了EPL，EPL功能也随着业务需求的迭代逐渐完善。未来，我们将在软硬件一体优化、全自动策略探索等几个探索性方向上持续投入精力。今天，我们将EPL完全开源，希望和深度学习训练框架的开发者或深度学习从业者之间有更多更好的交流和共建，持续完善深度学习生态。”

来源：业界供稿

深度学习

0赞

好文章，需要你的鼓励

阿里巴巴开源深度学习训练框架EPL 可支持10万亿参数超大模型

来源：业界供稿

2022

03/07

14:18

分享

点赞

领跑后训练时代，联想以“四维”进化重塑AI算力格局

阿里云GraphScope Flex登顶权威榜单，每秒处理超8万次请求

新华三推出AI数据平台解决方案，加速推理驱动智算时代

Mark Sherwood 引领 Wolters Kluwer 迈向云与 AI 转型

Western Digital 重塑平台业务以全新设备与 SSD 生态系统推动

ChatGPT 的图像生成器现已集成于 Microsoft Copilot，你可以用它做这些事

Nvidia 开放 AI 生态体系 以挑战全球芯片制造商

Microsoft 将极具疯狂特色的 Grok 加入 Azure AI 阵容

解锁对象存储+TP数据库，OceanBase快人一步

Gartner：大多数公司尚未充分挖掘云潜力

数据中心停机连续第四年下降，但问题依旧存在

AI 对算力的渴望推动企业迈向超级计算

这款古怪的 AI 智能手机可以创建你的数字分身

Hugging Face 首席科学官担忧 AI 正在成为"服务器上的应声虫"

AI 公司效仿 DeepSeek，通过"蒸馏"技术打造低成本模型

物理 AI 如何通过嵌入式智能改变行业格局

Sergey Brin 表示：如果谷歌员工每周工作 60 小时，AGI 指日可待

Tencent 发布新 AI 模型，称速度快于 DeepSeek-R1

IBM 发布新的 Granite 3.2 系列模型，实现按需推理能力

Anthropic 的 Claude 3.7 Sonnet 推理模型可以按需延长思考时间

DeepSeek 超越"开放权重"AI，计划发布源代码

iPhone 16E 证明苹果急切希望用户使用其 AI 功能

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

生成式AI催生新物种，SaaS CRM掀起下半场变革战

芝加哥大学赵燕斌：我们做的是让AI看不见的“艺术”

杨晓东眼中的AI"中国速度"，希捷如何跑赢这场数据竞赛？

当ERP长出AI神经，胜负手在于业务扎根

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

Nvidia 开放 AI 生态体系以挑战全球芯片制造商