3月4日消息,阿里巴巴宣布完全开源支持10万亿模型的自研分布式深度学习训练框架EPL(Easy Parallel Library,原名whale),进一步完善深度学习生态。
EPL由阿里云机器学习平台PAI团队自主研发,PAI是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、编译优化、推理部署在内的AI开发全链路服务,内置140多种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。
EPL是PAI团队一次面向大规模深度学习分布式自动化训练的探索,EPL希望能够简化深度学习模型从单机训练到分布式开发调试的流程。EPL通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位优化来提供易用、高效的分布式训练框架。
EPL适合不同场景的模型,在阿里巴巴内部已经支持图像、推荐、语音、视频、自然语言、多模态等多样性的业务场景。同时,EPL也支持不同规模的模型,最大完成了10万亿规模的M6模型训练,相比之前发布的大模型GPT-3,M6实现同等参数规模能耗仅为其1%。最新测试结果显示,使用EPL的流水+数据并行对Bert Large模型进行优化,相比于数据并行,训练速度提升了66%。
阿里云资深技术专家九丰表示,“近些年,随着深度学习的火爆,模型的参数规模飞速增长,同时为训练框架带来更大挑战。为应对这个问题,我们研发了EPL,EPL功能也随着业务需求的迭代逐渐完善。未来,我们将在软硬件一体优化、全自动策略探索等几个探索性方向上持续投入精力。今天,我们将EPL完全开源,希望和深度学习训练框架的开发者或深度学习从业者之间有更多更好的交流和共建,持续完善深度学习生态。”
好文章,需要你的鼓励
IDC数据显示,Arm架构服务器出货量预计2025年将增长70%,但仅占全球总出货量的21.1%,远低于Arm公司年底达到50%市场份额的目标。大规模机架配置系统如英伟达DGX GB200 NVL72等AI处理设备推动了Arm服务器需求。2025年第一季度全球服务器市场达到创纪录的952亿美元,同比增长134.1%。IDC将全年预测上调至3660亿美元,增长44.6%。配备GPU的AI服务器预计增长46.7%,占市场价值近半。
华为诺亚实验室联合多家顶尖院校推出开源机器人编程框架Ark,通过Python优先设计和模块化架构,实现仿真与现实环境的无缝切换。该框架大幅降低机器人编程门槛,支持现代AI技术集成,为机器人学习研究提供统一平台,有望加速机器人技术普及。
AI正在重塑创业公司的构建方式,这是自云计算出现以来最重大的变革。January Ventures联合创始人Jennifer Neundorfer将在TechCrunch All Stage活动中分享AI时代的新规则,涵盖从创意验证、产品开发到团队架构和市场策略的各个方面。作为专注于B2B早期投资的风投合伙人,她将为各阶段创业者提供关键洞察。
网易有道研究团队开发了Confucius3-Math,这是一个专门针对中国K-12数学教育的14B参数AI模型。该模型在多项数学推理测试中表现出色,超越了许多规模更大的竞争对手,训练成本仅需2.6万美元,推理速度比DeepSeek-R1快15倍,能在消费级GPU上高效运行,旨在通过降低AI教育成本来促进教育公平。