3月4日消息,阿里巴巴宣布完全开源支持10万亿模型的自研分布式深度学习训练框架EPL(Easy Parallel Library,原名whale),进一步完善深度学习生态。

EPL由阿里云机器学习平台PAI团队自主研发,PAI是面向开发者和企业的机器学习/深度学习工程平台,提供包含数据标注、模型构建、模型训练、编译优化、推理部署在内的AI开发全链路服务,内置140多种优化算法,具备丰富的行业场景插件,为用户提供低门槛、高性能的云原生AI工程化能力。
EPL是PAI团队一次面向大规模深度学习分布式自动化训练的探索,EPL希望能够简化深度学习模型从单机训练到分布式开发调试的流程。EPL通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位优化来提供易用、高效的分布式训练框架。
EPL适合不同场景的模型,在阿里巴巴内部已经支持图像、推荐、语音、视频、自然语言、多模态等多样性的业务场景。同时,EPL也支持不同规模的模型,最大完成了10万亿规模的M6模型训练,相比之前发布的大模型GPT-3,M6实现同等参数规模能耗仅为其1%。最新测试结果显示,使用EPL的流水+数据并行对Bert Large模型进行优化,相比于数据并行,训练速度提升了66%。
阿里云资深技术专家九丰表示,“近些年,随着深度学习的火爆,模型的参数规模飞速增长,同时为训练框架带来更大挑战。为应对这个问题,我们研发了EPL,EPL功能也随着业务需求的迭代逐渐完善。未来,我们将在软硬件一体优化、全自动策略探索等几个探索性方向上持续投入精力。今天,我们将EPL完全开源,希望和深度学习训练框架的开发者或深度学习从业者之间有更多更好的交流和共建,持续完善深度学习生态。”
好文章,需要你的鼓励
研究团队针对云计算环境中机器可用性持续波动的问题,提出了新的不可中断任务调度算法。该研究建立了时变容量下吞吐量最大化的理论模型,分别在离线和在线两种环境下设计了具有常数因子近似保证的调度算法。在离线环境中,贪心策略可达到1/2近似比;在线环境下,通过允许任务重启的机制,算法竞争比可达1/11,为构建更稳健的云调度系统提供了理论基础。
浙江大学团队开发的SAFEPRED系统通过赋予AI助手"预见未来"的能力,解决了传统安全防护只能被动应对眼前威胁的局限。该系统能预测操作的长期后果,在97.6%的测试案例中成功识别潜在风险,同时将任务效率提升21.4%。研究还推出了可在普通设备运行的轻量版本,为AI安全防护技术的普及应用奠定了基础。
在阿姆斯特丹举行的思科欧洲峰会上,思科发布五项重大创新,助力客户从"聊天机器人阶段"跃升至智能代理时代。核心产品包括Silicon One G300交换芯片,带宽达102.4 Tbps;推出AgenticOps自主运维模式,实现端到端故障自动排查;升级AI防护方案,引入AI物料清单和高级算法红队测试;率先推出全栈量子后加密技术;发布Nexus One统一AI架构平台。这些创新标志着AI基础设施时代的到来。
牛津大学联合研究团队发现AI在生成答案前就能预测自己的成功率,这种内部"直觉"可用于智能路由系统。研究揭示AI与人类对问题难度理解存在差异,且随推理深度增加而扩大。基于此开发的路由系统在保持性能下可降低17-70%计算成本,为高效AI部署提供新思路。