阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022，有效减少大规模神经网络训练时间

近日，阿里云机器学习平台PAI与香港大学吴川教授团队合作的论文”Efficient Pipeline Planning for Expedited Distributed DNN Training”入选INFOCOM（IEEE International Conference on Computer Communications） 2022，论文提出了一个支持任意网络拓扑的同步流水线并行训练算法，有效减少大规模神经网络的训练时间。

作为分布式机器学习的一种主流训练方式，流水线并行通过同时进行神经网络计算与中间数据通信，减少训练时间。一个典型的同步流水线并行方案包含模型切分设备部署与微批量（micro-batch）执行调度两个部分。

以下的两个图给出了一个6层神经网络模型在4块GPU上进行同步流水线并行训练的示例。由图表1所示，模型被切分成三个片段，其中第二个片段由于其计算量较大，被复制到两个GPU上通过数据并行的方式训练。图表2表示模型的三个微批量的具体训练过程，其中，由于第二个片段以数据并行方法在GPU2和GPU3上训练，在全部微批量训练完成后通过AllReduce算子同步模型片段参数。

图表1模型切分设备部署

阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022，有效减少大规模神经网络训练时间

图表2微批量执行调度

然而，设计高效的流水线并行算法方案仍然存在诸多挑战，例如深度学习模型各异，每层的训练时间也不相同，因此难以找到最优的模型切分部署方案；当前的流水线并行算法局限于同质化的GPU间网络拓扑，而现实机器学习集群具有复杂的混合GPU间网络拓扑（例如，单个机器上的GPU可以通过PCIe或者NVLink连接，跨机通信可以基于TCP或者RDMA），导致现有方案无法使用等，以上问题导致实际训练中的GPU使用效率低。

针对以上难点，团队提出了一个近似最优的同步流水线并行训练算法。算法由三个主要模块构成：

1）一个基于递归最小割的GPU排序算法，通过分析GPU间网络拓扑确定GPU的模型部署顺序，保证最大化利用GPU间带宽；

2）一个基于动态规划的模型切分部署算法，高效率找到最优的模型分割与部署方案，平衡模型在每个GPU上的运算时间与模型切片间的通信时间；

3）一个近似最优的列表排序算法，决策每个微批量在各个GPU上的执行顺序，最小化模型的训练时间。

从理论上对算法做出详尽分析，给出了算法的最坏情况保证。同时，在测试集群中实验证明团队的算法相对PipeDream，可以取得最高157%的训练加速比。

INFOCOM是计算机网络三大顶级国际会议之一，涉及计算机网络领域的各个方面，在国际上享有盛誉且有广泛的学术影响力。此次入选意味着阿里云机器学习平台PAI在分布式深度学习模型训练优化领域的工作获得国际学界的广泛认可，进一步彰显了中国在分布式机器学习系统领域有着核心竞争力。

阿里云机器学习PAI是面向企业及开发者，提供轻量化、高性价比的云原生机器学习平台，一站式的机器学习解决方案，全面提升机器学习工程效率。

来源：业界供稿

0赞

好文章，需要你的鼓励

阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022，有效减少大规模神经网络训练时间

来源：业界供稿

2022

05/05

13:32

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

AI 竞争加剧，GPT-4.5 发布：数据效率成为关键

阿里云李飞飞：将大模型，装进数据库里

国产软件再破记录！阿里云PolarDB数据库登顶TPC-C双榜第一

为帮助 AI 理解世界，研究人员将其装入机器人

从 2.2 亿数据点到营收：AI 如何改变体育娱乐的投资回报

AI 研究显示：部分员工已过度依赖 AI 思考

Hugging Face 计划对 DeepSeek 的 R1 推理模型进行逆向工程

瑞典委员会提出推动人工智能改革路线图

AI 投资回报率难以说服 IT 决策者

谷歌 AI 为"自愈"路坑铺平道路

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: