国际高性能计算和人工智能咨询委员会推动网络异构计算在全球落地

2022年12月12日,第十四届国际高性能计算和人工智能咨询委员会(HPC-Al Advisory Council) 中国年会线上举办,本次会议是CCF全国高性能计算学术年会(CCF HPC China 2022)的首日分会场之一。

2022年12月12日,第十四届国际高性能计算和人工智能咨询委员会(HPC-Al Advisory Council) 中国年会线上举办,本次会议是CCF全国高性能计算学术年会(CCF HPC China 2022)的首日分会场之一。

本次年会聚焦当前热门的网络异构计算技术。来自美国俄亥俄州立大学、乔治亚理工学院、微软 Azure 云、中国移动、OPPO、Nvidia、淮海智算中心和中科德贝的专家们从多个角度分享了他们最新的研究项目和应用案例,这些项目和应用正在驱动高性能计算、人工智能能、手机、电信、自动驾驶和智慧城市等不同领域的应用性能。

国际高性能计算和人工智能咨询委员会推动网络异构计算在全球落地

CPU、 GPU 和网络已成为现代计算的三大支柱。优化这三者在数据中心的计算能力可以显著提高系统应用性能。网络是数据中心所有设备之间沟通的桥梁,网络计算在性能优化中发挥着越来越重要的作用。近些年来,网络异构计算技术受到高性能算力中心越来越多的关注,并被用于多种应用和行业领域。网卡中的计算、交换机中的计算、DPU 中的计算是三种主要的网络计算技术。将网络计算能力和 CPU、GPU等计算能力高效结合起来,创建全新的算力平台,成为高性能数据中心架构的新趋势。

国际高性能计算和人工智能咨询委员会现有450多家会员,包含全球各大高校、科研院所、OEM、ISV和多种行业用户等,成为推动HPC和AI应用的活跃社区组织。每年在全球各地举办多场先进编程课程及竞赛,致力于HPC和AI最新技术的应用和教育推广,为在产业界和学术界之间进行HPC和AI技术的沟通和交流建立了有力的桥梁。

国际高性能计算和人工智能咨询委员会主席 Gilad Shainer先生在会上做了The New Universe of Scientific Computing的主题报告,展望网路异构计算的未来。Shainer先生介绍了当前应用存在的多种性能瓶颈,并介绍了如何应用网络计算和DPU等最新技术,构建云原生超级计算体系架构,对这些性能瓶颈进行加速。基于对行业主要HPC应用的MPI通信特征分析,展示了网络计算技术的必要性,并举例介绍了如何使用DPU做MPI 集合通讯卸载,展示了多种应用案例采用网络计算技术后的良好性能表现。

国际高性能计算和人工智能咨询委员会推动网络异构计算在全球落地

来自于俄亥俄州立大学的D.K. Panda教授的报告则关注面向异构系统的HPC、AI和数据科学的高性能中间件技术。Panda教授是目前最流行的MPI通信库 – MVAPICH的创始人,他谈到了在现代高性能计算中心已经纷纷转向使用多种计算部件组成的异构算力中心,并介绍了他的团队主持开发的MVAPICH,HiDL,HiDB等软件中间件项目的最新进展和成果,以及如何使用RDMA,GPU Direct RDMA和SHARP等网络计算技术进行性能优化,使用DPU实现异步集合通讯等。

来自乔治亚理工学院的Sara Karamati博士介绍了一种使用DPU智能网卡对分子动力学应用进行优化的方法。Sara博士介绍了如何修改MiniMD的算法,解除串行数据的依赖关系,然后利用DPU上作为额外的算力资源,在通信数据进入或离开服务器的时候,直接对数据做加速处理,编程上则采用了OpenSNAPI实现编程简单化和标准化。初步测试结果显示有效地提升了性能。

来自微软亚太区Azure云的David Feng先生介绍了网络异构混合计算在微软Azure云上的应用。微软在3年前就在Azure云上大规模采用了InfiniBand高速网络,充分发挥了InfiniBand网络的网络计算技术,实现了从HPC上云(HPC In The Cloud)到专门面向HPC应用的云(A Cloud Build For HPC)的成功转型,在公有云上实现了和在超算中心运行HPC业务同样的性能。David介绍了微软根据各种不同应用需求特点,在Azure云上推出的多种算力平台及最佳的网络配置。并介绍了微软的CycleCloud如何使用云端工具和调度器使HPC业务更强大、更灵活。

OPPO的AI架构师夏忠谋博士介绍了OPPO端、云一体的AI平台的构建背景和应用场景。并重点介绍了该平台的架构设计思路。OPPO根据算力特征解析,结合产业发展状况和模型演进需求,对服务器、通信和能耗进行综合评估,正在逐渐由风冷的AI集群方案向浸没式液冷AI集群方案转型,并已经成功部署了液冷训练集群。通过对于多个OPPO业务模型的测试,夏博士还强调了像SHARP等网络计算技术可以在一些训练任务中带来很好的性能表现。

中国移动的程雷先生则是从具体的HPC业务入手,介绍了移动云异构算力平台如何加速HPC业务。在云上布局HPC业务是移动的发展方向之一,移动云异构算力平台提供了多样化的算力资源,利用RDMA、无损网络等技术,实现云上的性能保障。并进一步探索和构建以DPU为中心的新一代超异构算力平台的演进路线。

Nvidia的冯高锋先生介绍了NVIDIA如何应用NVIDIA DPU和Quantum InfiniBand网络构建云原生超级计算架构,发挥SHARP等网络计算技术为HPC和AI应用提供超强计算能力。通过云原生超级计算技术,NVIDIA率先在业界实现了公有云上的应用性能隔离技术,消除了云上多用户、多业务之间的流量冲突,保障HPC应用在云上也能获得和在超级计算机上同样的性能。还专门就热门的DPU应用场景介绍了NVIDIA在DPU上进行的高性能通讯库优化成果,如计算和通信的异步操作,CPU计算和DPU计算协调工作等,这些成果将集成在NVIDIA DPU软件套件DOCA中供广大用户使用。

淮海智算中心的陈友华先生介绍了从大力发展数字经济出发,面向环渤海算力需求,构建的淮海智算中心AI算力枢纽。陈老师详细介绍了淮海智算中心的计算资源构成,良好的服务能力,丰富的软件和工具库,以及开发和调优等人力资源保障等。

中科德贝的方小牛先生和NVIDIA的陈龙先生联合介绍了高性能存算分离方案在数据库的应用。方小牛首先介绍了中科德贝如何应用基于InfiniBand的存算分离技术,实现了安全、健壮,以及高性能的国产数据库解决方案,并通过量子安全措施实现了强大的安全保障。陈龙介绍了存算分离架构对IO吞吐能力,弹性扩展能力的增强,对时延敏感的数据库应用有很好的助力。

关于本次大会的详细介绍,请参考如下链接:

手机客户端:https://m.ccfhpc.cn/#/special?id=1597499029778522114

PC客户端:https://www.ccfhpc.cn/forum?id=1597499029778522114&type=topic&cid=27

关于国际高性能计算和人工智能咨询委员会(HPC-AI Advisory Council)

国际高性能计算和人工智能咨询咨询委员会成立于2008年,是一家拥有450多家会员单位的非盈利组织,专注于HPC和AI技术在全球的推广和普及。

来源:业界供稿

0赞

好文章,需要你的鼓励

2022

12/15

15:19

分享

点赞

邮件订阅