据工信部发布的信息显示,我国近五年算力年均增速超过30%。其中,在用数据中心的服务器规模为1900万台,存储容量达到800EB(1EB=1024PB)。面对算力、存储的高速增长,网络作为数据中心三大关键要素之一,它的技术发展日益成为业界关注的焦点。
针对高性能计算、数据中心领域中的高阶网络互连技术发展,在由高效能服务器和存储技术国家重点实验室和开放计算中国社区联合主办的“第六期开放计算技术沙龙:网络技术研究与实践”线上研讨会中,来自清华大学的教授、博士生导师向东老师以《高性能高阶(High-Radix)网络互连架构及通讯协议》为主题,针对业内主流的蜻蜓网络(Dragonfly)架构以及相关的网络架构特点、优势进行了详细解读。
万级、十万级、百万级互连节点 彰显蜻蜓网络魅力
Dragonfly网络凭借较低的网络直径和较低的部署成本,已经在高性能计算领域得到了广泛应用。向东教授认为,Dragonfly网络所具备的特点,同样也适用于当下算力需求增长迅速、算力多样化的数据中心网络之中。"Dragonfly网络作为一个二级全连接网络,其网络设计成本远低于3-DTorus及胖树等其他网络架构,不仅适合于搭建超级计算机,同时也适用于数据中心。”向东教授说道。
当前,高性能计算的网络设计成本主要取决于机柜间的全局光纤数目,减少光纤数目及交换机端口数目是降低设计成本的核心要素。Dragonfly网络的拓扑结构可以将数据包传输路径的全局光纤数目降低为1。当高性能计算集群达到1万个计算节点以上的规模时,采用Dragonfly网络拓扑结构平台所需交换机芯片的端口数目仅需30多个左右。当集群节点规模达到10万时,采用Dragonfly网络拓扑结构的交换机芯片端口数目则在55左右。
Dragonfly网络是一个二阶全连接网络,分别由Router(路由器)、Group(组)以及整个System(系统)构成。Group中的Router与终端进行连接,Router之间实现Intra-group interconnection network全连接。与此同时,Group之间也实现了Inter-group interconnection network。其中,Group中采用电缆实现Router之间的互连,Group之间则采用光纤互连。
Dragonfly网络虽然在成本方面、降低交互芯片连接端口数量较低等优势,但是面对超算、数据中心计算节点的增多,包括Dragonfly、Dragonfly+等网络结构依然要面临网络连线较为复杂,网络总体设计成本仍然偏高,以及整体网络所需的全局光纤数仍然偏高等挑战。
向东教授及其团队为此研发设计出CLHR,即基于通讯局部化的高阶互连网络以及相应的路由算法。通过采用CLHR,一套拥有15万台服务器且采用Dragonfly网络结构的超算平台,其交换芯片端口数可控制在30个以内。当整体服务器规模达到100万台以上时,交换芯片的端口数量也可以控制在50个以内。向东教授指出,采用CLHR,相比二阶全联接的Dragonfly网络,端口总体数量得到有效降低。此外,数据通讯不需要虚拟通道,不需要设计Misrouting算法,任何节点间通讯可使用多条最短路径。
让智算普惠 无损网络释放更多价值
无论是高性能计算领域中较为普遍采用的Dragonfly网络,还是针对其进行优化、改进的CLHR,向东教授认为这些技术上的创新都是为了实现无损网络所作出的努力。以往,传统数据中心会采用无损网络技术,但面对数据中心的算力攀升、算力的多样化,向东教授认为打造无损网络已经成为一种趋势,这需要在网络架构的设计上更加精致,需要网络平台具备高效的流控能力、严格避免PFC死锁情况的出现。
针对Dragonfly网络适用于高端市场的应用情况,浪潮网络推出了更加具备市场贴合度的无损网络解决方案。以采用RoCE技术的数据中心以太网交换机为核心,具备网络流控、死锁消除以及存储即插即用等特点。
目前,浪潮网络所提供的无损网络解决方案已经成功的应用到南京智能计算中心项目的建设之中。通过融合浪潮的计算、存储、网络和人工智能开发平台整体解决方案,构建端到端、无损、低延时的RDMA(远程直接内存访问)承载网络。
浪潮网络推出的无损网络解决方案,不仅有效的应对了智算中心算力增长、算力需求多样、存储指数级攀升的需求。同时,也为现有的高性能计算平台构建低延迟、高带宽的网络平台,提供了在性价比和未来发展前景上都不错的一种选择。
好文章,需要你的鼓励
虽然软件工程师的平均薪酬比运维工程师高出10%以上,且有更多高薪职位晋升机会,但IT运维职业仍有其独特优势。首先,IT岗位入职门槛较低,约62%的运维工程师拥有本科学历,而开发者这一比例为73%。其次,IT工作更加多样化,从服务器故障排除到战略规划都有涉及。此外,IT工程师能更直接地看到工作成果,与最终用户接触更频繁。IT运维还提供更多样的职业发展路径,可转向网络、数据工程、网络安全等领域。最后,相比软件开发,IT运维工作受AI威胁较小。
微软研究院联合多所知名高校开发出SeerAttention-R稀疏注意力框架,专门优化AI推理模型的长序列解码效率。该技术通过自蒸馏学习让AI学会智能筛选重要信息,在保持近乎无损推理准确性的同时,实现了高达9倍的计算加速。系统采用轻量级插件设计,无需重训原模型即可集成,为长文本AI推理应用的普及铺平道路。
CityFibre宣布其专用企业级以太网服务覆盖范围扩大三倍,现可为超过26万家英国企业提供服务。此次扩展基于专用商用以太网平台,由工程合作伙伴Calix提供支持。该公司声称其以太网价格比主要竞争对手便宜20%。此项投资得益于全国范围内10Gbps XGS-PON技术升级,目前已在85%的网络中实施。
哈工大与阿里巴巴团队合作开发了ComfyUI-R1,这是首个专门用于自动化工作流生成的大型推理模型。该模型通过长链推理思维,能够根据用户自然语言指令自动生成可执行的ComfyUI工作流。在7B参数规模下,ComfyUI-R1达到97%格式正确率,在多项评估指标上显著超越GPT-4o等先进模型,为AI内容创作提供了更智能、更易用的解决方案。