人工智能正持续为产业赋能,推动智慧农业、智能制造、智慧交通、智慧零售等行业发展,而算网融合也将成为实现产业智能服务的基础底座。近日,浪潮网络发布基于RoCE的无损以太网解决方案,该方案以浪潮高性能数据中心交换机组为核心,满足在AI集群、分布式存储、HPC集群、数据中心的网络要求,助力实现算力的无缝协同,释放数据潜能,为产业发展注入创新动能。
随着智算中心的发展演进,数据量呈指数级增长,数据流量对于算力和网络提出了更高要求。传统的数据中心服务以事件为基础,计算结果通常是确定的,单个事件和相应的网络通信之间几乎没有相关性或依赖性。而智算是迭代收敛优化的过程,数据集和算法之间存在高度的空间相关性,通信流之间具有强时间相关性,因此需要具备快速、高效和无损的数据中心网络来承载发展需求。
以往以HPC(高性能计算)为代表的场景应用多采用Infiniband技术组建高带宽、低延迟的网络。但是随着RoCE技术的应用发展,使以太网在带宽、延迟方面的表现日益趋同,在性价比和发展前景上也更具优势。浪潮网络紧跟市场发展需求,以支持RoCE技术的数据中心以太网交换机为核心,推出了典型的无损以太网解决方案,其具备如下优势:
计算、存储、网络、AIStation无缝融合
通过提供统一品牌的计算、存储、网络和人工智能开发平台整体解决方案,浪潮网络可以支持PFC、ECN等网络流控技术,以构建端到端、无损、低延时的RDMA(远程直接内存访问)承载网络。而交换机完美的缓存优势,可平滑吸收突发流量,有效应对TCP incast。
此外,方案具备智能缓存管理技术(近似公平丢弃、动态报文优先级),可保护短报文的作业管理流量,确保AI集群的运行效率。并支持Telemetry技术,可以提供实时网络数据和设备状态的可视化管理。同时支持RoCE-SAN业务域,RoCE网络灵活接入,AI集群主机与交换机可以同时实现单归、双归连接。浪潮AIStation可以提供统一的主流深度学习框架(Tensorflow、Pytorch、Caffe、Mxnet、PaddlePaddle),开发训练平台以及计算资源(CPU、GPU、内存、存储)管理平台。
故障主动发现、自动倒换
RoCE-SAN网络与存储业务协同、故障快速感知,交换机快速检测到故障状态,并通知给相关业务域内订阅通知消息的服务器,以便业务快速切换到冗余路径,降低对业务的影响。针对大型无损以太网环境下PFC死锁的问题,可以提供芯片级防PFC死锁机制,实现自动检测PFC死锁及恢复。
存储即插即用
RoCE-SAN网络能够自动发现设备服务器与存储设备的接入,并通知服务器自动建立与存储设备的连接关系。
目前,浪潮网络基于RoCE的无损以太网解决方案已在南京智能计算中心等项目中得以应用,无损以太网解决方案可充分发挥浪潮整体解决方案能力的优势,满足通用计算集群、GPU加速集群、异构计算集群、分布式存储集群、全闪存存储集群等场景网络的高速、低延迟连接需求。未来,浪潮网络将继续秉承以客户为中心的发展理念,携手合作伙伴打造更多结合行业场景的网络优秀实践,为加速企业数字化转型做出贡献。
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。