人工智能正持续为产业赋能,推动智慧农业、智能制造、智慧交通、智慧零售等行业发展,而算网融合也将成为实现产业智能服务的基础底座。近日,浪潮网络发布基于RoCE的无损以太网解决方案,该方案以浪潮高性能数据中心交换机组为核心,满足在AI集群、分布式存储、HPC集群、数据中心的网络要求,助力实现算力的无缝协同,释放数据潜能,为产业发展注入创新动能。
随着智算中心的发展演进,数据量呈指数级增长,数据流量对于算力和网络提出了更高要求。传统的数据中心服务以事件为基础,计算结果通常是确定的,单个事件和相应的网络通信之间几乎没有相关性或依赖性。而智算是迭代收敛优化的过程,数据集和算法之间存在高度的空间相关性,通信流之间具有强时间相关性,因此需要具备快速、高效和无损的数据中心网络来承载发展需求。
以往以HPC(高性能计算)为代表的场景应用多采用Infiniband技术组建高带宽、低延迟的网络。但是随着RoCE技术的应用发展,使以太网在带宽、延迟方面的表现日益趋同,在性价比和发展前景上也更具优势。浪潮网络紧跟市场发展需求,以支持RoCE技术的数据中心以太网交换机为核心,推出了典型的无损以太网解决方案,其具备如下优势:
计算、存储、网络、AIStation无缝融合
通过提供统一品牌的计算、存储、网络和人工智能开发平台整体解决方案,浪潮网络可以支持PFC、ECN等网络流控技术,以构建端到端、无损、低延时的RDMA(远程直接内存访问)承载网络。而交换机完美的缓存优势,可平滑吸收突发流量,有效应对TCP incast。
此外,方案具备智能缓存管理技术(近似公平丢弃、动态报文优先级),可保护短报文的作业管理流量,确保AI集群的运行效率。并支持Telemetry技术,可以提供实时网络数据和设备状态的可视化管理。同时支持RoCE-SAN业务域,RoCE网络灵活接入,AI集群主机与交换机可以同时实现单归、双归连接。浪潮AIStation可以提供统一的主流深度学习框架(Tensorflow、Pytorch、Caffe、Mxnet、PaddlePaddle),开发训练平台以及计算资源(CPU、GPU、内存、存储)管理平台。
故障主动发现、自动倒换
RoCE-SAN网络与存储业务协同、故障快速感知,交换机快速检测到故障状态,并通知给相关业务域内订阅通知消息的服务器,以便业务快速切换到冗余路径,降低对业务的影响。针对大型无损以太网环境下PFC死锁的问题,可以提供芯片级防PFC死锁机制,实现自动检测PFC死锁及恢复。
存储即插即用
RoCE-SAN网络能够自动发现设备服务器与存储设备的接入,并通知服务器自动建立与存储设备的连接关系。
目前,浪潮网络基于RoCE的无损以太网解决方案已在南京智能计算中心等项目中得以应用,无损以太网解决方案可充分发挥浪潮整体解决方案能力的优势,满足通用计算集群、GPU加速集群、异构计算集群、分布式存储集群、全闪存存储集群等场景网络的高速、低延迟连接需求。未来,浪潮网络将继续秉承以客户为中心的发展理念,携手合作伙伴打造更多结合行业场景的网络优秀实践,为加速企业数字化转型做出贡献。
好文章,需要你的鼓励
甲骨文公司披露获得一份年价值超过300亿美元的云服务合同,消息传出后股价一度上涨近9%。该合同是甲骨文自4月1日2026财年开始以来赢得的多个大型云服务协议之一,预计从2028财年开始贡献超过300亿美元的年收入。虽然买方身份未公开,但最可能的候选者是OpenAI,两家公司正在合作建设AI数据中心网络项目Stargate。
国立台湾大学等机构开发的MuseControlLite技术实现了音乐AI的重大突破。该系统仅用8500万参数就达到61.1%的旋律控制精度,比现有方法减少6.75倍参数量却性能更优。通过创新的位置编码和解耦交叉注意力机制,系统能同时处理文字、音乐属性和音频信号的多重控制,支持音乐生成、修复和风格迁移等功能,为音乐创作民主化开辟新道路。
AI编程编辑器Cursor背后的公司Anysphere推出网页应用,用户可通过浏览器管理AI编程代理网络。该应用支持桌面和移动端,用户可用自然语言分配编程任务、监控代理工作进度并合并代码更改。Cursor年经常性收入已超5亿美元,被超半数财富500强企业使用。新应用面向Pro计划及更高级别订阅用户开放,旨在降低使用门槛。公司预计到2026年AI编程代理将承担软件工程师至少20%的工作。
马里兰大学研究团队在70亿参数的OLMoE模型中首次发现了真实大型语言模型的"Grokking"现象,即AI在训练误差稳定后仍能实现智能突破。他们开发了基于混合专家模型思维路径分析的新方法,能够在无需外部测试的情况下准确预测AI的泛化能力,为AI开发和评估提供了革命性的实时监控工具。