人工智能正持续为产业赋能,推动智慧农业、智能制造、智慧交通、智慧零售等行业发展,而算网融合也将成为实现产业智能服务的基础底座。近日,浪潮网络发布基于RoCE的无损以太网解决方案,该方案以浪潮高性能数据中心交换机组为核心,满足在AI集群、分布式存储、HPC集群、数据中心的网络要求,助力实现算力的无缝协同,释放数据潜能,为产业发展注入创新动能。
随着智算中心的发展演进,数据量呈指数级增长,数据流量对于算力和网络提出了更高要求。传统的数据中心服务以事件为基础,计算结果通常是确定的,单个事件和相应的网络通信之间几乎没有相关性或依赖性。而智算是迭代收敛优化的过程,数据集和算法之间存在高度的空间相关性,通信流之间具有强时间相关性,因此需要具备快速、高效和无损的数据中心网络来承载发展需求。
以往以HPC(高性能计算)为代表的场景应用多采用Infiniband技术组建高带宽、低延迟的网络。但是随着RoCE技术的应用发展,使以太网在带宽、延迟方面的表现日益趋同,在性价比和发展前景上也更具优势。浪潮网络紧跟市场发展需求,以支持RoCE技术的数据中心以太网交换机为核心,推出了典型的无损以太网解决方案,其具备如下优势:
计算、存储、网络、AIStation无缝融合
通过提供统一品牌的计算、存储、网络和人工智能开发平台整体解决方案,浪潮网络可以支持PFC、ECN等网络流控技术,以构建端到端、无损、低延时的RDMA(远程直接内存访问)承载网络。而交换机完美的缓存优势,可平滑吸收突发流量,有效应对TCP incast。
此外,方案具备智能缓存管理技术(近似公平丢弃、动态报文优先级),可保护短报文的作业管理流量,确保AI集群的运行效率。并支持Telemetry技术,可以提供实时网络数据和设备状态的可视化管理。同时支持RoCE-SAN业务域,RoCE网络灵活接入,AI集群主机与交换机可以同时实现单归、双归连接。浪潮AIStation可以提供统一的主流深度学习框架(Tensorflow、Pytorch、Caffe、Mxnet、PaddlePaddle),开发训练平台以及计算资源(CPU、GPU、内存、存储)管理平台。
故障主动发现、自动倒换
RoCE-SAN网络与存储业务协同、故障快速感知,交换机快速检测到故障状态,并通知给相关业务域内订阅通知消息的服务器,以便业务快速切换到冗余路径,降低对业务的影响。针对大型无损以太网环境下PFC死锁的问题,可以提供芯片级防PFC死锁机制,实现自动检测PFC死锁及恢复。
存储即插即用
RoCE-SAN网络能够自动发现设备服务器与存储设备的接入,并通知服务器自动建立与存储设备的连接关系。
目前,浪潮网络基于RoCE的无损以太网解决方案已在南京智能计算中心等项目中得以应用,无损以太网解决方案可充分发挥浪潮整体解决方案能力的优势,满足通用计算集群、GPU加速集群、异构计算集群、分布式存储集群、全闪存存储集群等场景网络的高速、低延迟连接需求。未来,浪潮网络将继续秉承以客户为中心的发展理念,携手合作伙伴打造更多结合行业场景的网络优秀实践,为加速企业数字化转型做出贡献。
好文章,需要你的鼓励
OpenAI在最新博客中首次承认,其AI安全防护在长时间对话中可能失效。该公司指出,相比短对话,长对话中的安全训练机制可能会退化,用户更容易通过改变措辞或分散话题来绕过检测。这一问题不仅影响OpenAI,也是所有大语言模型面临的技术挑战。目前OpenAI正在研究加强长对话中的安全防护措施。
北航团队推出VoxHammer技术,实现3D模型的精确局部编辑,如同3D版Photoshop。该方法直接在3D空间操作,通过逆向追踪和特征替换确保编辑精度,在保持未修改区域完全一致的同时实现高质量局部修改。研究还创建了Edit3D-Bench评估数据集,为3D编辑领域建立新标准,展现出在游戏开发、影视制作等领域的巨大应用潜力。
谷歌宣布计划到2026年底在弗吉尼亚州投资90亿美元,重点发展云计算和AI基础设施。投资包括在里士满南部切斯特菲尔德县建设新数据中心,扩建现有设施,并为当地居民提供教育和职业发展项目。弗吉尼亚州长表示这项投资是对该州AI经济领导地位的有力认可。此次投资是谷歌北美扩张战略的一部分。
宾夕法尼亚大学研究团队开发出PIXIE系统,这是首个能够仅通过视觉就快速准确预测三维物体完整物理属性的AI系统。该技术将传统需要数小时的物理参数预测缩短至2秒,准确率提升高达4.39倍,并能零样本泛化到真实场景。研究团队还构建了包含1624个标注物体的PIXIEVERSE数据集,为相关技术发展奠定了重要基础,在游戏开发、机器人控制等领域具有广阔应用前景。