图1 Phoenix超级计算机标识
Phoenix超级计算机是东方超算与北京三轴空间科技共同合作研发的水冷超级计算机,部署于中国科学院大学雁西湖校区,服务于物理科学学院张余洋课题组,用于基于密度泛函理论的量子力学计算研究。
Phoenix具备56个双路英特尔至强铂金级9282处理器的计算节点,共有6272个计算核心,Linpack峰值521TFlops(每秒521万亿次双精度浮点计算能力)。
图2 Phoenix超级计算机部署实景
整套超级计算机部署在2套机柜空间内,全部计算节点部署于单机柜空间;管理网络、计算网络、管理节点、登录节点、存储节点、液冷控制单元(CDU)、环控设备集中部署于另一个机柜空间内。
集群架构介绍:
根据基于密度泛函理论的量子力学计算的应用运行特征,计算节点配置双路英特尔至强铂金级9282处理器(单颗处理器56核心/基础频率2.6GHz/最大睿频3.8GHz)、24条32GB内存、1块Omni-Path 100Gb网卡;系统管理网络与硬件管理网络共享板载千兆网卡,降低高密度部署中的网线密度;计算与存储网络配置2台48口Omni-Path 100Gb交换机,2台交换机之间1/3阻塞,在满足大规模计算网络通信需求的基础上将更多的预算用于提升计算能力。
图3 集群计算网络架构
散热制冷介绍:
图4 散热系统整机架构
计算节点采用冷板式与风冷双散热系统设计,散热系统分为三部分:1.一次侧干冷式冷塔2.二次侧液冷控制单元3.环境精密空调。
工作原理:
一次侧干冷式冷塔:采用自然风冷+压缩机补冷方案,冬季采用自然风冷散热、当自然风冷无法满足冷塔控制箱设定的供水温度时,压缩器启动补冷;
二次侧冷却分配单元:通过与一次侧换热,实现供应32摄氏度水给计算节点;
环境精密空调:计算节点运行中处理器与内存之外的热量通过机箱风扇散发至机房环境,需按照整机功耗20%来配置恒温恒湿精密空调。
冷板贴附在处理器和内存散热面,依靠流经冷板的液体将热量带走实现高效换热,主板、网卡、电源供应器等部件依靠冗余风扇实现风冷散热。
图5 计算节点机箱前/后视图
图6 节点冷却管路/冷却节点
使用Intel电源散热实用程序PTU查看节点满负载运行的状态,32摄氏度供水的情况下CPU核心温度为50-65摄氏度,相对于最高运行温度85摄氏度,供水温度仍具有较大升温空间。
图7 计算节点满负载运行状态
一次侧干冷式冷塔介绍:
图8 一次侧干冷式冷塔
图9 安装于机房内的冷塔控制箱和一次侧供回水管路
图10 一次侧干冷式冷塔控制箱界面
二次侧液冷控制单元介绍:
二次侧液冷控制单元采用CoolTera RM100机型,换热量100KW,4U高度内集成了双循环泵和换热器,提供了一次侧进回水口和二次侧进回水口,节省了机柜部署空间。
图11 CDU RM100冷量分配控制器
图12 CDU运行状态界面
图13 CDU供回水管路
北京东方超算科技有限公司是全球先进的超级计算机研发、制造和运营商,基于大数据、人工智能和超级计算应用的融合计算平台,提供超级计算机应用和服务。作为英特尔HPC数据中心专家,与英特尔、三轴空间和用户合作研发超级计算机Phoenix。
北京三轴空间科技有限公司是一流的高性能计算集群建设、运维团队,公司自有5000余套高性能计算节点,为科研、人工智能、影视特效等行业提供专业服务。三轴空间团队有丰富的高性能计算集群设计、运维、行业应用经验,旗下星海超算平台、RenderG云渲染平台在业内享有盛誉。
好文章,需要你的鼓励
CoreWeave发布AI对象存储服务,采用本地对象传输加速器(LOTA)技术,可在全球范围内高速传输对象数据,无出口费用或请求交易分层费用。该技术通过智能代理在每个GPU节点上加速数据传输,提供高达每GPU 7 GBps的吞吐量,可扩展至数十万个GPU。服务采用三层自动定价模式,为客户的AI工作负载降低超过75%的存储成本。
IDEA研究院等机构联合开发了ToG-3智能推理系统,通过多智能体协作和双重进化机制,让AI能像人类专家团队一样动态思考和学习。该系统在复杂推理任务上表现优异,能用较小模型达到卓越性能,为AI技术的普及应用开辟了新路径,在教育、医疗、商业决策等领域具有广阔应用前景。
谷歌DeepMind与核聚变初创公司CFS合作,运用先进AI模型帮助管理和改进即将发布的Sparc反应堆。DeepMind开发了名为Torax的专用软件来模拟等离子体,结合强化学习等AI技术寻找最佳核聚变控制方式。核聚变被视为清洁能源的圣杯,可提供几乎无限的零碳排放能源。谷歌已投资CFS并承诺购买其200兆瓦电力。
上海人工智能实验室提出SPARK框架,创新性地让AI模型在学习推理的同时学会自我评判,通过回收训练数据建立策略与奖励的协同进化机制。实验显示,该方法在数学推理、奖励评判和通用能力上分别提升9.7%、12.1%和1.5%,且训练成本仅为传统方法的一半,展现出强大的泛化能力和自我反思能力。