作为阿贡国家实验室Aurora超算的首席架构师和主要研究员,Olivier Franza在这台极具雄心的科学仪器落地的过程中发挥了主导作用。
Aurora超算是英特尔最近参与的备受瞩目的项目之一,它对英特尔整个系统产品组合都挺有挑战性。事实上,Aurora超算不仅是世界上最大的GPU集群,同时,预计将成为第一台峰值性能达到每秒2百亿亿次(2×10^18)浮点运算能力的超算。
作为一位在英特尔工作了22年的老兵,在面对Aurora超算时,Olivier Franza还是感受到了压力。
2016年,Olivier Franza作为系统硬件架构师加入了Aurora项目,2021年,他成了首席架构师,目睹了Aurora项目向基于GPU架构的重大转变。
“首席架构师要做的就是根据客户的高标准要求,来调整超算的整体系统架构,”Franza解释说。“首席架构师也会关注一些基本的参数,比如总体性能指标,功耗情况,还有一些RAS(可靠性、可用性、可维护性)特性,这些对于构建有扩展性的系统都至关重要。”
当然,首席架构师要关注的是整个系统方方面面,从一个个节点到一个个机架再到整个系统,还要包括各种网络和存储组件,都需要考虑到。
一次技术路线转变为塑造未来产品创造了机会
Aurora超算是早期规划中计划采用一系列的英特尔产品技术。随着英特尔产品路线的调整,Aurora的规划也做出改变。
当英特尔宣布打造数据中心GPU产品线后,Franza参与到了英特尔数据中心GPU Max系列产品的设计讨论工作当中。
所以说,Aurora超算不是一步到位成现在这样的。Aurora超算的构建过程,影响着英特尔战略和产品线规划,也使得Aurora超算能在很高的层面解决规模和性能问题。
Franza表示,英特尔通过从组件到系统做出很多调整来满足Aurora超算的需求。
比如,英特尔至强CPU Max系列处理器的架构和概念,就衍生自英特尔至强Phi的一些特性,这是第一个在封装里集成了高带宽和高容量创新内存架构的产品。
此外,为了追求更高的性能,Aurora超算的各种子系统都取得了一些进步,从刀片服务器的散热,到高密度集成的方式再到存储部分,都有许多创新。
值得一提的是,在这一过程中,英特尔还构建了一个全新的存储系统——DAOS(分布式异步对象存储)。
Franza表示,这是一个开源项目,可以在传统硬件上实现高速存储,而Aurora超算是首批使用DAOS的用户之一,同时也是目前DAOS部署规模最大的用户。
从设计组件到把数千个系统连在一起
Aurora超算项目加强了英特尔系统级思考能力,也推动了英特尔内部各业务部门之间的协作,与外部阿贡科学家和HPE(HPE是该项目的另外一个主要参与者)工程师之间的协作,有很多跨职能部门和跨组织的协作工作。
“让一整个团队统一行动,交付像Aurora这样的超级计算机,对我们许多人来说,是一生难得一次的经历。”Franza说。
尽管工程师在六月份就安装了最后一台刀片服务器,但Aurora超算后续的大规模测试、稳定性验证还需要Franza 夜以继日的工作。
Franza为一个大的团队提供指导,该团队负责Aurora超算的启动、验证、稳定、优化工作,尽可能发挥系统在负载下的性能表现。其中最值得注意的是High Performance Linpack(HPL)基准测试,这是Top500榜单的排名依据,榜单上都是全球最强的超算系统。
每天早上,Franza都会仔细检查每个节点在夜间的运行情况,并为第二天及以后的工作制定计划。每天下午,Franza都会开会总结进展和遇到的难题。这样的工作每天都有,而机器也一直在运转当中。
“我们会系统地进行验证,”Franza解释说。“先从单个刀片服务器开始,然后转向机架规模,再到多个机架规模,以此进行大规模验证。”
Aurora超算由10624台刀片服务器组成,拥有63744块英特尔Max系列GPU,是世界上规模最大的GPU集群。在166个机架当中,使用了一共21248块英特尔至强Max CPU。
Franza介绍称,Aurora超算中心的大小相当于4个网球场那么大,听起来规模就很大,但只有亲眼看到它,才会真正意识到它有多大。
Franza的首要工作就是确保系统稳定性,功能完善,还要能正常运行。这是一项非常艰巨的任务,而Franza已经看到了胜利的曙光。
走在数据中心的通道里,看着灯光闪烁着,看着机器在正常运转,这令Franza感到神清气爽,并且很有满足感和成就感。
“一生一次难得一次”的努力,打造解决科学难题的超级计算机
打造一座有影响力的科研超级计算机固然会面临很多难题和阻碍,但考虑到Aurora超算在癌症研究方面的巨大潜力,有机会让所有人受益,Franza内心的使命感支撑他走了过来。
Aurora超算不仅会用于解决世界上一些最复杂的科学和工程问题,它还是运行生成式AI,并将生成式AI用于研究的理想平台。
据了解,Aurora超算将支持迄今为止,规模最大的大型语言模型,即1万亿参数的Aurora GenAI项目,从而提高科学家的工作效率、简化科学家的工作。
Franza做的是一件了不起的事情,而工作中令他感到欣慰的还有团队协作和友情。
Aurora超算是一项工程量浩大的项目,需要许多人付出长期努力,需要大量的毅力。
从Franza的介绍中了解到,其核心团队一直保持着马拉松式的心态,直到最后一刻都不能放松,团队需要的是那种能够长时间专注于极具挑战性事物的人,而这些人最终所取得的成就是大部分人都很难做到的。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。