英特尔首席架构师：打造解决复杂科学难题的极光超级计算机

作为阿贡国家实验室Aurora超算的首席架构师和主要研究员，Olivier Franza在这台极具雄心的科学仪器落地的过程中发挥了主导作用。

Aurora超算是英特尔最近参与的备受瞩目的项目之一，它对英特尔整个系统产品组合都挺有挑战性。事实上，Aurora超算不仅是世界上最大的GPU集群，同时，预计将成为第一台峰值性能达到每秒2百亿亿次（2×10^18）浮点运算能力的超算。

作为一位在英特尔工作了22年的老兵，在面对Aurora超算时，Olivier Franza还是感受到了压力。

2016年，Olivier Franza作为系统硬件架构师加入了Aurora项目，2021年，他成了首席架构师，目睹了Aurora项目向基于GPU架构的重大转变。

“首席架构师要做的就是根据客户的高标准要求，来调整超算的整体系统架构，”Franza解释说。“首席架构师也会关注一些基本的参数，比如总体性能指标，功耗情况，还有一些RAS（可靠性、可用性、可维护性）特性，这些对于构建有扩展性的系统都至关重要。”

当然，首席架构师要关注的是整个系统方方面面，从一个个节点到一个个机架再到整个系统，还要包括各种网络和存储组件，都需要考虑到。

一次技术路线转变为塑造未来产品创造了机会

Aurora超算是早期规划中计划采用一系列的英特尔产品技术。随着英特尔产品路线的调整，Aurora的规划也做出改变。

英特尔首席架构师：打造解决复杂科学难题的极光超级计算机

当英特尔宣布打造数据中心GPU产品线后，Franza参与到了英特尔数据中心GPU Max系列产品的设计讨论工作当中。

所以说，Aurora超算不是一步到位成现在这样的。Aurora超算的构建过程，影响着英特尔战略和产品线规划，也使得Aurora超算能在很高的层面解决规模和性能问题。

Franza表示，英特尔通过从组件到系统做出很多调整来满足Aurora超算的需求。

比如，英特尔至强CPU Max系列处理器的架构和概念，就衍生自英特尔至强Phi的一些特性，这是第一个在封装里集成了高带宽和高容量创新内存架构的产品。

此外，为了追求更高的性能，Aurora超算的各种子系统都取得了一些进步，从刀片服务器的散热，到高密度集成的方式再到存储部分，都有许多创新。

值得一提的是，在这一过程中，英特尔还构建了一个全新的存储系统——DAOS（分布式异步对象存储）。

Franza表示，这是一个开源项目，可以在传统硬件上实现高速存储，而Aurora超算是首批使用DAOS的用户之一，同时也是目前DAOS部署规模最大的用户。

从设计组件到把数千个系统连在一起

Aurora超算项目加强了英特尔系统级思考能力，也推动了英特尔内部各业务部门之间的协作，与外部阿贡科学家和HPE（HPE是该项目的另外一个主要参与者）工程师之间的协作，有很多跨职能部门和跨组织的协作工作。

英特尔首席架构师：打造解决复杂科学难题的极光超级计算机

“让一整个团队统一行动，交付像Aurora这样的超级计算机，对我们许多人来说，是一生难得一次的经历。”Franza说。

尽管工程师在六月份就安装了最后一台刀片服务器，但Aurora超算后续的大规模测试、稳定性验证还需要Franza 夜以继日的工作。

Franza为一个大的团队提供指导，该团队负责Aurora超算的启动、验证、稳定、优化工作，尽可能发挥系统在负载下的性能表现。其中最值得注意的是High Performance Linpack（HPL）基准测试，这是Top500榜单的排名依据，榜单上都是全球最强的超算系统。

每天早上，Franza都会仔细检查每个节点在夜间的运行情况，并为第二天及以后的工作制定计划。每天下午，Franza都会开会总结进展和遇到的难题。这样的工作每天都有，而机器也一直在运转当中。

“我们会系统地进行验证，”Franza解释说。“先从单个刀片服务器开始，然后转向机架规模，再到多个机架规模，以此进行大规模验证。”

Aurora超算由10624台刀片服务器组成，拥有63744块英特尔Max系列GPU，是世界上规模最大的GPU集群。在166个机架当中，使用了一共21248块英特尔至强Max CPU。

Franza介绍称，Aurora超算中心的大小相当于4个网球场那么大，听起来规模就很大，但只有亲眼看到它，才会真正意识到它有多大。

Franza的首要工作就是确保系统稳定性，功能完善，还要能正常运行。这是一项非常艰巨的任务，而Franza已经看到了胜利的曙光。

走在数据中心的通道里，看着灯光闪烁着，看着机器在正常运转，这令Franza感到神清气爽，并且很有满足感和成就感。

“一生一次难得一次”的努力，打造解决科学难题的超级计算机

打造一座有影响力的科研超级计算机固然会面临很多难题和阻碍，但考虑到Aurora超算在癌症研究方面的巨大潜力，有机会让所有人受益，Franza内心的使命感支撑他走了过来。

Aurora超算不仅会用于解决世界上一些最复杂的科学和工程问题，它还是运行生成式AI，并将生成式AI用于研究的理想平台。

英特尔首席架构师：打造解决复杂科学难题的极光超级计算机

据了解，Aurora超算将支持迄今为止，规模最大的大型语言模型，即1万亿参数的Aurora GenAI项目，从而提高科学家的工作效率、简化科学家的工作。

Franza做的是一件了不起的事情，而工作中令他感到欣慰的还有团队协作和友情。

Aurora超算是一项工程量浩大的项目，需要许多人付出长期努力，需要大量的毅力。

从Franza的介绍中了解到，其核心团队一直保持着马拉松式的心态，直到最后一刻都不能放松，团队需要的是那种能够长时间专注于极具挑战性事物的人，而这些人最终所取得的成就是大部分人都很难做到的。

来源：DOIT

英特尔

0赞

好文章，需要你的鼓励

英特尔首席架构师：打造解决复杂科学难题的极光超级计算机

来源：DOIT

2023

08/29

17:17

分享

点赞

联想集团混合式AI实践获权威肯定，CES期间获评“全球科技引领企业”

CES上杨元庆首谈AGI，碾压人类的叙事不会让AI更聪明

CES 2026 | 重大更新：NVIDIA DGX Spark开启“云边端”模式

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

成本打到6万以下，手把手教你用4路锐炫显卡+至强W跑DeepSeek

天翼云CPU实例部署DeepSeek-R1模型最佳实践

MWC 2025：英特尔展示基于至强6处理器的基础网络设施

英特尔至强6新品发布，能为数据中心带来哪些改变？

英特尔推出具备高性能和能效的以太网解决方案

英特尔推出搭载至强6处理器的卓越AI和网络解决方案

HPE Gen12：英特尔至强6加持，数据中心和边缘计算的“新宠”

英特尔Gaudi 2D AI加速器为DeepSeek Janus Pro模型提供加速

英特尔：旗下的“主打”18A 产品将于2025 年下半年投产

英特尔至强6加持下的火山引擎，要降低大模型的应用门槛

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: