导语:2022年4月2日,华为数据通信产品线研发总裁刘少伟接受央视《对话》栏目的采访,畅谈“东数西算”和算力时代,阐述华为如何基于“IPv6+”创新技术打造算力时代的联接底座,并提出算力网络的长期目标是构建 “全国一台计算机”,算力将成为一项公共服务,用户可以随用随取。
《对话》栏目:算力时代的中国机会
近日,国家发展改革委、中央网信办、工业和信息化部、国家能源局联合发布《全国一体化大数据中心协同创新体系算力枢纽实施方案》,提出在京津冀、长三角、粤港澳大湾区、成渝以及贵州、内蒙古、甘肃、宁夏建设全国算力网络国家枢纽节点,启动实施“东数西算”工程,构建国家算力网络体系。
“东数西算”是把东部地区的非实时算力需求以及大量生产生活数据输送到西部地区的数据中心进行存储、计算并反馈。与“南水北调”、“西电东送”、“西气东输”等超级工程一样,“东数西算”的根源在于国内资源供给的不平衡,需要跨越地理维度解决资源分配问题,是实现未来爆炸式算力需求和双碳目标平衡的最优解。
从算力需求来看,截止到2022年初,国内已建成的数据中心为500万标准机架,整体算力达到130EFLOPS,国家整体算力以20%速度持续增长。而且从数据增长情况也能看到端倪,到2030年,80%的数据增长都是非结构化数据,这些数据的处理更多需要AI算力来支持,未来AI算力预计将有500倍的增长。
在算力需求高速增长的同时,我们也看到东、西部算力规模和发展并不均衡。根据中国信息通信研究院在《中国算力发展指数白皮书》中给出的数据:东部省市对算力的需求普遍较高,其中算力需求大户互联网企业集中的北京、广东、上海的算力规模位列前三;浙江、广东、江苏等东部省份算力增速超过60%;内蒙古、贵州、甘肃等西部省份算力规模和增速偏低,数据中心上架率不足。
从数据分类角度来看,主要分为热数据、温数据和冷数据三种类型。热数据是处理时间要求高、需要立刻做决策并运算的数据,例如自动驾驶、远程医疗等,端到端传输时延需要小于10ms,热数据只占总数据量的5%;温数据是访问频率介于热数据和冷数据之间的数据,传输时延在10-30ms之间,占总数据量的15% 。冷数据一般指的是时效性需求不太高、对时延不敏感的数据,例如数据备份和离线训练等,传输时延在30ms以上,冷数据占比达到总数据量的80%; “东数西算” 将实时性要求不高的业务部署在西部节点,能够促进数据中心集约化、集群化发展。
从资源角度来看,东部数字经济发展迅速、算力的需求量大,但能源和土地资源有限。而充足的清洁能源保障、低成本电价、相对低廉的土地供应成本以及凉爽的气候,是西部地区的优势,也是发展数据中心、承接东部算力需求的基础。据统计,西部地区可再生能源资源占全国资源总量的70%以上,而且由于环境优势使数据中心能效比PUE可以做到1.2,优于东部平均值1.5。假设每1万机架部署在西部绿色能源区域,就可节约3亿千瓦时电力,减少20+万吨碳排放,相当于种下1300万棵树。
实施“东数西算”工程,将推动数据中心合理布局、优化供需、绿色集约和互联互通,有利于提升国家整体算力水平,实现整体资源的最优化配比,降低算力使用成本,促进算力普惠,同时有利于推动区域协调发展,打开了西部开发新格局,“东数西算”建设正逢其时。
算力作为数字经济的物理承载,正在像水和电一样成为个人和企业社会活动中不可或缺的基础需求。近年来,各国纷纷制定行动计划,不断运用算力助推经济增长。从数据分析来看,全球各国算力水平与经济发展水平呈现显著的正相关,根据《中国算力发展指数白皮书》,每1元的算力投入,可以带动3-4元的经济产出。
在实际的生产和生活中,算力发挥的作用已经超出我们的想象。比如,传统药物研发面临周期长以及成功率低的问题,一款新药研发周期通常为6到10年时间甚至更长,且从规划到最终上市成功率不足10%。算力在新药研发规划、新药设计、药物临床试验等新药研发环节中可以发挥重要作用,通过对包含有基因、蛋白、化合物分子结构等信息的生物大数据以及海量的临床大数据进行分析处理,使得新药研发上市周期显著缩短,快速应对诊疗需求或公共卫生问题。再比如,清洁能源如光伏、风电等,由于天气情况的导致不可预测性,产生的电能并入电网难度大,出现部分弃风、弃光等现象。随着AI算力的发展,未来可以将气象和能源结合,通过天气、风速等精准预测,构建清洁能源发电数据预测模型,通过跨界创新,更准确的进行控制和调度,提升清洁能源使用效率。 未来,算力将发挥更大的作用,更深层次改变我们的生产和生活方式。
在算力时代,算力是中心,网络是根基。类似于“西电东送”的发电厂和电网,算力网络由提供算力的数据中心和输送算力的网络组成,连接着用户、数据和算力。“东数西算”是一个解决东西部算力规模和增速发展不均、提升跨区域算力调度水平的系统工程,其中网络会贯穿算力的生产、传输和消费的全流程,需要做到算力高效释放、算力灵活调度、边缘最优服务,让千行百业可以像用电一样便捷使用算力。
● 算力高效释放(数据中心内):数据中心是算力的发电站,必须保证算力的最大产出。由于单台服务器算力有限,需要用网络联接成千上万的服务器组建大规模算力集群。联接规模越大,联接能力要求就越高。比如,海量服务器之间进行数据互访时,很容易由于流量突发而产生丢包。以RoCE网络为例,0.1%的丢包会导致网络吞吐率下降50%,造成算力资源的严重浪费。
基于多年技术积累,华为创新地将智能无损算法引入数据中心网络交换机,攻克了以太网丢包难题。在服务器规模不变的情况下,数据中心内算力最高可提升93%。为了构建超大规模算力集群,华为将直连拓扑和自适应路由引入以太网领域,目前最高可支持27万台服务器的零丢包组网,组网规模达到业界平均水平的4倍,网络跳数和时延可降低25%。未来,华为超融合数据中心网络将引入网络级负载分担技术,实现网络有效带宽的倍增;同时通过与服务器网卡等端侧配合的端网协同算法,实现单跳动态时延从10-100μs缩短到1μs级,针对人工智能、高性能计算、高性能存储等业务进一步释放算力。
● 算力灵活调度(数据中心间):就像西电东送中的输变电网络一样,算力网络把算力从西部输送到东部,算力网络承载着海量企业成百上千的业务。如果把企业比作嗷嗷待哺的小鸟,那作为算力网络的鸟妈妈,如何满足每个小鸟的需求,又能公平高效的给小鸟喂食是个很大的挑战。一方面,针对每个企业对算力的需求不同,我们通过智能云图算法和基于IPv6+的新技术,按照业务实际情况为其提供一条最佳的算力网络路径,从而实现供需侧的最优资源配置。同时,我们通过切片技术将网络按业务类型划分成不同车道,相互隔离,保证算力能够高效、及时和准确的送达。
● 边缘最优服务(边缘算网): 云游戏、自动驾驶、VR/AR、物联网及工业互联网新型应用对网络时延、数据安全可控提出高要求,边缘计算应运而生。Gartner认为,到2025年,大约超过75%的数据将在边缘侧处理。边缘算网将是算力网络的重要场景,边缘联接设备数量剧增,联接要安全可控的保障,算力要实时灵活的提供,都需要边缘算力与网络相互感知,实现“网络+算力”在边缘的联合优化调度。解决这个挑战的关键技术就是算力感知路由,华为积极探索算力感知路由创新,实现应用在边缘算力资源池部署后,网络从路由层实时感知和扩散业务的算力负载,网络接入节点根据应用标识对应用进行实时流量调度,从而提升整网算力、存储、网络等资源利用率,为用户提供边缘最优算网服务,实现算力普惠。
随着网络与计算的融合,算力资源由“端”变“网”,未来在用户的不同距离上会遍布许多不同规模的算力,通过网络为用户提供各类个性化的服务。如何保障用户体验一致性?如何实现服务灵活动态部署?这些挑战只在“计算域” 内是无法解决的,需要考虑“网络域” 与“计算域”如何协同。为了攻克这些技术难题,包括算力感知网络(CAN)、应用感知网络(APN)等新技术应运而生 ,通过网络、存储、算力等多维度资源的统一管理和协同调度,实现连接和算力在网络的全局优化,达成业务与资源的最优配置。相关标准也在国内外多个标准组织获得了广泛的关注和实质性的进展,其工作组成立预讨论会(BoF),吸引了业界200余位专家积极参与讨论,华为与业界伙伴在IETF已经合作发布了10余篇APN相关技术文稿。这些工作都为推进相关技术的标准化工作奠定了坚实的基础。
算力作为数字经济时代的新生产力,通过基础设施化,从而广泛服务于我国数字社会转型中的方方面面。算力网络的长期目标就是构建 “全国一台计算机”,算力将成为一项公共服务,用户可以随用随取。
在当今数字化时代大潮中,机遇与挑战并存。华为将持续携手客户及合作伙伴,共同应对数字化转型中的挑战,持续聚焦联接技术和计算技术融合的算力网络,用领先的硬件、软件和算法构建数字世界的智能基础设施。
好文章,需要你的鼓励
英伟达凭借其在图形处理器领域的深厚积累,成功转型为AI计算的领军企业。英伟达通过其GPU、CPU、DPU三芯战略,以及强大的软件生态
AI Agent(人工智能体)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent具备通过独立思考、
探讨如何提高人工智能系统在复杂任务中的透明度和可信度方面,纽约大学数据科学中心的研究人员提出了一种创新方法,通过自我博弈