5月26日,2022中国国际大数据产业博览会(以下简称“数博会”)在线上举办。华为高级副总裁、华为云CEO张平安在开幕式主题演讲中表示,面对数字经济加速发展的机遇期,应发挥数据的集聚规模效应,加快数智融合并重塑数据价值,让更多基础设施、技术以及经验云化、服务化,聚焦一切皆服务,“抢数字新机,享数字价值”。
(图)华为高级副总裁、华为云CEO张平安于数博会开幕式发表主题演讲
让数据资源在集聚中实现效益最优
为响应国家“东数西算”工程,把握数字经济加速发展战略机遇期,华为云已在贵州布局全球总部和最大的云数据中心,全力支持贵州打造“中国数谷”。华为云贵安数据中心依托贵州有利的气候、能源、环境等优势,积极实践绿色理念和应用智能技术,为全球客户打造“绿色云服务”。其中,贵安数据中心能效比PUE仅1.12,处于业界领先水平,满负荷运行的情况下,预计每年可节省电力10.1亿度,减少碳排放81万吨,相当于年植树3567万棵,积极响应了“碳达峰”、“碳中和”的绿色发展理念。目前,该数据中心已投入商用,未来的规模将达到100万台服务器。
华为云贵安数据中心重点打造了高可靠、高能效、低碳数据中心集群,不断提升算力服务品质和利用效率,通过大数据、云数仓、云数据库、云存储、云渲染等云解决方案,支持更多伙伴和客户将业务搬迁至华为云,畅享云服务。华为云构建的海量云资源,保障着许多影视、汽车、生物医药等行业的高计算和高数据资源消耗需求,例如《长津湖》等电影大片的制作,已使用了华为云“万核渲一图”的澎湃算力,极大地缩短了影视后期制作的周期。
用“数智融合”重塑数据价值
在数字时代,数据已经成为了重要的生产要素和资产,但目前数据的价值仍未充分得以利用。一方面,许多企业缺少科学高效的数据治理方案,另一方面,数据作为AI的基础,如何在AI分析过程中充分发挥数据价值,促进“数智融合”仍是业界难题。以汽车电池生产工艺优化为例,相关工艺涉及1000多个制程,如开发一个AI模型,则需要把电池生产线的运行数据、企业经营的业务数据、以及电池的使用数据汇聚到一起,经过几周的数据处理再进行AI训练,导致AI模型难以快速地验证、迭代。
华为云认为,“数智融合”是数据价值重塑的引擎。为实现“数智融合”,应以AI驱动数据治理,让数据自主有序地流向可以产生最大价值的地方;同时,让数据在AI开发过程中无缝流转,使AI开发更高效。为此,华为云着力打造数智融合云平台,打通数据治理生产线、AI开发生产线,构建统一的开发环境、统一的元数据管理、统一的存储,让数据开发效率由“周”级提升到“小时”级,大幅降低数据存储成本,让数据和AI开发进入现代化的生产阶段。
一切皆服务,让千行百业真正用好云
目前,在千行百业的数字化转型过程中,每一家企业在资源上云、应用上云和深度用云的实践进展各不相同,往往也会面临“不会上,用不好”的挑战。为此,华为云提出了“一切皆服务”的战略,把基础设施、技术以及经验云化、服务化,致力于帮助千行百业的客户容易上云、方便上云、用好云。例如,不少企业缺乏专家和训练数据,未能有效地将AI能力与业务场景结合,因此难以快速开发出AI应用。为此,华为云将AI、大数据、音视频等核心技术云化,集成海量开发工具,让所有客户随取随用,高效开发。
同时,华为云持续深耕政府、金融、工业等行业,将华为与伙伴、客户的合作创新以及数字化转型经验沉淀成为云服务,已陆续开放了50多个应用场景,提供超过2万个API服务,让更多企业就不必重复造轮子,通过云服务即获得全行业最优秀的数字化经验。
面向未来的智能世界,华为云将持续创新,携手客户、合作伙伴和开发者,以云原生的思维践行云原生,实现全数字化、全云化、AI驱动,深耕数字化,一切皆服务。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。