2021中国国际大数据产业博览会(简称“数博会”)5月26日在贵州贵阳隆重开幕。数博会上,华为中国区副总裁、中国区云与计算总裁张修征在接受人民日报、新华社等媒体的联合采访时表示,华为云将在贵州落地贵安华为云数据中心,以此为抓手辐射贵州及周边地区,携手贵州发力大数据产业,打造千亿级产业集群,助力高质量发展。
华为中国区副总裁、中国区云与计算总裁张修征接受采访
布局落子,华为全球最大数据中心落地贵安
贵州素来在发展大数据产业方面具备得天独厚的条件。张修征表示,十多次来贵阳,每次都能感受到贵州天翻地覆的变化。这让包括华为在内的许多企业都决定将数据中心放在贵州。
数博会上,贵安华为云数据中心正式对外发布。张修征表示,该数据中心是华为云“南贵北乌”两大数据中心之一,可容纳服务器规模超过100万台,为华为云在南部的21个省提供业务支持。同时,作为华为服务全球的内部数据中心,还将承担起支持华为全球业务服务的重任。
据了解,贵安华为云数据中心建成之后将成为华为全球最大的数据中心。借助该数据中心,华为云将充分发挥在大数据领域的技术实力和资源优势,使能贵州大数据产业上下游的合作伙伴,共筑良好的区域云生态,建立大数据产业的规模效应和集聚效应。
大数据产业的“数理化”,如何解题
近年来。贵州连续六年数字经济增速全国第一,取得了亮眼的成绩,大数据产业成为中国乃至全球产业中的重要一环。特别是在助力大数据与实体经济的深度融合中,华为为贵州“千企改造”“万企融合”发挥了巨大的作用。
如何梳理大数据产业的发展脉络张修征提出了一个形象的比喻:“大数据产业发展可以分为三个阶段,即物理、化学、数学。” 第一步是物理阶段,把数据集中在一起,通过数学的方法进行深入分析,大数据中心即承载此阶段的作用;第二步是化学阶段,则指在数据交换、数据交易方面,数据可以发生化学反应,比如说交通、电力、水利、消防等信息汇总在一起进行综合的分析,产生化学反应;第三步则是用数学的方法,通过人工智能的方式,让数据存起来、用起来、活起来。
张修征认为,目前贵州大数据产业发展已步入“数学”阶段,华为希望通过自身的云、大数据和AI等底层技术,联合生态伙伴一起来为贵州的各行各业提供服务。
将技术与场景融合,让贵州的明天更美好
ICT技术发展到今天,如何与更多的行业应用场景结合,创造更广泛的商业价值已经成为发展的关键。张修征认为:“场景是未来发展最关键的一点。华为下一步在贵州的重点也是结合各种各样的需求场景,来把我ICT的技术融入进去,更好的去使能整个行业,更好的造福社会。”
他介绍到,此次数博会上,上海市展出的城市治理一网统管业务,底层便由华为云提供技术支持。除此之外,从贵州的森林防火、野生动物保护、西南地区的煤炭开采到酒厂、旅游等,都是可以很好地利用云和AI去改造的应用场景。
张修征表示,,依靠5G、AI和云技术,华为可以为越来越多的本地产业、本地生态和本地场景提供更加无人化、少人化的作业可能,改善工作环境、提升工作效率。更好地服务场景应用,也将是华为云下一步携手贵州重点推进的工程。
目前,华为云已上线220多个云服务、210多个解决方案,发展20000+合作伙伴,汇聚180万开发者,云市场上架应用4500个。未来,华为将从“物理、化学、数学”三个角度,推动大数据产业的发展。立足“物理”的大数据中心,将让不同的数据在贵州完成流通交易,产生“化学”反应,进而用“数学”的方法,让数据活起来,用智变带来质变,为社会发挥作用,让老百姓、消费者得好处、得便利,打造产业发展的最强云底座。
好文章,需要你的鼓励
这篇研究提出了OThink-R1,一种创新的大型推理模型,能够像人类一样在快速直觉思维和慢速深度推理之间自动切换。研究者发现,现有推理模型即使面对简单问题也会生成冗长的推理过程,导致计算资源浪费。通过分析推理轨迹并使用LLM评判员区分冗余和必要推理,OThink-R1能根据问题复杂度动态调整思考深度。实验表明,该方法平均减少了23.4%的生成文本量,同时保持或提高了准确率,代表了向更高效、更人性化AI推理系统迈出的重要一步。
这项研究提出了SHARE,一种新型文本到SQL修正框架,它利用三个小型语言模型(SLM)协同工作,实现高效精准的SQL错误修正。SHARE首先通过基础行动模型将SQL转换为行动轨迹,再经过模式增强模型和逻辑优化模型的层次化精细化修正。研究团队还创新性地提出了层次化自演化训练策略,大大提高了训练数据效率。实验结果表明,SHARE在多个基准测试上显著提升了SQL生成准确率,计算成本仅为传统方法的十分之一,并展现出强大的泛化能力,适用于各种生成器模型和SQL方言。
这项由香港大学和南京大学等机构研究人员联合开发的双专家一致性模型(DCM)解决了高质量视频生成中的效率难题。研究团队发现扩散模型蒸馏过程中存在优化冲突:早期阶段负责语义布局与运动,后期阶段关注细节精修,两者学习动态差异显著。DCM创新性地将这两个任务分配给不同的专家模型,通过参数高效的实现方式,使模型仅需4步即可生成接近50步原始模型质量的视频,大幅提升生成速度,为实用化AI视频创作铺平道路。
这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QARI v0.2模型创下了0.061的字符错误率和0.160的单词错误率,超越了现有开源解决方案,为阿拉伯文化遗产的数字化保存提供了重要工具。