10月22日上午,2021杭州云栖大会大数据平台技术论坛中,阿里云和各行业客户、大数据开发者共同探讨大数据平台技术发展趋势及最新演进,围绕业内持续受到关注的数据仓库、数据湖、湖仓一体架构等技术和云上实战经验进行了深入交流,并由阿里云智能计算平台产品与解决方案总经理高雪峰和阿里云智能研究员、阿里云智能通用计算平台MaxCompute、机器学习PAI平台技术负责人林伟分别对阿里云新一代离线实时一体化数仓与湖仓一体进行了全新升级发布,对这两项大数据技术进行了深入解读。
阿里云智能研究员、通用计算平台MaxCompute、机器学习PAI平台技术负责人林伟
云上数仓离在线一体化,实现分析性能提升
实时化和智能化成为云上数仓服务的发展方向。越来越多的企业无法忍受数据经过T+1的离线处理之后,再产生指导业务数据决策的漫长工作,而是希望能在不断产生实时数据的同时,与既有的离线数据一起产生实时洞察,从而立即产生业务所需的策略。
据高雪峰介绍,游戏玩家在游戏体验过程中,按照玩家的即时需求给他推送对当前游戏体验有很大帮助的礼包,在满足玩家体验的同时,也会增加付费转化率;在证券交易实时数据产生时,通过离在线一体化的数据分析实现交易,满足监管机构的管理要求,更好的帮助机构控制风险。

阿里云智能计算平台产品与解决方案总经理高雪峰
云上数仓离在线一体化方案,针对用户在分析领域各种时效性的需求,按需提供服务。离线大数据分析MaxCompute与实时数仓Hologres实现深度集成,对离线数据的实时化分析可以实现10倍性能的提升。
在实时数仓的内部构件当中,可以通过实时计算Flink版的能力实现事件驱动的实时数仓的构建。向外可以对数据湖中的数据进行高效的分析,实现数据高速入仓,通过对标准开放的 SQL协议的支持,实现对19款主流BI工具的原生支持,帮助客户快速构建从数据集成到数据分析界面的数仓应用。

数据规模越来越大,集群规模越来越大,一定会对大数据平台的运维能力产生很大的挑战,在海量数据可管,可控下,通过查询优化技术和文件存储优化技术将大规模集群的优势发挥到极致,并通过冷热冰存储的自动分层,为用户降低存储增长带来的成本的提升。智能数仓解决了大部分企业运维难的问题,真正做到企业大数据平台的智能驾驶。
湖仓一体新升级2.0,真正做到一份数据,统一管控,多样分析
最近,数据湖的形态被众多企业所使用,这种技术形态决定了企业很容易管理数据,并在其之上使用丰富的开源引擎做各种形态的计算。同时,在传统报表等BI应用催生下,企业已经构建的数据仓库形成了“数据孤岛”,数据间协同分析很难被执行,而且大部分企业没有将所有数据进行大集中处理的能力。
在应用需求催生下,面向不同的仓和湖形态的数据存储和分析,企业有了非常强的数据互通需求。这也是“湖仓一体”的产生的背景。去年,阿里云“湖仓一体”打通云上数仓产品“MaxCompute”与数据湖产品“EMR”,经过一年的客户磨练与沉淀,“湖仓一体”有了2.0的新能力。
从购买体验上,用户可以在线上分钟级打通云上Severless数据仓库( MaxCompute)和云原生数据湖(EMR+OSS),实现统一元数据、存储方面的安全互通。不仅更好的支持标准HDFS的数据访问,而且持续优化对OSS对象存储高速访问性能, 扩展支持Hudi、Delta Lake等开源数据湖格式。MaxCompute计算服务通过对智能缓存能力的升级,使访问EMR数据湖中的数据有10+倍性能的提升。

换句话说,湖仓一体2.0可以帮助企业消除数据孤岛,通过DataWorks将不同形态的数据统一管理与治理起来,并对特定应用加速分析。同时也可以帮助企业在新建数仓或者数据湖的同时,对既有系统进行充分利用,在应用需求日趋迫切的时候,为企业规避了进行数据大集中的决策性风险。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。