8月11日,网易数帆将举办“企业级流式湖仓服务 Arctic 开源发布会”,邀请网易数帆大数据产品线及合作伙伴相关负责人联袂解读对数据技术演进及 Arctic 开源的思考,介绍 Arctic 项目进展、未来发展及社区规划,分享企业湖仓一体实践成果与心得。
数据基础设施发展的脚步从未停歇,当前风头正盛的是湖仓一体(Lakehouse)。
湖仓一体,顾名思义是数据湖和数据仓库优势的结合。随着企业数智化的推进,湖仓一体已不仅仅是开源社区的热点技术,硅谷顶级风头投机构A16Z版图的视野中心,更是众多大数据商业产品家族的重要成员。
那么,湖仓一体真的会成为企业大数据基础设施的标准?我们是否应当关注这一技术?它的未来是什么?
为什么需要湖仓一体
借用Databricks的定义,湖仓一体平台能同时提供数据仓库的可靠性、强大的治理和性能,以及数据湖的开放性、灵活性和机器学习支持。网易数帆湖仓一体项目负责人马进认为,湖仓一体是接力Apache Hadoop蓬勃生态的新赛道,它的核心特性就是在数据湖上构建事务层,把数据处理和管理高级功能嫁接到低成本数据存储架构上。这是业务需求驱动的架构演进,毕竟业务数据类型及规模不断扩大,而对计算实时性的要求又更高。
以网易为例,从T+1 离线数据生产,到引入实时化并不断完善,如引入Apache Kudu解决Hive离线数仓在实时数据更新上的不足,形成了流批分割的Lambda架构(这也是业界大数据架构演进的一个缩影),然后数据孤岛、研发体系割裂以及指标和语义的二义性等问题逐渐暴露,这就需要一个更加优雅的统一数据基础设施架构,也就是湖仓一体来解决。基于数据湖开源三剑客(Delta Lake、Apache Iceberg、Apache Hudi)的实现方案,则成为了热门的选择。
网易数帆流式湖仓的创新
尽管在造词法上Lakehouse确实是Data Lake和Data Warehouse的缝合怪,然而要成为生产级的新技术,湖仓一体毕竟不是数据湖和数据仓库1+1=2那么简单。在马进看来,目前湖仓一体方案存在两大不足:一是所读即所写,会产生流式摄取导致海量小文件等问题;二是实时能力不足,比如基于湖仓一体的流计算延迟在分钟级别。
基于此,马进带领团队研发了命名为Arctic的流式湖仓服务,提出了五个设计目标:提供可靠的湖仓一体服务,解决主流湖仓一体的不足,面向更多流批一体的场景,尽可能不要重复造轮子,和寻求代际型解决方案。
技术方案上,Arctic搭建在Iceberg表格式之上,复用Iceberg各种功能,并完全兼容Hive。Arctic面向流场景提供优化的CDC(变更数据获取)和流式更新能力,也可以开放式地集成 MQ、KV 等中间件,向 Flink、Spark、Trino 等主流计算引擎提供流批统一的表服务,以实现数据湖和数仓的统一,并融入实时的能力,流计算延迟可达毫秒级。
由此,Arctic 可视为一个独立的实时数仓服务,用户无需关心数据存储结构、大小和分布,或是否引入其他中间件。
流式湖仓的未来
三十年前,西方学者面对社会变迁发出“历史的终结”的感慨,但历史已经给这一论断打脸。那么,流式湖仓又是否会成为现代大数据基础架构的终点?回顾数据分析领域,先后出现的数据仓库、OLAP、BI、大数据、数据中台等各种方法论,都已融入企业数据生命周期,而底层的Hadoop体系依然在广泛使用,我们有理由相信,流式湖仓服务这一源自业务需求的设计,实现方式可能会升级,但这一思想必将长存于数据基础设施。
从A16Z的全景图我们也可以看到,企业级数据基础设施架构的稳定往往伴随着长时间的沉淀,而Arctic开放的架构及对Hadoop生态的兼容,已经预示着它的生命力。
好文章,需要你的鼓励
Intuit在ChatGPT发布后匆忙推出的聊天式AI助手遭遇失败,随后公司进行了为期九个月的战略转型。通过观察客户实际工作流程,发现手动转录发票等重复性劳动,决定用AI智能体自动化这些任务而非强加新的聊天行为。公司建立了三大支柱框架:培养构建者文化、高速迭代替代官僚主义、构建GenOS平台引擎。最终推出的QuickBooks支付智能体让小企业平均提前5天收到款项,每月节省12小时工作时间。
希伯来大学研究团队开发出MV-RAG系统,首次解决了AI在生成稀有物品3D模型时的"胡编乱造"问题。该系统像拥有图像记忆库的艺术家,能先搜索相关真实照片再生成准确3D视图。通过独创的混合训练策略和智能自适应机制,MV-RAG在处理罕见概念时性能显著超越现有方法,为游戏开发、影视制作、虚拟现实等领域提供了强大工具。
马斯克旗下xAI公司发布专为开发者设计的新AI模型grok-code-fast-1,主打快速且经济的推理能力。该模型属于Grok 4系列,具备自主处理任务的能力。xAI声称其在SWE-bench评测中解决了70.8%的实际软件问题,表现优于GPT-5和Claude 4。不过模型存在较高的不诚实率问题。用户可通过GitHub Copilot等平台免费试用7天,需要API密钥访问。
MBZUAI等机构研究团队通过一维细胞自动机实验揭示了AI模型多步推理的关键限制:固定深度模型在单步预测上表现优异,但多步推理能力急剧下降。研究发现增加模型深度比宽度更有效,自适应计算时间、强化学习和思维链训练能突破这些限制。这为开发更强推理能力的AI系统提供了重要指导,强调了真正推理与简单记忆的本质区别。