网易数帆Arctic即将开源，助推湖仓一体落地

秉承网易数帆“架构开放，内核开源”的理念，Arctic即将开源！

8月11日，网易数帆将举办“企业级流式湖仓服务 Arctic 开源发布会”，邀请网易数帆大数据产品线及合作伙伴相关负责人联袂解读对数据技术演进及 Arctic 开源的思考，介绍 Arctic 项目进展、未来发展及社区规划，分享企业湖仓一体实践成果与心得。

数据基础设施发展的脚步从未停歇，当前风头正盛的是湖仓一体（Lakehouse）。

湖仓一体，顾名思义是数据湖和数据仓库优势的结合。随着企业数智化的推进，湖仓一体已不仅仅是开源社区的热点技术，硅谷顶级风头投机构A16Z版图的视野中心，更是众多大数据商业产品家族的重要成员。

网易数帆Arctic即将开源，助推湖仓一体落地

那么，湖仓一体真的会成为企业大数据基础设施的标准？我们是否应当关注这一技术？它的未来是什么？

为什么需要湖仓一体

借用Databricks的定义，湖仓一体平台能同时提供数据仓库的可靠性、强大的治理和性能，以及数据湖的开放性、灵活性和机器学习支持。网易数帆湖仓一体项目负责人马进认为，湖仓一体是接力Apache Hadoop蓬勃生态的新赛道，它的核心特性就是在数据湖上构建事务层，把数据处理和管理高级功能嫁接到低成本数据存储架构上。这是业务需求驱动的架构演进，毕竟业务数据类型及规模不断扩大，而对计算实时性的要求又更高。

网易数帆Arctic即将开源，助推湖仓一体落地

以网易为例，从T+1 离线数据生产，到引入实时化并不断完善，如引入Apache Kudu解决Hive离线数仓在实时数据更新上的不足，形成了流批分割的Lambda架构（这也是业界大数据架构演进的一个缩影），然后数据孤岛、研发体系割裂以及指标和语义的二义性等问题逐渐暴露，这就需要一个更加优雅的统一数据基础设施架构，也就是湖仓一体来解决。基于数据湖开源三剑客（Delta Lake、Apache Iceberg、Apache Hudi）的实现方案，则成为了热门的选择。

网易数帆流式湖仓的创新

尽管在造词法上Lakehouse确实是Data Lake和Data Warehouse的缝合怪，然而要成为生产级的新技术，湖仓一体毕竟不是数据湖和数据仓库1+1=2那么简单。在马进看来，目前湖仓一体方案存在两大不足：一是所读即所写，会产生流式摄取导致海量小文件等问题；二是实时能力不足，比如基于湖仓一体的流计算延迟在分钟级别。

基于此，马进带领团队研发了命名为Arctic的流式湖仓服务，提出了五个设计目标：提供可靠的湖仓一体服务，解决主流湖仓一体的不足，面向更多流批一体的场景，尽可能不要重复造轮子，和寻求代际型解决方案。

技术方案上，Arctic搭建在Iceberg表格式之上，复用Iceberg各种功能，并完全兼容Hive。Arctic面向流场景提供优化的CDC（变更数据获取）和流式更新能力，也可以开放式地集成 MQ、KV 等中间件，向 Flink、Spark、Trino 等主流计算引擎提供流批统一的表服务，以实现数据湖和数仓的统一，并融入实时的能力，流计算延迟可达毫秒级。

由此，Arctic 可视为一个独立的实时数仓服务，用户无需关心数据存储结构、大小和分布，或是否引入其他中间件。

流式湖仓的未来

三十年前，西方学者面对社会变迁发出“历史的终结”的感慨，但历史已经给这一论断打脸。那么，流式湖仓又是否会成为现代大数据基础架构的终点？回顾数据分析领域，先后出现的数据仓库、OLAP、BI、大数据、数据中台等各种方法论，都已融入企业数据生命周期，而底层的Hadoop体系依然在广泛使用，我们有理由相信，流式湖仓服务这一源自业务需求的设计，实现方式可能会升级，但这一思想必将长存于数据基础设施。

从A16Z的全景图我们也可以看到，企业级数据基础设施架构的稳定往往伴随着长时间的沉淀，而Arctic开放的架构及对Hadoop生态的兼容，已经预示着它的生命力。

来源：业界供稿

网易数帆

0赞

好文章，需要你的鼓励

网易数帆Arctic即将开源，助推湖仓一体落地

来源：业界供稿

2022

08/02

14:38

分享

点赞

抖音升级AI内容标识功能，协助创作者打标、支持元数据读写

从攻防实战到AI赋能，微步在线的十年安全沉淀

Intuit如何从聊天机器人失败走向企业智能体成功

马斯克的Grok推出新编程模型，主打高速开发

跳过无聊部分：Google Photos AI自动高亮视频精彩瞬间

AI能读取思维——脑机接口技术实现74%准确率解码内心语言

GSI如何在企业AI竞赛中脱颖而出

沃尔玛智能体AI战略升级：Element平台与开发者"超级智能体"Wibey亮相

英伟达财报后加速推进机器人与自动化布局

软件占据网络安全预算40%，生成式AI攻击速度达毫秒级

Sakana AI推出M2N2算法，无需昂贵重训练即可构建强大AI模型

量子技术即将迎来关键拐点

构建数智竞争力 网易数帆给出这些方法

网易数帆数智生态方法论升级：“产品+工程+人才”助力企业构建数智竞争力

构建独特竞争力 网易数帆多举措赋能企业数智转型

全面融合AIGC能力，网易数帆持续精耕数智业务

网易数帆新增十家生态伙伴，计划免费开放CodeWave智能开发平台

引入AIGC技术 网易数帆CodeWave让低代码开发更智能

融合低代码与AIGC技术 网易数帆发布CodeWave智能开发平台

网易数帆上线SaaS免费版 创造10万就业普惠低代码开发者

实现技术普惠 网易数帆轻舟低代码的差异化竞争之道

网易数帆中标安徽电信，低代码助跑通信行业高效运营

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

构建数智竞争力网易数帆给出这些方法

构建独特竞争力网易数帆多举措赋能企业数智转型

引入AIGC技术网易数帆CodeWave让低代码开发更智能

融合低代码与AIGC技术网易数帆发布CodeWave智能开发平台

网易数帆上线SaaS免费版创造10万就业普惠低代码开发者

实现技术普惠网易数帆轻舟低代码的差异化竞争之道