2022年5月26日,中国国际大数据产业博览会(以下简称“数博会”)在贵阳召开,数博会“十佳大数据案例”揭晓,阿里云云原生一体化数仓入选。
为培育专业化、场景化的大数据解决方案,构建多层次的工业互联网平台、建设行业的大数据平台,阿里云整合自研大数据产品MaxCompute、DataWorks、Hologres、Flink提出云原生一体化数仓,为企业提供一站式大数据处理平台。此次入选国家工业信息安全发展研究中心在支撑工信部大数据产业发展试点示范项目的基础上组织评选出的2022年数博会“十佳大数据案例”,代表阿里云大数据受到了产业和客户的广泛认可。
阿里云云原生一体化数仓可以解决企业在建设大数据平台中对时效性、准确性、性价比、非结构化数据处理,通过精简的架构,支撑分析决策、异构大数据平台之上的全域数据分析需求。
云原生一体化数仓的核心技术包括离线实时一体、湖仓一体、分析服务一体、全链路数据治理四个方面,架构图如下。

通过MaxCompute和实时数仓Hologres的深度融合,提供灵活的离线实时一体的数据交换能力。MaxCompute具备EB级海量数据加工能力,Hologres采用MPP引擎,支持秒级交互式分析,擅长高并发低延迟场景,MaxCompute和Hologres 之间支持百万行/秒数据极速同步能力,离线数据快捷刷新在线服务数据;两个引擎在场景和技术上形成补充,相辅相成,最终满足在线应用、数据大屏、运营看板、即席查询等多种场景的要求。
湖仓一体旨在将数据湖和数据仓库两种不同的数据管理架构进行融合,从而让企业构建大数据平台时可兼顾数据湖的灵活性和数据仓库的企业成长性。通过支持开放的数据湖文件格式以及对数据分析多样化统一管理,支持湖仓一体能力。
通过一套数据架构同时支持自助多维分析和数据在线服务,实现分析服务一体的统一数据服务层;减少数据割裂,减少数据移动,构建统一数据服务出口。
通过DataWorks全链路数据治理,支撑数据集成、数据开发、数据管理、数据分析、数据服务等数据全生命周期管理,提供一站式数据开发治理服务。
目前阿里云云原生一体化数仓已经被应用于工业制造、电商、物流、金融、政务等多个行业中,全面助力各行各业数字化转型,驱动业务创新变革。
了解更多阿里云大数据:https://www.aliyun.com/product/bigdata/apsarabigdata
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。