本次的数据湖评测,是信通院推进的国内首家数据湖标准评测,共涉及存储能力、计算能力、安全能力、数据管理能力、兼容能力、运维能力、湖应用能力、高可用能力八个能力域。阿里云及国内友商等都参与标准设计,最终阿里云以得分排名第一的标准考核荣获云原生数据湖专项评测证书。国内首批!得分排名第一!
随着各行业数字化转型不断深入,基于数据驱动的业务场景不断涌现,企业开始产生“多样数据源统一存储、数据统一管理、业务高低峰资源动态调配”等需求。而数据湖是一个统一存储池,支持结构化、半结构化、非结构化等多种格式存储海量数据,同时具有低成本、可拓展性强、灵活高效等特性,越来越多企业选择数据湖作为企业数据存储、管理的解决方案。
近年来Hudi、Iceberg、Delta Lake三大开源数据湖的面世推动数据湖整体进入产品化阶段。与此同时,与容器、Serverless等云原生技术的深度融合,引领数据湖产品开始走向云原生。云原生数据湖支持异构数据灵活存储、计算资源弹性伸缩,能够帮助企业应对当前数据结构愈发复杂、数据处理分析时效性要求不断提高的业务环境。
2022年3月29日-3月31日,在中国信通院组织的第十四批“可信大数据”产品能力评测中,阿里云计算有限公司顺利完成了首个云原生数据湖评测。
参与此次评测的是阿里云云原生数据湖产品,包括云原生开源大数据平台 E-MapReduce、数据湖构建 DLF(Data Lake Formation)、对象存储 OSS 以及 DataWorks等产品。整个产品体系提供“统一元数据管理、数据入湖、数据存储、缓存加速、弹性计算、容器、数据分析、任务编排、运维管理,以及安全”等全面数据湖能力。
E-MapReduce
开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、StarRocks、Delta、Hudi、HBase 等开源大数据计算和存储引擎。EMR 计算资源可以根据业务的负载情况做动态调整,EMR可以部署在阿里云 ECS 和 ACK 上。
数据湖构建 DLF
数据湖构建(Data Lake Formation,DLF)作为云原生数据湖架构核心组成部分,帮助用户快速构建云原生数据湖解决方案。数据湖构建DLF提供数据入湖、湖上元数据统一管理、企业级权限控制,并无缝对接多种计算引擎,打破数据孤岛,洞察业务价值。
对象存储OSS
阿里云对象存储OSS(Object Storage Service)提供海量、安全、低成本、高可靠的云存储服务,提供99.9999999999%(12个9)的数据持久性,99.995%的数据可用性。多种存储类型供选择,全面优化存储成本。
DataWorks
DataWorks 提供智能数据建模、全域数据集成、高效数据开发、主动数据管理、全面数据安全、快速数据服务六大全链路大数据开发治理能力,帮助企业快速构建数据中台。
企业可以基于 DataWorks + E-MapReduce + DLF + OSS 在云上轻松构建一套完整的数据湖解决方案,目前阿里云已经与互娱、游戏、金融和在线教育等行业客户携手,通过数据湖解决方案加速企业内部数据应用的创新。
好文章,需要你的鼓励
香港中文大学与华为诺亚方舟实验室合作开发了PreMoe框架,解决了大型混合专家模型(MoE)在内存受限设备上的部署难题。研究团队发现MoE模型中的专家表现出明显的任务专业化特征,据此提出了概率专家精简(PEP)和任务自适应专家检索(TAER)两大核心技术。实验证明,DeepSeek-R1 671B模型在精简50%专家后仍保持97.2%的MATH500准确率,内存需求降至688GB;而更激进的精简方案(减少87.5%专家)也能保持72.0%的准确率。该方法适用于多种MoE架构,为强大AI系统的广泛部署铺平了道路。
SCIENCEBOARD是一项开创性研究,旨在评估多模态自主智能体在真实科学工作流中的表现。研究团队构建了一个包含169个高质量任务的基准测试,涵盖生物化学、天文学等六个科学领域,并开发了一个真实环境让智能体通过CLI或GUI接口与科学软件交互。实验评估表明,即使是最先进的模型在这些复杂科学任务上的成功率也仅为15%,远低于人类表现,揭示了当前技术的局限性并为未来科学智能体的发展提供了宝贵见解。
帝国理工学院的研究团队开发了AlphaMed,这是首个仅通过极简规则强化学习就能培养医疗推理能力的AI模型,无需依赖传统的思维链示范数据。通过分析数据信息丰富度和难度分布的影响,研究发现高信息量的医疗问答数据是推理能力的关键驱动因素。AlphaMed在六个医疗问答基准上取得了领先成绩,甚至超越了更大的封闭源模型,同时展现出自发的步骤推理能力,为医疗AI发展提供了更加开放、高效的新路径。
Alita是一种新型通用AI代理系统,采用极简设计理念,以"最小预定义,最大自我进化"为原则构建。由普林斯顿大学等多家机构研究团队开发的Alita,只配备一个核心能力和少量通用模块,能自主创建所需工具并重用为模型上下文协议(MCPs)。实验显示,Alita在GAIA基准测试上达到87.27%的通过率,超越包括OpenAI Deep Research在内的复杂系统,证明简约设计可带来卓越性能。