10月22日上午,2021杭州云栖大会大数据平台技术论坛中,阿里云和各行业客户、大数据开发者共同探讨大数据平台技术发展趋势及最新演进,围绕业内持续受到关注的数据仓库、数据湖、湖仓一体架构等技术和云上实战经验进行了深入交流,并由阿里云智能计算平台产品与解决方案总经理高雪峰和阿里云智能研究员、阿里云智能通用计算平台MaxCompute、机器学习PAI平台技术负责人林伟分别对阿里云新一代离线实时一体化数仓与湖仓一体进行了全新升级发布,对这两项大数据技术进行了深入解读。
阿里云智能研究员、通用计算平台MaxCompute、机器学习PAI平台技术负责人林伟
云上数仓离在线一体化,实现分析性能提升
实时化和智能化成为云上数仓服务的发展方向。越来越多的企业无法忍受数据经过T+1的离线处理之后,再产生指导业务数据决策的漫长工作,而是希望能在不断产生实时数据的同时,与既有的离线数据一起产生实时洞察,从而立即产生业务所需的策略。
据高雪峰介绍,游戏玩家在游戏体验过程中,按照玩家的即时需求给他推送对当前游戏体验有很大帮助的礼包,在满足玩家体验的同时,也会增加付费转化率;在证券交易实时数据产生时,通过离在线一体化的数据分析实现交易,满足监管机构的管理要求,更好的帮助机构控制风险。
阿里云智能计算平台产品与解决方案总经理高雪峰
云上数仓离在线一体化方案,针对用户在分析领域各种时效性的需求,按需提供服务。离线大数据分析MaxCompute与实时数仓Hologres实现深度集成,对离线数据的实时化分析可以实现10倍性能的提升。
在实时数仓的内部构件当中,可以通过实时计算Flink版的能力实现事件驱动的实时数仓的构建。向外可以对数据湖中的数据进行高效的分析,实现数据高速入仓,通过对标准开放的 SQL协议的支持,实现对19款主流BI工具的原生支持,帮助客户快速构建从数据集成到数据分析界面的数仓应用。
数据规模越来越大,集群规模越来越大,一定会对大数据平台的运维能力产生很大的挑战,在海量数据可管,可控下,通过查询优化技术和文件存储优化技术将大规模集群的优势发挥到极致,并通过冷热冰存储的自动分层,为用户降低存储增长带来的成本的提升。智能数仓解决了大部分企业运维难的问题,真正做到企业大数据平台的智能驾驶。
湖仓一体新升级2.0,真正做到一份数据,统一管控,多样分析
最近,数据湖的形态被众多企业所使用,这种技术形态决定了企业很容易管理数据,并在其之上使用丰富的开源引擎做各种形态的计算。同时,在传统报表等BI应用催生下,企业已经构建的数据仓库形成了“数据孤岛”,数据间协同分析很难被执行,而且大部分企业没有将所有数据进行大集中处理的能力。
在应用需求催生下,面向不同的仓和湖形态的数据存储和分析,企业有了非常强的数据互通需求。这也是“湖仓一体”的产生的背景。去年,阿里云“湖仓一体”打通云上数仓产品“MaxCompute”与数据湖产品“EMR”,经过一年的客户磨练与沉淀,“湖仓一体”有了2.0的新能力。
从购买体验上,用户可以在线上分钟级打通云上Severless数据仓库( MaxCompute)和云原生数据湖(EMR+OSS),实现统一元数据、存储方面的安全互通。不仅更好的支持标准HDFS的数据访问,而且持续优化对OSS对象存储高速访问性能, 扩展支持Hudi、Delta Lake等开源数据湖格式。MaxCompute计算服务通过对智能缓存能力的升级,使访问EMR数据湖中的数据有10+倍性能的提升。
换句话说,湖仓一体2.0可以帮助企业消除数据孤岛,通过DataWorks将不同形态的数据统一管理与治理起来,并对特定应用加速分析。同时也可以帮助企业在新建数仓或者数据湖的同时,对既有系统进行充分利用,在应用需求日趋迫切的时候,为企业规避了进行数据大集中的决策性风险。
好文章,需要你的鼓励
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
Gradient Labs首席执行官Dimitri Masin认为,企业使用AI客服代理时应仅在机器人成功解决问题时付费。他批评Salesforce按对话收费的模式,指出其AI代理在单轮对话中成功率仅58%,多轮对话更低至35%。Masin提出按解决方案计费的模式,声称可为企业节省约70%成本,并通过分层定价反映不同复杂度查询的价值差异。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。