金融领域的反欺诈、精准营销等大量的业务场景对服务连续性要求高,7*24小时不能中断,为了保持业务的连续性和技术引领,一个超大规模、高效率、可持续发展的数据底座显得尤为重要,而不中断业务的滚动升级能力则成为最硬核的衡量指标,中国最佳零售银行,金融数据湖上千节点滚动升级,2万多个业务正常运行,这背后的奥秘究竟是什么?今天让我们深入聊一下……
作为“中国最佳零售银行”,某股份制银行一直将客户体验放在首位。近年来,该行以轻型银行为战略目标,打造以数据作为关键战略资产的未来银行,通过引入华为云FusionInsight建设全行统一的金融数据湖,汇聚各渠道业务数据,实现全行数据资源共享,用于探索新的客户体验和商业模式。
当前,该行金融数据湖规模达到千余节点,承载了行内上万应用,支撑反欺诈、智慧营销等重要业务场景,日均处理数万大数据作业。
随着该行不断深入使用大数据技术,逐步支撑行内关键金融业务,对于整个数据湖平台的服务连续性要求也越来越高,一方面行内金融数据湖要紧跟技术潮流不断升级革新,一方面要求支撑行内外业务的数据湖能够7*24小时不中断服务。然而传统的方案需要断电重启,显然不能满足行内业务连续性保障的要求;同时在金融数据湖升级过程中,对于数据湖这种复杂系统来讲,传统升级方案如果碰到突发的故障,容易导致整个升级动作中断重来,为平稳升级带来极大地挑战。
近期,该行采用华为云FusionInsight MRS云原生数据湖滚动升级能力,实现行内大数据平台的成功滚动升级,升级过程中金融数据湖承载的行内2万+应用正常运行,实现两个“不中断”:
1)业务不中断:数据湖承载了成千上万的任务作业,在升级过程中,关键的数据分析服务要能够不间断地支撑上层业务,这就导致升级和使用存在着矛盾冲突;MRS具有循环滚动升级能力,一次升级少量节点,循环滚动,直至整个集群的所有节点升级到新版本;同时,为了降低升级对关键任务SLA的影响,MRS还提供滚动升级暂停能力,在任务高峰时段或关键任务执行时,可以保障关键任务正常平稳运行。

分批次升级示意图
2)进度不中断:数据湖是一个复杂系统,由服务器、存储、网络、软件等组成,在升级时经常会碰到突发事件,如磁盘故障、网络拥塞问题。在大数据平台升级过程中,部署人员需要应对各种突发事件,如磁盘故障、网络拥塞等多种异常场景,客户要求不中断升级。MRS提供故障节点隔离能力,在故障发生时,可以跳过该节点的升级动作,让故障处理和集群升级有序进行。
滚动升级不仅是一个升级动作,更是一个系统工程。该行基于华为云FusionInsight MRS云原生数据湖,从兼容性、可靠性、工具自动化、保障团队等多方面入手,注重细节,实现了行内大数据平台架构的平滑演进,升级过程行内用户无感知,保障上层业务平稳运行。MRS目前已通过中国信通院3万+大集群评测,还可以通过集群联邦扩展到10万+大集群。除此之外,还为大规模集群提供超级调度器Superior,资源调度效率是开源大数据的30倍+,能够让整个集群的资源利用率最高达到90%+。
在本次升级过程中,某股份制银行成功上线了最新版本的华为云FusionInsight MRS云原生数据湖,并在新集群上提供如HetuEngine、 ClickHouse、Hudi等新组件,为项目管理、反欺诈、BI报表等业务创新提供有力技术支撑。在整个升级期间,行内数万名数据分析师毫无感觉,同事模型平台、先机平台、反欺诈平台等关键业务应用平滑运行无中断,为进一步行内实现湖仓一体目标,深度使用华为云FusionInsight奠定良好基础。
截止目前,华为云FusionInsight已先后帮助国有大行、股份制银行、城商农信行,运营商如广东移动、浙江移动等客户实现平滑升级,顺利完成累计60000多节点的无风险升级,让3000+政企客户技术永新,业务永远在线。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。