金融领域的反欺诈、精准营销等大量的业务场景对服务连续性要求高,7*24小时不能中断,为了保持业务的连续性和技术引领,一个超大规模、高效率、可持续发展的数据底座显得尤为重要,而不中断业务的滚动升级能力则成为最硬核的衡量指标,中国最佳零售银行,金融数据湖上千节点滚动升级,2万多个业务正常运行,这背后的奥秘究竟是什么?今天让我们深入聊一下……
作为“中国最佳零售银行”,某股份制银行一直将客户体验放在首位。近年来,该行以轻型银行为战略目标,打造以数据作为关键战略资产的未来银行,通过引入华为云FusionInsight建设全行统一的金融数据湖,汇聚各渠道业务数据,实现全行数据资源共享,用于探索新的客户体验和商业模式。
当前,该行金融数据湖规模达到千余节点,承载了行内上万应用,支撑反欺诈、智慧营销等重要业务场景,日均处理数万大数据作业。
随着该行不断深入使用大数据技术,逐步支撑行内关键金融业务,对于整个数据湖平台的服务连续性要求也越来越高,一方面行内金融数据湖要紧跟技术潮流不断升级革新,一方面要求支撑行内外业务的数据湖能够7*24小时不中断服务。然而传统的方案需要断电重启,显然不能满足行内业务连续性保障的要求;同时在金融数据湖升级过程中,对于数据湖这种复杂系统来讲,传统升级方案如果碰到突发的故障,容易导致整个升级动作中断重来,为平稳升级带来极大地挑战。
近期,该行采用华为云FusionInsight MRS云原生数据湖滚动升级能力,实现行内大数据平台的成功滚动升级,升级过程中金融数据湖承载的行内2万+应用正常运行,实现两个“不中断”:
1)业务不中断:数据湖承载了成千上万的任务作业,在升级过程中,关键的数据分析服务要能够不间断地支撑上层业务,这就导致升级和使用存在着矛盾冲突;MRS具有循环滚动升级能力,一次升级少量节点,循环滚动,直至整个集群的所有节点升级到新版本;同时,为了降低升级对关键任务SLA的影响,MRS还提供滚动升级暂停能力,在任务高峰时段或关键任务执行时,可以保障关键任务正常平稳运行。
分批次升级示意图
2)进度不中断:数据湖是一个复杂系统,由服务器、存储、网络、软件等组成,在升级时经常会碰到突发事件,如磁盘故障、网络拥塞问题。在大数据平台升级过程中,部署人员需要应对各种突发事件,如磁盘故障、网络拥塞等多种异常场景,客户要求不中断升级。MRS提供故障节点隔离能力,在故障发生时,可以跳过该节点的升级动作,让故障处理和集群升级有序进行。
滚动升级不仅是一个升级动作,更是一个系统工程。该行基于华为云FusionInsight MRS云原生数据湖,从兼容性、可靠性、工具自动化、保障团队等多方面入手,注重细节,实现了行内大数据平台架构的平滑演进,升级过程行内用户无感知,保障上层业务平稳运行。MRS目前已通过中国信通院3万+大集群评测,还可以通过集群联邦扩展到10万+大集群。除此之外,还为大规模集群提供超级调度器Superior,资源调度效率是开源大数据的30倍+,能够让整个集群的资源利用率最高达到90%+。
在本次升级过程中,某股份制银行成功上线了最新版本的华为云FusionInsight MRS云原生数据湖,并在新集群上提供如HetuEngine、 ClickHouse、Hudi等新组件,为项目管理、反欺诈、BI报表等业务创新提供有力技术支撑。在整个升级期间,行内数万名数据分析师毫无感觉,同事模型平台、先机平台、反欺诈平台等关键业务应用平滑运行无中断,为进一步行内实现湖仓一体目标,深度使用华为云FusionInsight奠定良好基础。
截止目前,华为云FusionInsight已先后帮助国有大行、股份制银行、城商农信行,运营商如广东移动、浙江移动等客户实现平滑升级,顺利完成累计60000多节点的无风险升级,让3000+政企客户技术永新,业务永远在线。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。