5月26日,在由北京金融科技产业联盟主办,华为云与《金融电子化》杂志社协办的“金融科技师培育项目系列之分布式数据库人才能力提升专题研修班”中,华为数据库GaussDB架构师王磊以“分布式数据库技术探索与展望”为主题,围绕分布式数据库发展历程、三项关键技术、未来发展方向等内容与参训嘉宾进行了深入的探讨与交流,为现场嘉宾带来了干货满满的技术盛宴。
分布式数据库发展正当时
数据库和人们的生产生活密不可分。大到国家机关的各类公文数据、商业银行的存款贷款数据、企业组织的人员管理信息、财务管理系统,小到我们日常生活中购物、打车、点餐等,都有数据库在背后默默地支撑。近年来,随着移动互联网爆发式发展和各行各业数字化转型的不断推进,数据量和计算量暴增,传统集中数据库面临着容量、算力、成本和可靠性等多方面的挑战。而分布式数据库凭借在扩展性、性能、可用性等方面的优势,正在成为当前数据库技术发展的重要方向。
据王磊介绍,分布式数据库的发展主要经历了应用分库分表垂直拆分、分布式中间件、原生分布式数据库三个阶段。从技术路线来看,分布式数据库大致可分为“基于共享存储一写多读、Shared nothing、基于共享存储多写分布式数据库”三大技术路线。
三大关键技术详解,揭开分布式数据库的“奥秘”
在本次分享中,王磊重点围绕“高可用、事务管理、执行器”三个关键技术栈对分布式数据库做了详细介绍。
其中高可用技术是通过组件、副本、模块等冗余,支持局部故障场景下的业务连续性。在数据库系统中,通常用RTO和RPO两个指标来衡量可用性。其中RPO(Recovery Point Obejective,恢复点目标)是指业务系统所允许的在灾难过程中的最大数据丢失量,用来衡量容灾系统的数据冗余备份能力;RTO(Recovery Time Objective,恢复时间目标)是指信息系统从灾难状态恢复到可运行状态所需的时间,用来衡量容灾系统的业务恢复能力。不同的组织对于RTO和RPO的要求不同,提升RPO的关键技术在于分布式一致性复制协议,而要提升RTO,则需要重点提升故障检测和故障恢复技术水平。
作为主打金融政企核心业务负载的分布式数据库,GaussDB通过多项关键技术,使日志回放效率大幅提升,实现大压力下RTO<10s的极致高可靠;同时所有故障场景可检测、可恢复,通过多项冗余设计,实现整个系统无单点故障。硬件高可用和软件高可用“双管齐下”,进一步提升了GaussDB的可用性。此外,GaussDB提供金融级高可用服务,支持RPO=0的同城双集群切换,最大限度地保证数据的安全性以及服务的可用性。
在分布式数据库中,分布式事务面临原子性问题和一致性问题。为了保证分布式事务的原子性,分布式数据库通常采用两阶段一致性提交协议,同时采用多版本并发控制(MVCC)来保证与写事务并发执行的查询事务的一致性。王磊还对MVCC的快照管理方式和不同版本的存储管理进行了详细介绍,并以GaussDB为例,解读了活跃事务链表算法和提交时间戳算法。
在性能方面,王磊指出,分布式数据库高性能的关键在于分布式执行框架。分布式执行框架在提升分布式执行效率的同时,通过全局索引、在线数据搬迁、防篡改技术、AI4DB等技术,保证了高性能和高安全性,并可实现自监控、自诊断、自优化端到端自治运维服务。
在本次课程的最后,王磊表示:“随着分布式数据库在技术标准、应用标准、解决方案等方面的规范化,分布式数据库的格局会更加清晰,多写、自适应数据迁移、多层资源池化或将成为未来理想的分布式数据库形态。”
分布式数据库发展浪潮正劲,为中国数据库产业带来巨大的市场机遇,其中人才培养和生态建设成为制胜关键,需要持之以恒的投入。华为云将一如既往地坚定投入数据库研究,通过产学研用深度融合,联合伙伴、高校一起推动数据库人才培养,持续完善人才认证培养体系,保障数据库产业未来人才供给,共同推动数据库产业发展。
好文章,需要你的鼓励
在技术快速发展的时代,保护关键系统越来越依赖AI、自动化和行为分析。数据显示,2024年95%的数据泄露源于人为错误,64%的网络事件由员工失误造成。虽然先进的网络防御技术不断发展,但人类判断仍是最薄弱环节。网络韧性不仅是技术挑战,更是人员和战略需求。建立真正的韧性需要机器精确性与人类判断力的结合,将信任视为战略基础设施的关键要素,并将网络韧性提升为国家安全的核心组成部分。
南洋理工大学团队开发了Uni-MMMU基准测试,专门评估AI模型的理解与生成协同能力。该基准包含八个精心设计的任务,要求AI像人类一样"边看边想边画"来解决复杂问题。研究发现当前AI模型在这种协同任务上表现不平衡,生成能力是主要瓶颈,但协同工作确实能提升问题解决效果,为开发更智能的AI助手指明了方向。
自计算机诞生以来,人们就担心机器会背叛创造者。近期AI事件包括数据泄露、自主破坏行为和系统追求错误目标,暴露了当前安全控制的弱点。然而这种结果并非不可避免。AI由人类构建,用我们的数据训练,在我们设计的硬件上运行。人类主导权仍是决定因素,责任仍在我们。
360 AI Research团队发布的FG-CLIP 2是一个突破性的双语精细视觉语言对齐模型,能够同时处理中英文并进行精细的图像理解。该模型通过两阶段训练策略和多目标联合优化,在29个数据集的8类任务中均达到最先进性能,特别创新了文本内模态对比损失机制。团队还构建了首个中文多模态评测基准,填补了该领域空白,为智能商务、安防监控、医疗影像等应用开辟新可能。