数字化浪潮汹涌澎湃,上云也成为了企业实现数字化转型的必经之路,过去传统IT运维人员的运维对象,也变成了与云有关的内容。然而,随着云上业务的规模与复杂度日趋増长,对云上的运维、安全和管理也提出了新的挑战。
为了让企业以及运维人士更好地紧跟技术变革,利用好云技术使能业务发展,2022年9月17日,华为云联创营•云上综合治理研讨班来到了厦门,华为云携手美图共同打造了精品内容与优秀云上运维实践课程,与厦门数十位头部互联网企业的技术精英齐聚一堂,通过实践分享,实操演练等形式,共同探讨云上运维治理体系优化和创新路径。在会上,华为云还重磅发布了《SRE确定性运维专家培训》课程,以让更多的企业技术人员,了解到如何进行SRE确定性运维流程的体系构建和优化,助力企业用好云、管好云。
美图高级技术总监王关胜表示,“技术只有在持续探讨中才能取得长足进步。美图在2019年便实现了全量上华为云,积累了不少基于云上运维治理的经验,希望通过联创营这个技术交流的平台,能与厦门企业实现更多互动,共同探索长效运维新思路,这也是美图与华为云共同举办活动的初衷。”
华为云福建互联网业务部长张小龙在开场时表示,“华为云和美图的技术团队共同举办的云上综合治理研讨班,是面向厦门互联网企业搭建的一个交流平台。希望未来更多企业技术精英加入,通过互相交流与学习探讨,帮助企业更高效地构建科学的企业运维体系和综合技术团队,以实现对公司业务更好地支撑。”
云上运维复杂多变,寻求确定性运维体系
在充满不确定性的VUCA时代,企业、行业的发展比以往都更加复杂,云运维的工作也需要在VUCA时代寻求新的出口,美图高级运维经理石鹏先生分享了《与云共生,打造确定性运维体系》。他表示,“美图SRE把核心价值总结为稳定性、效率、成本。面对不确定性,SRE需要回归岗位价值,构建一个可观测、可掌控且持续进化的、覆盖业务全生命周期的确定性运维体系。”
在稳定性领域要做好日常的常规工作,持续构建和完善统一的可观测体系,在此基础上做好应急响应、故障管理及灾备体系的建设,打好稳定性这个基础。在效率方面,要对业务进行多维度的度量和周期性的审视,对稳定性和效能进行回顾总结,从而在业务架构、工具流程、研发效能等方面做持续优化。在成本方面,通过对资源使用量和利用率的持续监测和动态调整,对成本数据的周期性分析,从而对成本实现全周期的管控。
此外,石鹏还分享了美图在云运维领域的实践和探索。他表示,“美图在可观测分析领域,通过构建相关工具完成日常巡检、数据存储、报告渲染、数据解读等稳定性运营工作;同时,针对服务稳定性制定了涵盖监控大盘、干预动作管理、预案编排、预案执行的连贯工作流,以对不同的异常场景进行快速干预和恢复。”
最后分享了美图的“Dev-X-Ops”工具矩阵并展示了部分平台的样例,重点强调了运维元数据的重要性,石鹏建议通过一个全局的视角来统筹规划运维领域及周边的工具体系,用统一的运维元数据来串联相关系统、打破数据壁垒、贯穿完整流程,以形成更好的合力。
云上运维在实践中能够发挥价值,背后也离不开工具、运作机制的支撑。聚焦云上运维体系搭建,华为云SRE首席产品经理王萌萌分享了《华为云运维平台的演进实践》。他认为,“运维平台的核心功能矩阵,需要有CMDB、监控、自动化变更的能力、分析能力和流程管理的能力。从建设的角度来讲,可以大致分为标准化、工具化、自动化、智能化四个阶段。”
具体来看,在标准化阶段,有了规范,资源模型、API规范、运维流程、权限模型、部署架构、公共组件、CMDB的标准统一之后,具备了基本框架,云上运维即可启动了。在工具化阶段,需要做针对运维进行监控、建立日志系统、容量管理系统、搭建作业平台、采用和运维系统结合的流程系统。在自动化阶段,需要原子能力进行构建资源发放体系,在这基础之上通过SRE进行业务编排。最后便是智能化阶段,以华为云为例,王萌萌讲解了智能运维场景的AIOps平台,该平台从异常检测、智能告警、智能故障定位、智能故障自愈等层面,将云上运维不断推向智能,减少运维人员重复性劳动,提升运维效率,保障云上应用持续稳定运行。
美图云上运维实践,创建系统云上治理之道
云服务配合庞大的用户数据群体,需要IDC在提供强大设备资源的同时,数据库运维必须具备高效、快捷、时效性强的数据传输能力以及对庞大数据的运算能力,以保障业务的顺利运行。作为美图DBA负责人肖维和许多正在经历深化上云的企业IT负责人一样,不断思考和寻找着新的云上综合治理解决之道。
从美图的实践出发,肖维在联创营上分享了《美图云上数据库运维和治理实践》。他表示,数据库的发展从早期单体的RBMS、到分布式的NewSQL、Tidb、时序数据库,最后到云原生的数据库,不断变化的是网络、存储和计算能力。数据库的选型需要跟业务匹配,DBA需要定义高稳定性、高效率、低成本、高安全四个目标,以实现与数据库的匹配,实现业务的稳定运行。
此外,肖维还详细阐述了传统DBA,云DBA的区别。他指出,相对于传统DBA,云DBA可以赋能研发,使传统DBA工作的日常需求都可以自行研发完成,且架构具备多样化,安全性更高。同时在故障排查、主动预防领域可以做更多的探索。此外,通过云DBA资源云托管,还可以让成本可控,提高交付效率。
在稳定性治理实践方面,肖维表示,美图通过平台层DBA小秘书、操作平台MTDAS、云管平台实现对所有资源在三个维度进行拨测巡检。同时配有容灾系统,并且已经介入到SRE的编排系统,针对不同场景,只需要输入相关参数,系统就会自行处理工单系统,诊断系统和日志系统,并做出相应预案。此外,面对数据的持续扩张带来的容量管理难题,美图DBA建立了异常检测、异常分析和异常处理体系。这其中,异常检测,实现对监控指标的数据变化进行快速识别;异常分析,则针对异常业务变化进行量化分析;异常处理,是通过定时扩缩容,自动百分比做扩容,做SQL限流。系统之间严密的配合,保证了美图云上服务的持续稳定运行。
《SRE确定性运维专家培训》课程正式发布,助力企业全面拥抱云
面对企业上云之后带来业务规模与复杂度的日趋增长,为了助力组织成员和企业打造适合自身的运维体系,走向优秀乃至卓越。在研讨班上,华为云通过丰富的实践积累、运维探索,精心打造的《SRE确定性运维专家培训》课程也正式发布。
华为云希望通过这项课程,让更多的企业和技术人员,了解到如何进行SRE确定性运维流程的体系构建和优化,以及学习如何构建与提升软件工程能力的关键方法。最后通过了解在系统高可用性设计方面的知识,以赋能企业云上运维,助推企业全面拥抱云,使能云上创新。
秉承“智者·同行·创想”的理念,华为云联创营为行业客户、伙伴打造了一个技术交流的阵地,在思维碰撞中探索新思路,打开新视野,迸发应对挑战的新智慧、新举措。未来,华为云将持续通过打造系列性活动,为企业、技术人员搭建交流平台,共同构建健康可持续发展的云技术生态,解决企业用云、管云中的“疑难杂症”,构建健康可持续发展的云技术生态。
好文章,需要你的鼓励
Blackwell GPU的生产制造工作量达到Hopper GPU的两倍有余,但带来的收入仅增加至约1.7倍。
由AMD驱动的El Capitan超级计算机(现位于美国劳伦斯利弗莫尔国家实验室(LLNL))成为世界上速度最快的超级计算机。