近日,华为云应用运维管理平台参与了中国信息通信研究院(以下简称“中国信通院”)主办的“稳保行动”的可观测性平台能力评估。经过中国信通院的检验,华为云应用运维管理平台满足云上软件系统稳定-可观测性平台技术要求,达到了可观测性平台技术检验的先进级水平。
作为云计算和软件的权威评估机构,中国信通院在可观测性平台和工具的评测中,以通信行业标准《可观测性平台技术要求》为依据,客观真实地评估了厂商的可观测能力水平。经中国信通院的细致评估,华为云应用运维管理平台在数据采集、数据处理、数据应用、平台运维这4项检验中,满足了可观测性平台先进级能力要求,这也意味着华为云在可观测性领域已经达到业内领先水平。

图1 可观测性平台能力
华为云应用运维管理平台是云上应用的一站式立体化运维管理平台,实时监控应用及相关云资源,采集并关联资源的各项指标、日志及事件等数据共同分析应用健康状态,提供灵活的告警及丰富的数据可视化功能,帮助用户及时发现故障,全面掌握应用、资源及业务的实时运行状况。

图2 华为云应用运维管理平台
一、牢固的基石——应用资源管理和采集管理
应用资源管理
传统信息技术基础设施库(Information Technology Infrastructure Library,简称ITIL)流程中面向基础设施资源的管理方式,易造成各运维服务之间数据割裂、信息不一致等问题。华为云应用运维管理平台的应用资源管理(简称CMDB)是基于DevOps理念打造的面向应用全生命周期的资源管理平台,是现代自动化运维的基石服务,统一集中管理资源对象与应用之间的关系。
应用资源管理CMDB以应用为中心,实现多层级应用、子应用、组件到环境的模型管理,建立应用与云资源依赖关系。通过应用资源管理,可以找到应用与下级微服务以及部署在不同环境(开发环境、测试环境或生产环境等)下的资源实例,包括ECS、RDS、ELB、CCE等云服务实例,为应用监控、告警关联分析以及自动化运维提供配置数据。同时也支持通过开放配置数据接口,辅助第三方系统运维场景建设。

图3 应用资源管理能力示意
采集管理
作为数据的来源,采集插件至关重要。华为云应用运维管理平台提供无侵入式采集插件,用户无需修改应用代码,只需要部署探针包,修改相应的应用启动参数,就能对应用进行全方位的数据采集,以便全面掌握应用的运行情况,采集范围包括但不限于:
1、基础资源:包含云主机、容器、网络等;
2、中间件:包含数据库、消息队列、应用容器、存储、日志等;
3、IOT设备:包含各种边缘设备、采集的数据范围包括指标等;
4、前端组件:包含H5、ios、android、小程序等;
5、后端组件:包含java、python、nodejs、c#、go等。
另外华为云应用运维管理平台还提供插件生命周期管理能力,不同的插件分工采集不同的数据,用户可以按需安装、升级、卸载各类插件。
二、强大的核心——指标监控、云日志、应用性能管理
随着云原生技术逐渐普及,传统监控系统正朝可观测性系统演进,业界对可观测性的共识,是基于可观测性的三大支柱“metrics、logging、tracing”。

华为云应用运维管理平台将云监控服务(Cloud Eye,简称CES)的指标数据、云日志服务(Log Tank Service,简称LTS)的日志数据、应用性能管理服务(Application Performance Management,简称APM)的性能分析数据进行统一监控,从而提供了对云资源、应用和性能的全面监控和诊断。
指标——云监控服务CES
云监控CES是华为云上资源监控的服务,提供80多种云服务、上千类资源指标,涵盖弹性云服务器、带宽、数据库等服务,满足用户各类云上资源监控需求。CES可提供多聚合方式、最长六个月的历史监控图表,方便用户查看近半年业务监控数据。
除了云监控提供的云服务指标外,用户还可以自定义上报业务指标,通过Open API、SDK方式上报,可更全面、深入地监控业务运行状况。
日志——云日志服务LTS
在海量数据的时代,让宝贵的原始日志数据躺在磁盘里日渐沉寂,无法在云时代“一展宏图”,完全是埋没了日志数据的价值。而使用华为云日志服务就可以从项目初始便赋予日志数据搜索、分析和探索能力,让日志数据活起来、变有用。华为云日志服务提供日志采集、秒级搜索、海量存储、结构化处理、转储和可视化图表等各项能力,可满足应用运维、可视化分析、等保合规等各类应用场景。
场景1日志分析、保障系统安全:实时收集系统产生的日志数据,对日志数据进行分析、归档,支持每天百TB级日志的接入,十亿级日志秒级搜索
场景2日志审计:通过实时收集日志,避免数据被误删和被非法入侵者删除的可能性,同时将日志转储长期存储,满足合规要求
场景3 问题诊断:系统出现问题或故障时,通过日志快速查询、精准定位问题所在
场景4 系统改进:通过阻塞记录发现站点性能瓶颈,优化缓存策略、数据传输策略

图4 日志服务示意图
性能——应用性能管理服务APM
在华为内部,有上百万微服务使用着应用性能管理服务APM,在日常性能诊断、故障定位和排查等场景中,通过使用APM实现故障1分钟感知、5分钟定界、10分钟恢复能力的构筑。APM有力地支撑了华为云、终端、车、能源等各类型产品的应用性能管理和日常运维保障。
现在,华为云将内部多年积累的应用性能管理能力沉淀到华为云应用性能管理服务APM上,向云上用户提供端到端的全链路性能管理服务,包含前端监控、应用性能监控、全面拥抱开源生态,帮助用户在复杂的业务环境下快速发现应用性能问题,降低MTTR(平均故障恢复时长),全面掌控应用的性能健康状况。

图5 应用性能管理拓扑示意
三、丰富的周边能力——统一监控大盘、容器洞察、告警降噪
华为云应用运维管理平台除了牢固的基石及强大的核心,还提供了丰富的周边能力。
统一监控大盘
集中管理云监控、云日志、性能、Prometheus等多维度可观测性数据源,提供统一监控与分析,用户可以将来自不同数据源定义在一张监控大屏中显示,统一管理告警等。

图6 统一监控大盘示意
容器洞察
无缝对接华为云云容器引擎CCE,基于原生Kubernetes容器和集群模型,用户可通过Cluster、Namespace、Deployment、POD和Container进行逐步运维分析,包括Prometheus监控、日志和性能管理等;支持将Promethues服务器远程接入(Remote-Write)到华为云应用运维管理平台,还可通过PromQL查询原生指标并配置告警。

图7 容器洞察示意
告警降噪
华为云应用运维管理平台的告警降噪功能,提供分组、抑制和屏蔽告警降噪策略,大大减少了运维人员需要关注的告警量,增加了关键告警、高优先级问题的关注度,突出告警的重点问题,提高告警的可靠性,减少误判和漏警的情况,节省了人力和时间成本,提高了工作效率,有效保障系统的稳定性和安全性。

图8 告警降噪示意
如果软件系统内部情况都不可观测,更无从谈起故障分析和系统改进等稳定性保障手段。依托牢固的基石、强大的核心及丰富的周边能力,华为云应用运维管理平台助力企业提高软件系统的质量和效率,提升用户体验和关键业务的稳定性,优化业务流程和方向,提高业务决策的质量。
好文章,需要你的鼓励
阿里云CEO吴泳铭在财报电话会议上表示,AI需求增长如此迅猛,以至于服务器部署速度无法跟上客户需求。公司正在对GPU进行配给制,优先满足使用全套阿里云服务的客户需求。过去12个月,阿里巴巴在AI相关基础设施上投入1200亿元人民币,预计三年预算可能超过当前的3800亿元。阿里云智能集团季度营收达56亿美元,同比增长34%。
新加坡南洋理工大学团队开发的NEO模型颠覆了传统视觉语言AI的设计思路,从模块化拼接转向原生统一架构。仅用3.9亿图文配对数据就实现了与大型模块化系统相媲美的性能,证明了端到端训练的有效性,为AI系统设计开辟了新路径。
OpenAI为ChatGPT推出"购物研究"新功能,恰逢假期购物季。该功能面向免费和付费用户开放,支持移动端和网页版。用户询问购物问题时,ChatGPT会提供个性化购物助手服务,通过一系列问题帮助用户筛选价格、用途和功能偏好。该功能基于专为购物任务优化的GPT-5 mini版本,从优质网络资源获取产品信息。OpenAI计划推出即时结账功能,允许用户直接在ChatGPT内购买商品。
谷歌联合德克萨斯大学等机构开发出LATTICE框架,这是一种革命性的信息检索系统,能像智能图书管理员一样工作。它将文档组织成语义树结构,用AI推理能力进行智能导航搜索,在复杂查询任务上比传统方法准确率提高9%以上。该系统无需训练即可适应新领域,为未来智能搜索指明了方向。