EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台

E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor，有效提升大数据集群运维效率，辅助 EMR 用户完善集群监控体系。

大数据运维的挑战—如何保证集群稳定与运行效率

企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务，需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战：海量的数据、庞杂的组件以及组件之间复杂的依赖关系、对于时效要求的的运算任务，都会提升运维难度。作为支撑平台，大数据集群的稳定性和运行效率，会直接影响到公司业务的正常运作和发展。

集群管理员往往对整体集群做好了监控运维体系，对于大数据集群，简单的监控运维体系能够帮助管理员在遇到故障的时候定位问题。但对于整体集群的运行效率，集群的状态，通过单纯的监控指标很难给出一个全面的解答。

对于大数据集群，管理员以及 CIO 等更关注以下的内容：
● 集群内的节点的运行状态和资源使用状况；
● 运行在集群上的服务组件的状态监控和异常处理，包括 YARN、HDFS、Hive 和 Spark 等；
● 计算任务运行情况和执行效率；
● 整体集群的健康程度和如何改进。

面对运维挑战，EMR重磅推出：智能运维诊断系统(EMR Doctor)

为了提升大数据集群运维效率，辅助 EMR 用户完善集群监控体系。E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor（简称EMR Doctor）。 EMR Doctor 作为开源大数据集群的管家，会自动每日巡检集群。集群管理员只需要定期查看健康检查报告，并且根据报告中的建议对集群做相应的优化调整，即可全局了解集群的健康状况和动态走势，并保持集群的健康度。

如何使用 EMR Doctor

1. 进入 EMR 控制台健康检查页面。
l 登录 EMR on ECS 控制台。
l 在顶部菜单栏处，根据实际情况选择地域和资源组。
l 在集群管理页面，单击目标集群的集群ID。
l 单击上方的健康检查页签。

2. 在健康检查页面，您可以看到当前集群的健康检查报告（T+1）。健康状态列显示了该集群的健康度，您可以点击查看报告进入检查报告页面。

3. 健康检查报告中包含集群计算资源的总体分析

4. 健康检查报告中包含计算任务从各个维度的排名并给出任务调优建议

5. 健康检查报告中包含对集群存储的总体分析，以及大小文件和冷热数据的详细分析

6. 健康检查报告主要分析内容如下，更详细说明请参见查看健康检查状态和报告

计算资源分析	概述	状态概述
	概述	需要关注的问题
	计算基础信息	集群计算评分
		集群算力内存时
		集群算力CPU时
		计算引擎内存算力时
	计算任务信息	计算任务算力内存时分析
	计算任务信息	计算任务评分排行榜
	Spark	Spark任务算力分析及调优建议
	Tez	Tez任务算力分析及调优建议
	MapReduce	MapReduce任务算力分析及调优建议
HDFS存储资源分析（需开启存储资源信息采集开关）	概述	状态概述
	概述	需要关注的问题
	HDFS基础信息	HDFS存储资源使用趋势
		文件总数随时间变化趋势
		评分趋势
	HDFS文件大小分布	HDFS文件大小比例
		一级目录空文件个数Top10
		一级目录极小文件个数Top10
		一级目录小文件个数Top10
		一级目录中等文件个数Top10
		一级目录大文件个数Top10
	HDFS冷热数据分布	HDFS冷热数据
		一级目录极冷数据大小Top10
		一级目录冷数据大小Top10
		一级目录温数据大小Top10
		一级目录热数据大小Top10
HIVE存储资源分析（需开启存储资源信息采集开关）	概述	状态概述
	概述	需要关注的问题
	Hive基础信息	存储趋势
		文件数量趋势
		评分趋势
	Hive库信息	库存储排名
		库文件总数排名
		库评分
	Hive表文件大小分布	Hive表文件大小分布比例
		Hive表空文件个数Top10
		Hive表极小文件个数Top10
		Hive表小文件个数Top10
		Hive中等文件个数Top10
		Hive大文件个数Top10
	Hive冷热数据分布	Hive冷热数据分布
	Hive冷热数据分布	Hive表极冷数据大小Top10

来源：业界供稿

0赞

好文章，需要你的鼓励

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台

大数据运维的挑战—如何保证集群稳定与运行效率

面对运维挑战，EMR重磅推出：智能运维诊断系统(EMR Doctor)

如何使用 EMR Doctor

来源：业界供稿

2022

09/20

12:07

分享

点赞

三星Health应用迎来AI升级，Galaxy Watch 9发布前夕更新提前揭晓

Meta智能眼镜被曝含"人脸识别"追踪代码，隐私风险引发警示

Gemini企业智能体平台的智能体RAG如何实现可靠响应

麻省理工学院AI与计算研讨会：技术进步中不可或缺的人文因素

亚马逊全新数据中心路由架构降低AWS网络能耗40%

iOS 27即将发布，多款iPhone应用将迎来全新设计升级

连接性已成为与计算和存储同等重要的AI基础设施核心要素

开发者仍在等待Meta最新AI模型的API访问权限

迈向Token经济时代，F5以“AI赋能交付”筑基智能新生态

米拉·穆拉提重返公众视野，谨慎发声

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: