企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战:海量的数据、庞杂的组件以及组件之间复杂的依赖关系、对于时效要求的的运算任务,都会提升运维难度。作为支撑平台,大数据集群的稳定性和运行效率,会直接影响到公司业务的正常运作和发展。
集群管理员往往对整体集群做好了监控运维体系,对于大数据集群,简单的监控运维体系能够帮助管理员在遇到故障的时候定位问题。但对于整体集群的运行效率,集群的状态,通过单纯的监控指标很难给出一个全面的解答。
对于大数据集群,管理员以及 CIO 等更关注以下的内容:
● 集群内的节点的运行状态和资源使用状况;
● 运行在集群上的服务组件的状态监控和异常处理,包括 YARN、HDFS、Hive 和 Spark 等;
● 计算任务运行情况和执行效率;
● 整体集群的健康程度和如何改进。
为了提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor(简称EMR Doctor)。 EMR Doctor 作为开源大数据集群的管家,会自动每日巡检集群。集群管理员只需要定期查看健康检查报告,并且根据报告中的建议对集群做相应的优化调整,即可全局了解集群的健康状况和动态走势,并保持集群的健康度。
1. 进入 EMR 控制台健康检查页面。
l 登录 EMR on ECS 控制台。
l 在顶部菜单栏处,根据实际情况选择地域和资源组。
l 在集群管理页面,单击目标集群的集群ID。
l 单击上方的健康检查页签。
2. 在健康检查页面,您可以看到当前集群的健康检查报告(T+1)。健康状态列显示了该集群的健康度,您可以点击查看报告进入检查报告页面。
3. 健康检查报告中包含集群计算资源的总体分析
4. 健康检查报告中包含计算任务从各个维度的排名并给出任务调优建议
5. 健康检查报告中包含对集群存储的总体分析,以及大小文件和冷热数据的详细分析
6. 健康检查报告主要分析内容如下,更详细说明请参见查看健康检查状态和报告
计算资源分析 | 概述 | 状态概述 |
需要关注的问题 | ||
计算基础信息 | 集群计算评分 | |
集群算力内存时 | ||
集群算力CPU时 | ||
计算引擎内存算力时 | ||
计算任务信息 | 计算任务算力内存时分析 | |
计算任务评分排行榜 | ||
Spark | Spark任务算力分析及调优建议 | |
Tez | Tez任务算力分析及调优建议 | |
MapReduce | MapReduce任务算力分析及调优建议 | |
HDFS存储资源分析 (需开启存储资源信息采集开关) |
概述 | 状态概述 |
需要关注的问题 | ||
HDFS基础信息 | HDFS存储资源使用趋势 | |
文件总数随时间变化趋势 | ||
评分趋势 | ||
HDFS文件大小分布 | HDFS文件大小比例 | |
一级目录空文件个数Top10 | ||
一级目录极小文件个数Top10 | ||
一级目录小文件个数Top10 | ||
一级目录中等文件个数Top10 | ||
一级目录大文件个数Top10 | ||
HDFS冷热数据分布 | HDFS冷热数据 | |
一级目录极冷数据大小Top10 | ||
一级目录冷数据大小Top10 | ||
一级目录温数据大小Top10 | ||
一级目录热数据大小Top10 | ||
HIVE存储资源分析 (需开启存储资源信息采集开关) |
概述 | 状态概述 |
需要关注的问题 | ||
Hive基础信息 | 存储趋势 | |
文件数量趋势 | ||
评分趋势 | ||
Hive库信息 | 库存储排名 | |
库文件总数排名 | ||
库评分 | ||
Hive表文件大小分布 | Hive表文件大小分布比例 | |
Hive表空文件个数Top10 | ||
Hive表极小文件个数Top10 | ||
Hive表小文件个数Top10 | ||
Hive中等文件个数Top10 | ||
Hive大文件个数Top10 | ||
Hive冷热数据分布 | Hive冷热数据分布 | |
Hive表极冷数据大小Top10 |
好文章,需要你的鼓励
RiOSWorld是一项开创性研究,评估多模态计算机使用代理在真实环境中的安全风险。由上海人工智能实验室团队开发的这个基准测试包含492个风险任务,涵盖网页浏览、社交媒体、操作系统等多种应用场景。研究将风险分为环境源和用户源两大类,通过风险目标意图和完成两个维度进行评估。对十个代表性MLLM代理的测试结果表明,当前代理在风险目标意图上的不安全率高达84.93%,在风险目标完成上达59.64%,揭示了AI代理在计算机使用安全性方面存在的严重隐患,为未来可信AI系统的开发提供了重要参考。
牛津大学林元泽及其国际合作团队开发的IllumiCraft是一种创新的视频重光照技术,它首次将几何和光照引导统一到一个扩散模型中。通过同时处理HDR环境图、合成重光照帧和3D点轨迹,该技术能生成与用户提示一致的时间连贯视频。研究团队还构建了包含20,170个视频对的高质量数据集,实验表明IllumiCraft在视觉质量、提示对齐和时间一致性方面显著优于现有方法,开创了可控视频生成的新可能。
中国人民大学物理学院研究团队开发了HTSC-2025,这是一个专为AI预测超导临界温度而设计的常压高温超导体基准数据集。该数据集包含140个样本,涵盖了2023-2025年基于BCS理论预测的超导材料,平均Tc为27.3K,最高达160K。研究不仅提供了公开的评估框架,还总结了提高超导温度的物理策略,如空穴掺杂和轻元素引入。该基准已在GitHub开源,为AI驱动的超导材料发现提供了重要支持。
MBZUAI研究团队开发了FinChain,这是金融领域首个可验证的符号化思维链推理基准测试。该基准涵盖12个金融领域的54个主题,每个主题包含5个不同难度的参数化模板,配有可执行的Python代码验证每一步推理。研究者还提出了ChainEval评估指标,同时评估最终答案正确性和中间推理步骤一致性。对30个大语言模型的测试表明,即使最先进模型在处理复杂金融推理时仍有很大提升空间,且模型规模是决定推理能力的关键因素。