`

hadoop metrics 各参数解释

阅读更多
hadoop metrics 各参数解释

研究使用hadoop的人 对hadoop中详细的计数器有所了解,但是很多人在想完全清楚所有metrics时 发愁找不到资料。而且在代码中查找时介绍也比较少。先罗列出所有。


dfs.datanode.blockChecksumOp_avg_time 块校验平均时间
dfs.datanode.blockChecksumOp_num_ops 块检验次数
dfs.datanode.blockReports_avg_time 块报告平均时间
dfs.datanode.blockReports_num_ops 块报告次数
dfs.datanode.block_verification_failures 块验证失败次数
dfs.datanode.blocks_read 从硬盘读块总次数
dfs.datanode.blocks_removed 删除块数目
dfs.datanode.blocks_replicated 块复制总次数
dfs.datanode.blocks_verified 块验证总次数
dfs.datanode.blocks_written 向硬盘写块总次数
dfs.datanode.bytes_read 读出总字节包含crc验证文件字节数
dfs.datanode.bytes_written 写入总字节数(在写入每个packet时计数)
dfs.datanode.copyBlockOp_avg_time 复制块平均时间 (单位ms)
dfs.datanode.copyBlockOp_num_ops 复制块次数
dfs.datanode.heartBeats_avg_time 向namenode汇报平均时间
dfs.datanode.heartBeats_num_ops 向namenode汇报总次数
dfs.datanode.readBlockOp_avg_time 读块平均时间(单位ms)
dfs.datanode.readBlockOp_num_ops 读块总次数 一般和dfs.datanode.blocks_read 一致,先从硬盘读入输入流,增加dfs.datanode.blocks_read 计数,然后再增加该计数
dfs.datanode.reads_from_local_client 从本地读入块次数
dfs.datanode.reads_from_remote_client 从远程读入块次数
dfs.datanode.replaceBlockOp_avg_time 替换块平均时间(负载均衡策略)
dfs.datanode.replaceBlockOp_num_ops 替换块次数(负载均衡策略)
dfs.datanode.volumeFailures notfound 和block拥有的volume 失败有关
dfs.datanode.writeBlockOp_avg_time 写块平均时间
dfs.datanode.writeBlockOp_num_ops 写块总次数一般和dfs.datanode.blocks_written 一致,先从硬盘,增加dfs.datanode.blocks_read 计数,然后再增加该计数
dfs.datanode.writes_from_local_client 写本地次数
dfs.datanode.writes_from_remote_client 写远程次数
jvm.metrics.gcCount gc总次数
jvm.metrics.gcTimeMillis gc总耗时(ms)
jvm.metrics.logError jvm error 次数
jvm.metrics.logFatal jvm出现fatal次数
jvm.metrics.logInfo jvm info出现次数
jvm.metrics.logWarn jvm warn出现次数
jvm.metrics.maxMemoryM jvm试图使用最大内存(M),如果没有限制返回Long.MAX_VALUE
jvm.metrics.memHeapCommittedM jvm提交堆内存大小
jvm.metrics.memHeapUsedM jvm使用堆内存大小
jvm.metrics.memNonHeapCommittedM jvm非堆内存已提交大小
jvm.metrics.memNonHeapUsedM jvm非堆内存已使用大小
jvm.metrics.threadsBlocked 正在阻塞等待监视器锁的线程数目
jvm.metrics.threadsNew 尚未启动的线程数目
jvm.metrics.threadsRunnable 正在执行状态的线程数目
jvm.metrics.threadsTerminated 已退出线程数目
jvm.metrics.threadsTimedWaiting 等待另一个线程执行取决于指定等待时间的操作的线程数目
jvm.metrics.threadsWaiting 无限期地等待另一个线程来执行某一特定操作的线程数目

rpc.metrics.NumOpenConnections                     number of open connections rpc连接打开的数目
rpc.metrics.ReceivedBytes                          number of bytes received rpc收到的字节数
rpc.metrics.RpcProcessingTime_avg_time             Average time for RPC Operations in last interval rpc在最近的交互中平均操作时间                  
rpc.metrics.RpcProcessingTime_num_ops              rpc在最近的交互中连接数目
rpc.metrics.RpcQueueTime_avg_time                  rpc在交互中平均等待时间
rpc.metrics.RpcQueueTime_num_ops                 rpc queue中完成的rpc操作数目
rpc.metrics.SentBytes                              number of bytes sent  rpc发送的数据字节
rpc.metrics.callQueueLen                           length of the rpc queue  rpc 队列长度
rpc.metrics.rpcAuthenticationFailures              number of failed authentications  rpc 验证失败次数
rpc.metrics.rpcAuthenticationSuccesses             number of successful authentications   验证成功数
rpc.metrics.rpcAuthorizationFailures               number of failed authorizations   授权失败次数
rpc.metrics.rpcAuthorizationSuccesses              number of successful authorizations  成功次数


mapred.shuffleInput.shuffle_failed_fetches     从map输出中取数据过程中获取失败次数    
mapred.shuffleInput.shuffle_fetchers_busy_percent   在获取map输出过程中并行获取线程忙碌占总并行获取线程百分比
mapred.shuffleInput.shuffle_input_bytes              shuffle过程中读入数据字节
mapred.shuffleInput.shuffle_success_fetches    从map输出中取数据过程中获取成功次数 
mapred.shuffleOutput.shuffle_failed_outputs    向reduce发送map输出失败次数
mapred.shuffleOutput.shuffle_handler_busy_percent    向reduce发送map输出中server线程忙碌占总工作线程(在tasktracker.http.threads中配置)百分比。
mapred.shuffleOutput.shuffle_output_bytes            shuffle过程中输出数据字节
mapred.shuffleOutput.shuffle_success_outputs         向reduce成功
mapred.tasktracker.mapTaskSlots                设置map槽数
mapred.tasktracker.maps_running                正在运行的map数
mapred.tasktracker.reduceTaskSlots             设置reduce槽数
mapred.tasktracker.reduces_running             正在运行的reduce数
mapred.tasktracker.tasks_completed             完成任务数     
mapred.tasktracker.tasks_failed_ping           因tasktracker与task交互失败导致的失败的task数目
mapred.tasktracker.tasks_failed_timeout        因task未在mapred.task.timeout配置的(默认10分钟)时间内汇报进度而超时kill的task数目
rpc.detailed-metrics.canCommit_avg_time        rpc询问是否提交任务平均时间
rpc.detailed-metrics.canCommit_num_ops         rpc询问是否提交任务次数
rpc.detailed-metrics.commitPending_avg_time    rpc报告任务提交完成,但是该提交仍然处于pending状态的平均时间
rpc.detailed-metrics.commitPending_num_ops     rpc报告任务提交完成,但是该提交仍然处于pending状态的次数
rpc.detailed-metrics.done_avg_time             rpc报告任务成功完成的平均时间
rpc.detailed-metrics.done_num_ops              rpc报告任务成功完成的次数
rpc.detailed-metrics.fatalError_avg_time       rpc报告任务出现fatalerror的平均时间
rpc.detailed-metrics.fatalError_num_ops        rpc报告任务出现fatalerror的次数
rpc.detailed-metrics.getBlockInfo_avg_time     从指定datanode获取block的平均时间
rpc.detailed-metrics.getBlockInfo_num_ops      从指定datanode获取block的次数
rpc.detailed-metrics.getMapCompletionEvents_avg_time  reduce获取已经完成的map输出地址事件的平均时间
rpc.detailed-metrics.getMapCompletionEvents_num_ops   reduce获取已经完成的map输出地址事件的次数
rpc.detailed-metrics.getProtocolVersion_avg_time      获取rpc协议版本信息的平均时间
rpc.detailed-metrics.getProtocolVersion_num_ops       获取rpc协议版本信息的次数
rpc.detailed-metrics.getTask_avg_time                 当子进程启动后,获取jvmtask的平均时间
rpc.detailed-metrics.getTask_num_ops                  当子进程启动后,获取jvmtask的次数
rpc.detailed-metrics.ping_avg_time                    子进程周期性的检测父进程是否还存活的平均时间
rpc.detailed-metrics.ping_num_ops                     子进程周期性的检测父进程是否还存活的次数
rpc.detailed-metrics.recoverBlock_avg_time             为指定的block开始恢复标记生成的平均时间
rpc.detailed-metrics.recoverBlock_num_ops              为指定的block开始恢复标记生成的次数
rpc.detailed-metrics.reportDiagnosticInfo_avg_time     向父进程报告任务错误消息的平均时间,该操作应尽可能少,这些消息会在jobtracker中保存
rpc.detailed-metrics.reportDiagnosticInfo_num_ops      向父进程报告任务错误消息的次数
rpc.detailed-metrics.startBlockRecovery_avg_time       开始恢复block的平均时间
rpc.detailed-metrics.startBlockRecovery_num_ops        开始恢复block的次数
rpc.detailed-metrics.statusUpdate_avg_time             汇报子进程进度给父进程的平均时间
rpc.detailed-metrics.statusUpdate_num_ops              汇报子进程进度给父进程的次数
rpc.detailed-metrics.updateBlock_avg_time              更新block到新的标记及长度的平均操作时间
rpc.detailed-metrics.updateBlock_num_ops               更新block到新的标记及长度的次数
0
0
分享到:
评论

相关推荐

    hadoop 所用的jar包

    8. **Hadoop Metrics2**:监控系统的接口,允许插件化实现不同的监控后端。对应的JAR包为`hadoop-metrics2-*.jar`。 在实际使用中,根据你的应用程序的需求,可能只需要导入部分JAR包。例如,如果你只是读写HDFS上...

    hadoop-core-0.20.2 源码 hadoop-2.5.1-src.tar.gz 源码 hadoop 源码

    5. **配置管理**:`org.apache.hadoop.conf.Configuration`类用于管理Hadoop的配置参数,这些参数控制着Hadoop的行为和性能。 6. **日志和监控**:Hadoop使用`org.apache.hadoop.log`和`org.apache.hadoop.metrics`...

    hadoop-3.1.1编译

    - **Hadoop Metrics2**:提供了一套统一的接口,用于收集、聚合和暴露Hadoop组件的度量信息,方便系统监控和性能分析。 - **Ambari集成**:Ambari是一个用于部署、管理和监控Hadoop集群的工具,3.1.1版本中对...

    hadoop api.doc

    7. **org.apache.hadoop.metrics**: 提供了度量和监控Hadoop组件性能的API,如`MetricsContext`和`MetricsRecord`,可以收集并报告关于Hadoop守护进程的统计信息。 8. **org.apache.hadoop.record**: 设计用于处理...

    my hadoop demo

    6. **性能测试**:分析Hadoop作业的性能,使用工具如Hadoop Metrics2监控系统,优化作业性能。 7. **容错性和稳定性**:测试Hadoop的容错机制,如数据复制和故障恢复,确保系统的稳定性。 8. **代码调试**:讲解...

    Hadoop源代码分析(完整版).pdf

    * metrics:提供系统统计数据的收集,属于网管范畴。 * util:提供工具类。 * record:根据 DDL(数据描述语言)自动生成他们的编解码函数,目前可以提供 C++ 和 Java。 * http:基于 Jetty 的 HTTP Servlet,用户...

    HadoopAPI使用

    org.apache.hadoop.metrics 包定义了用于性能统计信息的 API,用于监控和优化 Hadoop 集群的性能。org.apache.hadoop.record 包定义了针对记录的 I/O API 类,以及一个记录描述语言翻译器,用于简化记录的序列化和反...

    无jar版windows平台hadoop-2.6.1.zip

    8. **安全与监控**:虽然这里提供的是无jar版本,但完整的Hadoop还包括安全性(如Kerberos)和监控(如Hadoop Metrics2)功能,这些在实际生产环境中非常重要。 了解并掌握Hadoop的基本操作和原理,对于理解大数据...

    Hadoop权威指南 第二版(中文版)

     2.7.4 度量(metrics)  2.7.5 模式设计  2.7.6 计数器  2.7.7 批量加载(bulkloading) 第14章 ZooKeeper  安装和运行ZooKeeper  示例  ZooKeeper中的组成员关系  创建组  加入组  列出组成员  ZooKeeper...

    Hadoop权威指南(中文版)2015上传.rar

    2.7.4 度量(metrics) 2.7.5 模式设计 2.7.6 计数器 2.7.7 批量加载(bulkloading) 第14章 ZooKeeper 安装和运行ZooKeeper 示例 ZooKeeper中的组成员关系 创建组 加入组 列出组成员 ZooKeeper服务 数据模型 操作 ...

    hadoop3.2.1配置文件亲测有效

    - **metrics2-conf.xml**:配置Metrics2系统的收集和展示。 8. **性能优化**:包括设置合适的缓冲区大小、线程池大小、内存分配等,以提高系统效率。 9. **高可用性配置**:对于Hadoop 3.0及以上版本,支持...

    Hadoop实战中文版

    - **Hadoop Metrics**:收集系统运行时的性能指标。 - **Hadoop Web UI**:提供图形化界面监控Hadoop集群状态。 ### 五、案例分析与实践 #### 5.1 数据清洗 - 使用Hadoop进行数据预处理,包括去除无效记录、格式...

    Hadoop 2 配置.docx

    - **hadoop-metrics.properties**:控制 metrics 在 Hadoop 上如何发布的属性。 - **log4j.properties**:定义系统日志文件、namenode 审计日志、tasktracker 子进程的任务日志的属性。 #### 四、Hadoop 2.0 的...

    spark-3.2.4-bin-hadoop3.2-scala2.13 安装包

    以下是对这些关键组成部分的详细解释: 1. **Spark**: Spark的核心在于它的弹性分布式数据集(RDD),这是一个容错的内存计算模型。它提供了一组高级APIs,支持批处理、交互式查询(Spark SQL)、实时流处理(Spark...

    hadoop network

    - **Hadoop仪表盘和监控工具**:如YARN的ResourceManager UI和NodeManager UI,以及Hadoop Metrics2接口,用于实时监控集群健康状况和性能指标。 7. **源码分析**: 对Hadoop源码的研究可以帮助理解其网络通信的...

    Hadoop源代码分析 高清完整中文版PDF下载

    - `metrics`:负责收集系统统计信息,属于网络管理的范畴。 - `util`:工具类,提供各种便捷的实用方法。 - `record`:根据DDL(数据描述语言)自动生成编解码函数,支持C++和Java。 - `http`:基于Jetty的...

    Hadoop.Net.rar

    `classification`和`metrics`可能是Hadoop中的数据分类和性能指标模块。数据分类可能涉及到数据预处理,而性能指标则用于评估Hadoop集群的运行效率。这两个组件对于理解和优化Hadoop的处理能力至关重要。 最后,`...

    基于云服务的Hadoop大数据平台挖掘算法及实现.docx

    1) 参数调优:调整Hadoop配置参数,如MapReduce的map和reduce任务数量、内存分配、数据块大小等。 2) 硬件升级:增加节点数量、提升硬件配置,如更快的CPU、更大的内存和SSD硬盘。 3) 并发控制:根据任务特点,合理...

    Hadoop源码的入门解析

    7. **org.apache.hadoop.metrics**:性能监控API。 8. **org.apache.hadoop.record**:记录I/O API,用于简化记录的序列化和反序列化。 9. **org.apache.hadoop.tools**:通用工具集合。 10. **org.apache.hadoop....

    Hadoop源代码分析(完整版)

    - **Metrics**:收集系统统计数据,用于监控和管理。 - **Util**:通用工具类集合。 - **Record**:根据数据描述语言(DDL)自动生成编解码函数,支持C++和Java语言。 - **Http**:基于Jetty的HTTP Servlet,用于...

Global site tag (gtag.js) - Google Analytics