Hadoop Metrics收集机制

lt200819

浏览: 192573 次
性别:
来自: 北京

最近访客更多访客>>

lizhiqiang

angelmm1234567

1988xuxuxu

jingkyks

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

Hadoop通过Metrics机制，对集群中各机器的执行参数进行收集和发送。hadoop metrics中主要的功能块为：

MetricsContext

通过org.apache.hadoop.metrics.ContextFactory，可以获得一个MetricsContext对象，它保存这一组metrics的上下文信息，context启动一个monitor线程来按一定周期来收集和发送收集到的数据。Context的主要机制由一个虚类org.apache.hadoop.metrics.spi.AbstractMetricsContext提供，其中主要功能就是类实例化时启动monitor线程及定时器，在定时器到时时调用注册到其上的Updater（之后描述）的update方法更新数据，然后调用emitRecord方法将数据发送出去。
简单的例子，org.apache.hadoop.metrics.ganglia.GangliaContext继承了AbstractMetricsContext，并在其emitRecord方法中实现向ganglia发送数据的功能。

Updater

org.apache.hadoop.metrics.Updater，是一个Java Interface。可以理解为数据收集的主体，接口中只有一个doUpdates方法。实现一个updater的扩展类，并注册到以上描述的MetricsContext中，context的monitor线程就会定期调用updater的doUpdates方法来抓取数据。通常在doUpdates里我们会对系统的各种metrics做初步计算处理并push到MetricsRecord中。

MetricsRecord

org.apache.hadoop.metrics.MetricsRecord为一个Interface，其实际实现类为org.apache.hadoop.metrics.MetricsRecordImpl。MetricsRecord可以定位唯一标识名称，且与context关联。MetricsRecord中包含一个Map结构，存储所有其包含的Metrics对象。每个context下可以包含多个MetricsRecord。Context调用doUpdates收集到MetricsRecord后，再将它发送给文件或者ganglia。

MetricsBase

所有具体的metrics数据类都会继承MetricsBase，常用的有以下几种：
MetricsIntValue：整型数值
MetricsLongValue：长整型数值
MetricsTimeVaryingInt：一个时间周期内整型累积值，push到MetricsRecord后从0开始累积。
MetricsTimeVaryingLong：一个时间周期内长整型累积值
MetricsTimeVaryingRate：保存了操作所花费的时间和该时间内的操作次数。最终发送出去会是两个数值：一个时间周期内的总操作次数和每个操作所花费的平均时间（操作总时间/操作次数）。该metrics内部还保存了单次操作时间的min和max。

Hbase也扩展了几种metrics类型：
MetricsAvgValue：记录用户设置的值及设置的次数，最终输出的是平均值，收集完清零。
MetricsIntervalInt：一个时间周期内整型数值，收集完清零。
MetricsRate：一个时间周期内的数据/时间周期的长度，收集完清零。
MetricsString：一个字符串，主要用于JMX，ganglia不支持。

Hadoop metrics的配置

配置文件在hadoop的配置目录下，名称为hadoop-metrics.properties，下面是一个metrics的常用配置：

# Configuration of the “hbase” context for ganglia
# Pick one: Ganglia 3.0 (former) or Ganglia 3.1 (latter)
mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext
mapred.period=15
mapred.servers= hostname:8649

其中mapred.class定义了名叫mapred的MetricsContext 实现类是GangliaContext(在代码实现中，context实例化时通过调用MetricsUtil.getContext(“mapred”)获取该信息，并将这里配置context类实例化，每次收集数据的周期是15秒，发送数据到servers中定义的gmond地址。

实例

具体的metrics实现，可以参考org.apache.hadoop.hdfs.server.namenode.metrics.NameNodeMetrics, org.apache.hadoop.metrics.jvm.JvmMetrics以及我们自己实现的org.apache.hadoop.mapred.metrics.TaskMetrics等。
简单的初始化Metrics操作如：
public TaskMetrics(Configuration conf, boolean mapperTask) {
String sessionId = conf.get(“session.id”); // Initiate reporting of Java VM metrics
JvmMetrics.init(“Task”, sessionId);
MetricsContext context = MetricsUtil.getContext(“mapred”);
String taskType = mapperTask == true? “maptask” : “reducetask”;
MetricsRecord metricsRecord = MetricsUtil.createRecord(context, taskType);
metricsRecord.setTag(“sessionId”, sessionId);
context.registerUpdater(this);
}

Hadoop 与 ganglia

Hadoop通过其Metrics机制收集到统计信息之后，将通过GangliaContext将信息发送到ganglia的gmond。ganglia的gmetad会定期从gmond拖取数据并存为rrd文件显示在网页上。不能上传图片…… ganglia的结构图如下链接：http://linux.net527.cn/uploads/allimg/c101015/12W121E140-1U26.jpg

分享到：

Mysql百万级数据查询优化 | mybatis与spring3.1整合

2013-06-25 09:55
浏览 2942
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论