Ganglia是一个监控服务器,集群的开源软件,能够用曲线图表现最近一个小时,最近一天,最近一周,最近一月,最近一年的服务器或者集群的cpu负载,内存,网络,硬盘等指标。
Ganglia的强大在于:ganglia服务端能够通过一台客户端收集到同一个网段的所有客户端的数据,ganglia集群服务端能够通过一台服务端收集到它下属的所有客户端数据。这个体系设计表示一台服务器能够通过不同的分层能够管理上万台机器。这个功能是其他mrtg,nagios,cacti所不能比拟。
因为hadoop的支持问题,我们推荐安装ganglia3.0.3。
操作系统环境:CentOS5.2
集群环境:
namenode 192.168.75.144
datanode1 192.168.75.145
datanode2 192.168.75.146
ganglia的服务端安装在namenode上
下载安装包,清单如下:
rrdtool-1.0.50-3.el5.rf.x86_64.rpm
ganglia-web-3.0.3-1.noarch.rpm
ganglia-gmetad-3.0.3-1.rhel4.x86_64.rpm
ganglia-gmond-3.0.3-1.rhel4.x86_64.rpm
一、安装客户端
#rpm -Uvh ganglia-gmond-3.0.3-1.rhel4.x86_64.rpm
安装完毕以后gmond默认就启动了,稍后可以使用service gmond start|stop|restart等控制启动,停止,重启等功能;
在/etc/下会产生一个gmond.conf的配置文件。
在这个配置文件中先找到setuid = yes,改成setuid =no;然后找到在cluster中的name,改成name ="hadoop-test";
其他都不用改了,保存以后重启gmond服务;
二、安装服务器端
1.首先安装rrdtool
#rpm -Uvh rrdtool-1.0.50-3.el5.rf.x86_64.rpm
安装以后执行rrdtool,能够显示版本号等信息说明rrdtool安装完毕
创建rrd数据存储的文件夹, 修改属性拥有者为: "nobody":
#mkdir /var/lib/ganglia/rrds
#chown nobody:nobody /var/lib/ganglia/rrds
2.安装gmetad
#rpm -Uvh ganglia-gmetad-3.0.3-1.rhel4.x86_64.rpm
安装过程中可能会提示依赖ruby 等包,一路使用yum install ruby安装其他需要的包
安装完成后gmetad服务默认就启动了,稍后可以使用service gmetad start|stop|restart等控制启动,停止,重启等功能;
在/etc/下会产生一个gmetad.conf的配置文件。
在这个配置文件中主要是增加一些datasource,即被监控的机器的列表。
在我的例子中是
data_source "hadoop-test" hadoop-namenode:8649 hadoop-datanode1:8649 hadoop-datanode2:8649
其中"hadoop-test"是集群名称,呆会要和客户端的gmond中配置的name要一致,后面多个机器名的话用空格隔开就可以了
配置过配置文件以后,需要重启gmetad来应用配置。
3.安装web
#rpm -Uvh ganglia-web-3.0.3-1.noarch.rpm
安装以后会在/var/www/html下面生成一个ganglia 的文件夹。
现在启动apache
#service httpd start
启动成功后,通过访问http://hadoop-namenode/ganglia就可以看到ganglia的首页了。
另外要通过yum install php-gd安装一个插件,如果没有这个插件,首页左下角会有一个饼图无法显示,也并不太影响使用。
三、配置hadoop文件
找到hadoop根目录下的conf文件夹下的hadoop-metrics.properties文件
改成如下内容
# Configuration of the "dfs" context for ganglia
dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext
dfs.period=10
dfs.servers=239.2.11.71:8649
# Configuration of the "mapred" context for ganglia
mapred.class=org.apache.hadoop.metrics.ganglia.GangliaContext
mapred.period=10
mapred.servers=239.2.11.71:8649
# Configuration of the "jvm" context for ganglia
jvm.class=org.apache.hadoop.metrics.ganglia.GangliaContext
jvm.period=10
jvm.servers=239.2.11.71:8649
注:239.2.11.71这个是ganglia用的多播的地址,不需要改成gmetad的服务器地址
如果需要监控hbase的话,也一样找到hbase目录下的这个文件,改法一样就不重复了。
改完以后重启hadoop服务
原文:http://www.cnblogs.com/lijun4017/archive/2011/08/11/2135031.html
相关推荐
总之,Ganglia是Hadoop监控的强大工具,其灵活的配置和丰富的功能使其在大数据领域中广泛应用。通过熟练掌握Ganglia的配置和使用,我们可以更好地管理和维护Hadoop 2.2集群,提升大数据处理的效能。
Ganglia、Hadoop和HBase都是大数据领域的重要组件,而Nagios则是一种广泛使用的系统监控工具。这篇博文链接提供的资源聚焦于如何将这些技术结合使用,并进行有效的监控。 Ganglia是一个分布式监控系统,能够收集并...
本文将详细介绍如何在大数据平台上结合使用Ganglia和Nagios进行监控。 Ganglia 是一款分布式监控系统,它能够收集、聚合并可视化大量计算节点(如Hadoop集群)的性能数据。Ganglia的核心组件包括gmond(监控代理)...
Ganglia是一个分布式监控系统,能够对Hadoop集群进行实时监控。Ganglia的优点是可以对集群总体状况和负载进行汇总,采用多播地址降低带宽占用,TCP采集数据稳定。缺点是配置稍复杂,需安装客户端,单台数据不如Cacti...
在Hadoop集群中,有效地监控系统资源至关重要,...完成以上步骤后,你将拥有一个能够监控Hadoop集群性能的Ganglia系统,能够实时显示CPU使用率、I/O操作和MapReduce任务的带宽使用情况,有助于优化集群性能和故障排查。
本文档主要介绍了Hadoop集群监控和Hive高可用的解决方案,涵盖了Cacti和Ganglia两种监控工具的优缺点、Hive高可用集群的实现方案、HAProxy的应用和优化。 一、Hadoop集群监控 1. Cacti监控工具 Cacti是一种基于...
- **Ganglia概述**:Ganglia是一种用于监控大规模分布式系统的工具,它特别适合用于监控像Hadoop这样的大数据处理平台。 - **Ganglia的优点**: - 提供集群总体状况和负载汇总视图,帮助管理员更好地理解集群的整体...
2. **监控工具**:Zabbix、Ganglia、Ambari和Nagios是常用的Hadoop集群监控工具。它们能实时显示集群的健康状况,并提供警报机制以在出现问题时及时通知管理员。 3. **日志分析**:通过收集和分析Hadoop的日志文件...
本文将深入探讨“Hadoop集群监控”和“Hive高可用性”的主题,结合向磊的分享进行详细阐述。 首先,Hadoop是一个分布式计算框架,它允许在大量廉价硬件上存储和处理海量数据。Hadoop集群监控对于确保系统稳定性和...
1. **Gmond (Ganglia Monitoring Daemon)**:这是Ganglia的节点代理程序,它运行在每一个被监控的主机上,收集诸如CPU使用率、内存使用、磁盘I/O、网络流量等系统指标,并将这些数据发送到Ganglia集群中的其他节点或...
在使用Ganglia时,系统管理员可以轻松地设定监控频率,例如每十秒收集一次20,000个主机的CPU使用情况。Ganglia的Web前端通过图表的方式展示这些数据,使得系统管理员可以直观地了解系统的运行状态,及时发现性能瓶颈...
Hadoop 2.0 生态系统第四章 管理与监控Ganglia
本篇文档详细介绍了基于Ganglia和Nagios这两种开源监控软件,构建在Hadoop开源云计算平台上的智能监控系统,并结合移动飞信软件实现云计算平台的实时监控。 在深入理解云计算监控技术的过程中,首先要明确监控的...
在Hadoop集群中,Ganglia能够监控各个节点的资源使用情况,帮助管理员识别瓶颈,优化任务调度。例如,通过Ganglia可以监控到MapReduce任务的执行情况,包括CPU占用、磁盘I/O和网络流量,对于解决作业延迟或资源争抢...
完成软件安装后,需要对Ganglia的相关配置文件进行调整,包括`gmond.conf`和`gmetad.conf`。配置完成后,启动Ganglia的各个服务,并确保数据能够正常收集和展示。 1. **启动gmond**:在每个从节点上启动gmond服务,...
本章旨在帮助读者深入了解并掌握Hadoop的管理技巧,包括但不限于HDFS命令行工具的使用方法、如何有效地添加或删除节点、使用Ganglia进行集群性能监控以及利用Sqoop实现数据导入与导出等功能。 #### HDFS命令行工具 ...
- **监控工具**:Ganglia可以用于监控Hadoop集群,但不支持告警功能。 - **容错机制**:Hadoop有严格的权限管理和安全措施,但是不代表它自身具备了完整的安全机制。 - **Namenode功能**:NameNode负责管理元数据,...