`
SavageGarden
  • 浏览: 223202 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

基于Hadoo的日志收集框架---Chukwa的安装部署

 
阅读更多

chukwa是解决在集群环境中收集各节点增量日志的一种基于hadoop的实现方案,其主要有如下四个组成部分。
1. Agents 运行在每个客户端上,负责发送数据。
2. Collectors 接收Agents发送的数据并写入稳定存储。
3. MapReduce jobs 分析和归档数据。
4. HICC 数据中心,用于显示数据的web界面。
它的系统架构如下图

以单机部署为例,前提已经安装hadoop(0.20.2),HADOOP_HOME=/usr/local/cloud/hadoop

1. 下载chukwa(0.4.0)
2. 解压到/usr/local/cloud/chukwa/,CHUKWA_HOME=/usr/local/cloud/chukwa
3. 修改$CHUKWA_HOME/conf/agents,部署在本机的话为localhost
4. 修改$CHUKWA_HOME/conf/collectors, 部署在本机的话为localhost
5. 修改$CHUKWA_HOME/conf/chukwa-env.sh,设置如下项

export JAVA_HOME=/usr/java/jdk1.6.0_26
export HADOOP_HOME="/usr/local/cloud/hadoop"
export HADOOP_CONF_DIR="/usr/local/cloud/hadoop/conf"
export HADOOP_JAR=${HADOOP_HOME}/hadoop-core-0.20.2.jar
export chukwaRecordsRepository="/chukwa/repos/"
export CHUKWA_PID_DIR=/usr/local/cloud/tmp/chukwa/pids
export CHUKWA_LOG_DIR=/usr/local/cloud/tmp/chukwa/logs
export CHUKWA_DATA_DIR=/usr/local/cloud/tmp/chukwa/data

6. 修改$CHUKWA_HOME/conf/chukwa-agent-conf.xml

  <property>
    <name>chukwaAgent.tags</name>
    <value>cluster="chukwa"</value>
    <description>The cluster's name for this agent</description>
  </property>
  
  <property>
    <name>chukwaAgent.control.port</name>
    <value>9093</value>
    <description>The socket port number the agent's control interface can be contacted at.</description>
  </property>

  <property>
    <name>chukwaAgent.hostname</name>
    <value>localhost</value>
    <description>The hostname of the agent on this node. Usually localhost, this is used by the chukwa instrumentation agent-control interface library</description>
  </property>

  <property>
    <name>chukwaAgent.checkpoint.name</name>
    <value>chukwa_agent_checkpoint</value>
    <description>the prefix to to prepend to the agent's checkpoint file(s)</description>
  </property>
  
  <property>
    <name>chukwaAgent.checkpoint.dir</name>
    <value>${CHUKWA_LOG_DIR}/</value>
    <description>the location to put the agent's checkpoint file(s)</description>
  </property>

  <property>
    <name>chukwaAgent.checkpoint.interval</name>
    <value>5000</value>
    <description>the frequency interval for the agent to do checkpoints, in milliseconds</description>
  </property>

  <property>
    <name>chukwaAgent.sender.fastRetries</name>
    <value>4</value>
    <description>the number of post attempts to make to a single collector, before marking it failed</description>
  </property>

  <property>
    <name>chukwaAgent.collector.retries</name>
    <value>144000</value>
    <description>the number of attempts to find a working collector</description>
  </property>

  <property>
    <name>chukwaAgent.collector.retryInterval</name>
    <value>20000</value>
    <description>the number of milliseconds to wait between searches for a collector</description>
  </property>

7. 修改$CHUKWA_HOME/conf/chukwa-collector-conf.xml

 <property>
    <name>writer.hdfs.filesystem</name>
    <value>hdfs://master:9000/</value>
    <description>HDFS to dump to</description>
  </property>

  <property>
    <name>chukwaCollector.outputDir</name>
    <value>/chukwa/logs/</value>
    <description>Chukwa data sink directory</description>
  </property>

  <property>
    <name>chukwaCollector.rotateInterval</name>
    <value>300000</value>
    <description>Chukwa rotate interval (ms)</description>
  </property>

  <property>
    <name>chukwaCollector.http.port</name>
    <value>8080</value>
    <description>The HTTP port number the collector will listen on</description>
  </property>

8. 修改$CHUKWA_HOME/conf/initial_adaptors,添加要监测的日志文件,比如

add filetailer.CharFileTailingAdaptorUTF8 TestLog1 0 /home/matrix/Program/project/log/testlog1 0

9. 启动collectors

$CHUKWA_HOME/bin/start-collectors.sh

10. 启动agents

$CHUKWA_HOME/bin/start-agents.sh

11. 启动data-processors

$CHUKWA_HOME/bin/start-data-processors.sh
  • 大小: 17.6 KB
0
0
分享到:
评论

相关推荐

    Apache Hadoop---Chukwa.docx

    Apache Hadoop是一个广泛使用的开源分布式存储和计算框架,它的出现极大地推动了大数据处理的发展。而Apache Chukwa作为Hadoop的扩展,专为监控大型分布式系统而设计,特别是在Hadoop集群环境中,它扮演着至关重要的...

    chukwa-src-0.8.0.tar

    《Chukwa源码分析:探索分布式日志收集系统的核心技术》 Chukwa是Apache软件基金会的一个开源项目,它是一个大规模分布式日志收集、聚合和传输系统,主要用于监控大型分布式系统的数据流。"chukwa-src-0.8.0.tar"是...

    chukwa_cca08

    该系统基于Hadoop分布式文件系统(HDFS)和MapReduce框架构建,利用这些技术的成熟度和稳定性,确保了Chukwa自身的高效运行和数据处理能力。Chukwa的核心功能在于收集来自分布式系统各节点的海量数据,包括但不限于...

    Hadoop学习笔记.pdf

    - Chukwa:它是基于Hadoop的开源数据收集系统,用于监控大型分布式系统的健康状态。 - Pig:是一种高级的脚本语言,用于编写MapReduce任务,适用于数据流和数据转换的场景。 - Hive:为数据仓库设计,提供了SQL方言...

    全球100款大数据工具汇总

    #### 十九、Flume:日志收集框架 - **背景**:最初由 Cloudera 开发。 - **功能**: - 可配置的数据收集。 - 支持多种数据源和目的地。 - 高可靠性。 - **应用场景**:日志聚合、实时数据流处理。 以上介绍的每...

    Hadoop实战中文版

    - **概念介绍**:Chukwa是一个开源的数据收集系统,主要用于监控和收集大量分布式系统的日志和指标数据。 - **应用场景**:系统监控、日志分析等。 - **特点**: - 高度可配置:可以根据需求定制数据收集策略。 - ...

    Hadoop实战

    - **Chukwa**: 开源的数据收集系统,用于监控大型分布式系统的性能。 - **ZooKeeper**: 分布式协调服务,为分布式应用提供一致性服务。 #### 三、Hadoop应用实例与实践 **3.1 实战案例** - **示例一**: Web日志...

    Hadoop集群搭建总结

    - **Chukwa**:分布式数据收集和分析系统,可以收集和分析来自HDFS的数据。 **2.2 Hadoop核心架构** Hadoop的核心架构主要包括以下几个关键组件: - **HDFS**:位于整个架构的最底层,负责存储分布在各个节点上的...

    日志分析系统调研分析ELKEFK.docx

    - **Chukwa**:基于Hadoop生态系统构建的日志收集与分析系统,特别适用于大规模数据集的处理。其架构包括adaptor数据源、HDFS存储系统以及Collector和Agent两个角色。通过这一架构,Chukwa能够在保证高性能的同时,...

    Google +Hadoop使用编程

    **Chukwa** 是基于Hadoop构建的一个大规模集群监控系统。它能够收集和分析来自各种来源的日志数据,包括操作系统、应用程序和网络设备等。Chukwa提供了一个灵活的数据模型和一套强大的工具集,可以帮助用户快速识别...

    应用软件运行日志的收集与服务处理框架

    ELK是一种广泛使用的日志管理解决方案,而Chukwa则是一种基于Hadoop的日志收集系统。通过对比,框架展现出其在处理大规模日志数据方面的优势,同时提供了更多定制化的服务以满足用户特定需求。 从技术角度来讲,...

    云计算理论及应用论文

    Chukwa利用Hadoop的架构,提供了一种可靠、可扩展的方法来收集、存储和分析日志和其他监控数据。这对于运营管理和故障排查至关重要,因为海量的日志数据可以帮助运维人员理解系统的运行状况,及时发现并解决问题。 ...

    大数据处理常用技术有哪些.docx

    14. **Apache Chukwa**:Chukwa 用于监控大型分布式系统的数据收集,将数据转化为适合 Hadoop 处理的格式。 15. **Apache Hama**:Hama 基于 BSP(Bulk Synchronous Parallel)模型,用于处理大规模的数学问题,如...

    云计算第三版精品课程配套PPT课件含习题(26页)第5章 Hadoop 2.0 主流开源云架构(二).pptx

    此外,还有数据处理工具如Avro、Mahout、Pig、Hive、Impala,以及NoSQL数据库HBase,搜索工具Solr,消息传递系统如Kafka,数据流处理工具Flume,日志管理系统Chukwa等,这些都构成了Hadoop生态系统的丰富组件。...

    大数据处理常用技术有哪些.pdf

    14. **Apache Chukwa**:Chukwa 是一个数据收集系统,用于监控分布式系统,收集的数据可以进一步用 Hadoop 进行分析。 15. **Apache Hama**:Hama 专注于大规模的并行计算,特别是图、矩阵和网络算法,基于 BSP ...

Global site tag (gtag.js) - Google Analytics