`
SavageGarden
  • 浏览: 221651 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

基于Hadoo的日志收集框架---Chukwa的处理流程

 
阅读更多

1. 模拟增量日志环境

/home/matrix/Program/project/log/testlog

- 10.0.0.10 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 10.0.0.11 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 10.0.0.12 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 10.0.0.13 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 10.0.0.14 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 10.0.0.15 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 10.0.0.16 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 10.0.0.17 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 10.0.0.18 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 10.0.0.19 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

/home/matrix/Program/project/log/logtest

- 192.168.0.10 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 192.168.0.11 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 192.168.0.12 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 192.168.0.13 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 192.168.0.14 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 192.168.0.15 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 192.168.0.16 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 192.168.0.17 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 192.168.0.18 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"
- 192.168.0.19 [17/Oct/2011:23:20:40 +0800] GET /img/chukwa.jpg HTTP/1.0 "404" "16" "Mozilla/5.0 (MSIE 9.0; Windows NT 6.1;)"

/home/matrix/Program/project/log/write_log.sh

#!/bin/bash
cat /home/matrix/Program/project/log/testlog >> /home/matrix/Program/project/log/testlog1
cat /home/matrix/Program/project/log/logtest >> /home/matrix/Program/project/log/testlog2

/etc/crontab

*/1 * * * * matrix /home/matrix/Program/project/log/write_log.sh

$CHUKWA_HOME/conf/initial_adaptors

add filetailer.CharFileTailingAdaptorUTF8 TestLog1 0 /home/matrix/Program/project/log/testlog1 0
add filetailer.CharFileTailingAdaptorUTF8 TestLog2 0 /home/matrix/Program/project/log/testlog2 0

2. chukwa的目录结构

/chukwa/
   archivesProcessing/
   dataSinkArchives/
   demuxProcessing/
   finalArchives/
   logs/
   postProcess/
   repos/
   rolling/
   temp/

3. chukwa的处理过程

 

(1) adaptors使用tail方式监测日志增量
(2) agent发送数据到collectors
(3) collectors将各agent收集的数据在/chukwa/logs/目录下写成*.chukwa文件


(4) 当*.chukwa文件大小达到阀值或达到一定时间间隔时将其改名为*.done文件
(5) demux进程将/chukwa/logs/*.done文件转移到/chukwa/demuxProcessing/mrInput/目录下进行处理
(6) postProcess进程将demux进程处理完成的*.evt文件转储到/chukwa/repos/目录下

(7) 可以根据postProcess进程按照日志类型在/chukwa/rolling/目录下生成的文件进行按天或按小时的数据合并

 

  • 大小: 47.2 KB
  • 大小: 47.2 KB
  • 大小: 74.8 KB
  • 大小: 45.4 KB
  • 大小: 48.1 KB
0
0
分享到:
评论

相关推荐

    Apache Hadoop---Chukwa.docx

    3. **内部架构与流程**:Chukwa的数据处理流程从agents开始,通过adaptors采集数据,然后由collectors接收并初步处理。数据随后进入Hadoop的HDFS,并通过map/reduce作业(如demux和archive)进行进一步分析。Demux...

    chukwa-src-0.8.0.tar

    3. Hadoop Integration:Chukwa利用Hadoop的MapReduce框架进行数据处理,这使得它能够处理PB级别的大数据。 4. Adapters:适配器允许Chukwa与各种不同的数据源集成,包括系统日志、应用日志、性能指标等。 5. ...

    基于Hadoop的大数据处理关键技术综述.pptx

    Chukwa则是一个日志管理和分析系统,用于收集、存储和分析大规模分布式系统的数据。 大数据市场自2011年以来迅速发展,特别是在政府、互联网、电信和金融等行业,大数据的应用逐渐普及。预计未来几年,市场规模将...

    基于Hadoop的大数据处理关键技术综述22.pptx

    其他如HBase提供了高效的列式存储,Pig提供高级数据分析接口,Hive则为用户提供SQL-like查询功能,Chukwa用于日志管理和数据收集,这些组件共同构建了Hadoop生态系统,支持各种大数据应用场景。 总的来说,Hadoop...

    Hadoop状态分析系统Chukwa.pdf

    总之,Apache Chukwa是一个强大的大数据监控系统,它基于Hadoop,提供了一套完整的解决方案,用于收集、存储、分析和展示大规模分布式环境中的海量日志数据。通过Chukwa,运维人员可以更有效地管理和维护复杂的IT...

    Hadoop状态分析系统Chukwa.docx

    尽管它最初是为了满足Hadoop监控的需求而设计,但其框架可以应用于各种大数据日志类数据的处理。Chukwa提供了一整套工具,允许用户自定义数据收集代理、数据处理管道和分析工具,以适应不同场景和需求。 Chukwa系统...

    基于Hadoop的大数据应用分析.pptx

    Chukwa是用于集群监控的系统,可以帮助收集和分析系统日志。Hive则为Hadoop带来了SQL-like查询能力,使得非Java背景的用户也能方便地处理大数据。HBase是一个列式存储的分布式数据库,适用于实时读写操作。ZooKeeper...

    大数据云计算技术 淘宝网Hadoop与数据分析 taobao数据团队(共30页).ppt

    同时,使用Chukwa收集和分析日志,以便及时发现和解决问题。 六、典型的Hadoop离线分析系统架构 典型的Hadoop离线分析系统通常由数据采集、数据清洗、数据存储、数据处理和数据可视化等部分组成。在淘宝的环境中,...

    chukwa_cca08

    该系统基于Hadoop分布式文件系统(HDFS)和MapReduce框架构建,利用这些技术的成熟度和稳定性,确保了Chukwa自身的高效运行和数据处理能力。Chukwa的核心功能在于收集来自分布式系统各节点的海量数据,包括但不限于...

    基于Hadoop的大数据处理关键技术综述PPT课件.pptx

    【Hadoop体系架构】包括MapReduce、HBase(分布式数据库)、Pig(数据流语言)、ChuKwa(日志收集系统)和Hive(数据仓库工具)等组件,形成了一套完整的数据处理生态系统。 综上所述,基于Hadoop的大数据处理关键...

    Hadoop视频教程套餐下载-零基础大数据实战培训教程配文本项目案例

    在本Hadoop视频教程套餐中,我们将会深入探讨大数据处理技术,特别关注Hadoop生态系统中的核心组件,包括HBase、Hadoop2.0 YARN、MapReduce以及Greenplum和Chukwa。这个零基础实战培训教程是为那些希望进入大数据...

    Hadoop学习笔记.pdf

    - Chukwa:它是基于Hadoop的开源数据收集系统,用于监控大型分布式系统的健康状态。 - Pig:是一种高级的脚本语言,用于编写MapReduce任务,适用于数据流和数据转换的场景。 - Hive:为数据仓库设计,提供了SQL方言...

    全球100款大数据工具汇总

    - 提供图形化的用户界面,简化复杂的数据处理流程。 - 高度可扩展,支持自定义插件和脚本。 - **应用场景**:适用于企业级数据迁移、数据仓库构建等场景。 #### 二、DYSON:智能数据分析系统 - **简介**:DYSON ...

    基于Hadoop平台的电力行业大数据分析技术应用.pdf

    传统的数据管理与分析方法已无法应对PB级别的数据处理需求,因此,基于Hadoop平台的大数据分析技术在电力行业中显得尤为重要。 Hadoop是一个开源的分布式计算框架,其核心包括Hadoop分布式文件系统(HDFS)和...

    Hadoop实战

    - **Chukwa**: 开源的数据收集系统,用于监控大型分布式系统的性能。 - **ZooKeeper**: 分布式协调服务,为分布式应用提供一致性服务。 #### 三、Hadoop应用实例与实践 **3.1 实战案例** - **示例一**: Web日志...

    hadoop 实战 dev_02

    综上所述,本课程深入介绍了Hadoop在Web日志分析中的应用,从基本的日志概念到复杂的分布式日志收集和处理架构,为学员提供了一套完整的Hadoop实战知识体系。通过本课程的学习,学员可以掌握如何使用Hadoop系统进行...

    开源日志系统比较:scribe、chukwa、kafka、flume.pdf

    Chukwa设计的目标是处理大规模的集群日志分析,提供灵活的数据源、高性能存储和数据分析框架。Chukwa的角色包括adaptor、agent和collector。adaptor负责数据源的封装,agent提供对adaptor的服务,包括数据传输和状态...

    hadoop+HBase教程

    Hadoop生态系统包括Hadoop核心、Hadoop Common、分布式文件系统HDFS、MapReduce框架、并行数据分析语言Pig、列存储NoSQL数据库HBase、分布式协调器Zookeeper、数据仓库Hive以及Hadoop日志分析工具Chukwa等组件。...

Global site tag (gtag.js) - Google Analytics