Hadoop日志系统知识

qindongliang1922

浏览: 2209645 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：118309

: 证道Hadoop
浏览量：126680

: 证道shell编程
浏览量：60738

: ELK修真
浏览量：71902

文章分类

社区版块

存档分类

博客分类：

Hadoop

hadoop flume 日志系统

hadoop日志系统中的日志收集模块，在如今比较流行的以及开源具有代表性的有facebook的scribe，apache的chukwa，linkedin的kafka，以及非常优秀的cloudrea的flume，在1.x的hadoop生态系统中，flume比较适合做日志收集模块，因为其功能全面，且具有高扩展性，高稳定性，高可靠性，以及便于管理和维护。

在1.xhadoop生态系统中，HDFS分布式文件存储系统，和Hbase分布式面向列的数据库，适合存储海量日志信息，HDFS，因为具有良好的扩展性，高容错性，高可靠性，所以适合海量日志信息的存储，Hbase因具有高可靠性，高性能，面向列以及良好的扩展性，且支持实时存储数据，结合HDFS作为底层的分布式存储系统，所以也适合存储海量日志信息

日志模块分析工具有Hive，Pig，Mahout，Hive的适用场景通常用于结构化海量日志的离线数据统计问题。Pig适用于ad-hoc在Query时离线数据分析工具。Mahout适用于对海量数据的机器学习和数据挖掘工作。

Hbase适合实时存读取网站的更新频率信息。
Hive和Pig适合完成网页去重复功能。
可以使用MapReduce分布式计算框架辅以hive，pig，mahout对网页进行处理和分析。

二，Cloudrea的flume日志收集模块，分为三层架构，分别位agent，collector，storage，agent和collector又由二部分组成，source和sink，source代表日志的数据源，sink代表数据方向，
参数作用
agent 将数据源发送给collector统一处理
collector 将日志数据收集后汇总，交给HDFS存储
stroage 是存储系统，可以是数据库，简单的txt，HDFS,以及Hbase等等

简易流程图如下：

查看图片附件

分享到：

CentOS6.4之图解SSH无验证双向登陆配置 | jtls异常 SSO Failed

2013-10-10 22:01
浏览 4002
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论