hadoop日志系统中的日志收集模块 -

weitao1026

浏览: 1074709 次
性别:
来自: 上海

最近访客更多访客>>

vicento4

723499280

liuzidong

s1986q

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hadoop日志系统中的日志收集模块

博客分类：

hadoop/spark/Hbase/Hive/pig/Zookeeper/HAWQ/cloudera/Impala/Oozie

hadoop

hadoop日志系统中的日志收集模块，在如今比较流行的以及开源具有代表性的有facebook的scribe，apache的chukwa，linkedin的kafka，以及非常优秀的cloudrea的flume，在1.x的hadoop生态系统中，flume比较适合做日志收集模块，因为其功能全面，且具有高扩展性，高稳定性，高可靠性，以及便于管理和维护。

在1.xhadoop生态系统中，HDFS分布式文件存储系统，和Hbase分布式面向列的数据库，适合存储海量日志信息，HDFS，因为具有良好的扩展性，高容错性，高可靠性，所以适合海量日志信息的存储，Hbase因具有高可靠性，高性能，面向列以及良好的扩展性，且支持实时存储数据，结合HDFS作为底层的分布式存储系统，所以也适合存储海量日志信息

日志模块分析工具有Hive，Pig，Mahout，Hive的适用场景通常用于结构化海量日志的离线数据统计问题。Pig适用于ad-hoc在Query时离线数据分析工具。Mahout适用于对海量数据的机器学习和数据挖掘工作。

Hbase适合实时存读取网站的更新频率信息。
Hive和Pig适合完成网页去重复功能。
可以使用MapReduce分布式计算框架辅以hive，pig，mahout对网页进行处理和分析。

二，Cloudrea的flume日志收集模块，分为三层架构，分别位agent，collector，storage，agent和collector又由二部分组成，source和sink，source代表日志的数据源，sink代表数据方向，

参数

作用

agent

将数据源发送给collector统一处理

collector

将日志数据收集后汇总，交给HDFS存储

stroage

是存储系统，可以是数据库，简单的txt，HDFS,以及Hbase等等

简易流程图如下：

分享到：

SSH无密码验证的原理 | java内部类详解

2016-01-01 20:32
浏览 976
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop日志系统中的日志收集模块

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop日志系统中的日志收集模块

评论

发表评论

相关推荐

CDH与原生态hadoop之间的区别

Cloudera的CDH和Apache的Hadoop的区别

大数据、云计算系统高级架构师课程学习路线图

Oozie简介

清理ambari安装的hadoop集群

hawk大数据基础知识总结（2）

hawk大数据基础知识总结（1）

ambari是什么

数据仓库中的Inmon与Kimball架构之争

Hive的meta 数据支持以下三种存储方式

大数据要学习知识

Spark Streaming简介

pentaho套件

Impala：新一代开源大数据分析引擎

Weka是什么

解密Apache HAWQ ——功能强大的SQL-on-Hadoop引擎

Kettle的使用

clouder manager端口7180没有打开为什么

Impala与Hive的比较

Cloudera Manager、CDH零基础入门、线路指导

最近访客更多访客>>