最新文章列表

Flume自定义Sink—实现按天或小时分割文件并压缩保存

   编写不易,转载请注明:http://shihlei.iteye.com/blog/2306151       项目需要:     Flume收集日志,期望落地文件系统,按小时分割,并压缩保存。     Flume自带的File Roll Sink 只能按时间分割文件,不能定制存放目录,压缩文件等。所以自定义了Sink结合Log4j的RollingFileAppender的特性,完成 ...
ShihLei 评论(0) 有9118人浏览 2016-06-20 16:56

SparkStreaming pull data from Flume

Spark Streaming + Flume Integration Guide:http://spark.apache.org/docs/latest/streaming-flume-integration.html 本例子是做一个Spark Streaming 从flume中拉取数据的实验。 1.面配置flume 1.首先下载必须的jar:在上面的连接中有。并将其拷贝到/usr/local/ ...
Kevin12 评论(0) 有1228人浏览 2016-06-19 17:29

Flume push数据到SparkStreaming

上节http://kevin12.iteye.com/blog/2305946将flume的环境搭建好,并测试了flume的故障转移功能,这节编码实现Flume推送数据到Spark Streaming中。 下面的例子我只在master1上配置flume,worker1,worker2不进行配置了。 1.配置 master1上修改配置文件root@master1:/usr/local/flume/ap ...
Kevin12 评论(0) 有1940人浏览 2016-06-19 15:16

Flume的安装和测试故障转移

1.实现功能 配置Flume监控本地文件夹变化,将变化的文件上传到hdfs上。 2.集群规划(3台机器都需要安装) 3.软件准备 下载软件包:http://flume.apache.org/download.html 选择当前最新版本:apache-flume-1.6.0-bin.tar.gz 并将其上传到虚拟机的/usr/local/flume目录下,如果没有创建目录; 运行命令: ...
Kevin12 评论(0) 有3388人浏览 2016-06-19 14:56

Flume的安装和测试故障转移

1.实现功能 配置Flume监控本地文件夹变化,将变化的文件上传到hdfs上。 2.集群规划(3台机器都需要安装) 3.软件准备 下载软件包:http://flume.apache.org/download.html 选择当前最新版本:apache-flume-1.6.0-bin.tar.gz 并将其上传到虚拟机的/usr/local/flume目录下,如果没有创建目录; 运行命令:root@ma ...
Kevin12 评论(0) 有1717人浏览 2016-06-19 12:48

flume-plugin 采集增量日志,断点续传

flume 官方插件,常用两种方式采集增量日志 1 exec 插件可以执行 Shell tail -f 文件 命令。优点,实时采集,缺点。如果flume进程重启。将无法找到当时的checkpoint。特别是主文件已经被log4j切走,或者被Shell脚本切走 2 spool 插件可以检测目录下新增的文件,处理过的文件用.COMPLETE文件名称结束。优点,Flume内部实现了checkpoint断 ...
fenglei0213 评论(0) 有3160人浏览 2016-05-25 10:41

Flume快速入门(三):File Channel之写Event

       有了前两篇博文的基础,相信大家对Flume Agent的内部结构已经有了个初步的了解,现在我们来详细介绍最常用的文件通道——File Channel,本篇博客主要介绍Eevnt是如何完成写到File Channel这一操作的。        上一篇: http://manzhizhen.iteye.com/blog/2298159        Channel是联系Sour ...
manzhizhen 评论(0) 有7006人浏览 2016-05-22 12:44

Flume快速入门(二):设计从简

      上一篇文章简单介绍了下Flume的背景,接下来本文说说Flume NG的内部设计。注意:本文针对的是Flume1.6.0版本。       上一篇:http://manzhizhen.iteye. ...
manzhizhen 评论(0) 有2303人浏览 2016-05-15 13:55

Flume快速入门(一):背景简介

       Flume由Cloudera于2009年7月开源,后变成Apache的顶级项目之一,由Java语言开发,致力于解决大量日志流数据的迁移问题。日志是大数据分析领域的 ...
manzhizhen 评论(0) 有1523人浏览 2016-05-14 11:12

征服flume之三——使用log4j输出日志到flume

接下来的几篇文章,我们将逐步学习使用各种方式对日志进行采集。 本文讲述的是如何使用log4j直接输出日志到flume。 先上干货,再讲理论! 1、flume配置文件 agent.sources = so1 agent.channels = c1 agent.sinks = s1 # For each one of the sources, the type is defined ...
cpjsjxy 评论(1) 有5199人浏览 2016-02-24 15:00

征服flume之二——flume-NG安装

1、将编译后的 apache-flume-1.7.0-SNAPSHOT-bin.tar.gz 包上传至linux服务器 2、修改 flume-env.sh 配置文件,主要是添加java环境 # Licensed to the Apache Software Foundation (A ...
cpjsjxy 评论(1) 有1356人浏览 2016-02-24 11:40

Flume环境部署和配置详解及案例(转)

flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。   一、什么是Flume?   flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume ...
hua0618 评论(0) 有791人浏览 2016-02-02 15:40

大数据日志收集框架之Flume入门

Flume是Cloudrea公司开源的一款优秀的日志收集框架,主要经历了两个大的版本,分别是 Flume-OG Flume-NG OG是0.9.x的版本,依赖zookeeper,角色职责不够单一, NG是新版本指1.x的版本,官网解释它更轻量级,更小,角色职责更单一,利用点到点进行容错,当然这也是以后的趋势, 要理解Flume,就首先理解它的架构,下面看下,官网的一张拓扑图: 名词解释: ...
qindongliang1922 评论(0) 有4183人浏览 2016-02-02 14:25

Flume集群搭建

Flume 集群搭建 ,配置了2个sink,负载均衡 三台服务器,分别是 192.168.134.131    master192.168.134.132 datanodea192.168.134.133 datanodeb     集群的模式是这样的:                                 Master                           ...
__SuRa丶Rain 评论(0) 有801人浏览 2016-01-10 20:23

Flume架构与源码分析-MemoryChannel事务实现

Flume提供了可靠地日志采集功能,其高可靠是通过事务机制实现的。而对于Channel的事务我们本部分会介绍MemoryChannel和FileChannel的实现。   首先我们看下BasicChannelSemantics实现: public abstract class BasicChannelSemantics extends AbstractChannel { //1、事务 ...
jinnianshilongnian 评论(0) 有9699人浏览 2015-12-17 22:36

Flume架构与源码分析-核心组件分析-2

  4、整体流程 从以上部分我们可以看出,不管是Source还是Sink都依赖Channel,那么启动时应该先启动Channel然后再启动Source或Sink即可。   Flume有两种启动方式:使用EmbeddedAgent内嵌在Java应用中或使用Application单独启动一个进程,此处我们已Application分析为主。   首先进入org.apache.flume. ...
jinnianshilongnian 评论(0) 有5341人浏览 2015-12-13 20:46

Flume架构与源码分析-核心组件分析-1

  首先所有核心组件都会实现org.apache.flume.lifecycle.LifecycleAware接口: public interface LifecycleAware { public void start(); public void stop(); public LifecycleState getLifecycleState(); } start方法 ...
jinnianshilongnian 评论(0) 有8694人浏览 2015-12-13 20:37

使用flume日志采集直接将采集数据导入hive

  今天给大家分享下 使用flume采集日志,直接将日志导入对应的hive表中,然后使用hive进行日志分析   下面就以apache access log为例   具体使用hive的 ...
sungang_1120 评论(0) 有2772人浏览 2015-12-08 13:34

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics