`

Flume数据收集

 
阅读更多

 

 

 

 

 

1、创建flume监听的目录,如果不嫌创建,启动flume时会报错

 

2、配置flume

sources:目录

channels:内存

skin:hdfs

#定义agent名, source、channel、sink的名称
a4.sources = s1
a4.channels = c1
a4.sinks = s1

#具体定义source
a4.sources.s1.type = spooldir
a4.sources.s1.spoolDir = /root/logs

#具体定义channel
a4.channels.c1.type = memory
a4.channels.c1.capacity = 10000
a4.channels.c1.transactionCapacity = 100

#定义拦截器,为消息添加时间戳
a4.sources.s1.interceptors = i1
a4.sources.s1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

#具体定义sink
a4.sinks.s1.type = hdfs
a4.sinks.s1.hdfs.path = hdfs://ns1/flume/%Y%m%d
a4.sinks.s1.hdfs.filePrefix = events-
a4.sinks.s1.hdfs.fileType = DataStream
#不按照条数生成文件
a4.sinks.s1.hdfs.rollCount = 0
#HDFS上的文件达到128M时生成一个文件
a4.sinks.s1.hdfs.rollSize = 134217728
#HDFS上的文件达到60秒生成一个文件
a4.sinks.s1.hdfs.rollInterval = 60

#组装source、channel、sink
a4.sources.s1.channels = c1
a4.sinks.s1.channel = c1

 

3、

copy hadoop-common-x.x.x.jar、commons-configuration-x.x.jar、hadoop-auth-x.x.x.jar、hadoop-hdfs-x.x.x.jar到flume/lib下,flume把数据写如到hdfs时需要使用hadoop API

copy core-site.xml、hdfs-site.xml到flume/conf,flume需要知道hadoop的具体配置

 

4、启动flume,配置文件名称为a4.conf

bin/flume-ng agent -n a4 -c conf -f conf/a4.conf -Dflume.root.logger=INFO,console

 

 

此时只有文件被放入/root/logs就会被flume收集到,上传到hdfs

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    flume数据采集端过滤工程

    标题中的“flume数据采集端过滤工程”指的是一项利用Apache Flume进行数据采集,并在源头(采集端)实现数据过滤的技术实践。Apache Flume是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。它...

    06模块-协同工作:Hadoop数据导入导出 :Flume收集数据-安装讲课.pdf

    ### Hadoop 数据导入导出与 Flume 数据收集详解 #### 概述 Hadoop作为一款分布式计算框架,广泛应用于大规模数据处理场景。随着大数据技术的发展,数据的收集、传输及处理变得越来越重要。Flume作为一款高效、可靠...

    Flume 数据采集实战

    Flume 是大数据领域中常用的数据采集工具,它能高效地从各种数据源收集数据,然后传输至其他组件,如 Spark 或 Kafka,以便进行进一步的分析处理。在日志分析场景下,Flume 常用于收集服务器日志,以监控服务器运行...

    flume_jars.zip

    总的来说,“flume_jars.zip”压缩包提供了一套完整的Flume开发环境,使得开发者能够在本地环境中快速搭建和测试Flume数据收集解决方案。这些JAR文件是理解和操作Flume不可或缺的部分,对于构建高效、稳定的大数据...

    让你快速认识flume及安装和使用flume1 5传输数据 日志 到hadoop2 2 文档

    让你快速认识flume及安装和使用flume1 5传输数据 日志 到hadoop2 2 中文文档 认识 flume 1 flume 是什么 这里简单介绍一下 它是 Cloudera 的一个产品 2 flume 是干什么的 收集日志的 3 flume 如何搜集日志 我们把...

    利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka

    Flume是Apache的一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。在这个场景中,它被用来从MySQL数据库中抽取数据,并将这些数据流式传输到HDFS、MySQL以及Kafka。 1. **Flume**: Flume的核心...

    Flume日志收集与MapReduce模式.pdf

    Flume是Apache Hadoop项目中的一个数据收集、聚合和传输系统,用于高效、可靠地从各种数据源收集数据,而MapReduce则是Hadoop的核心计算框架,用于处理和生成大规模数据集。 Flume日志收集: Flume作为日志收集工具...

    大数据采集技术-flume数据加工.pdf

    在大数据领域,数据采集是整个数据分析流程的基础,它涉及到从各种源收集大量数据,并将其整理成可供后续处理和分析的格式。Apache Flume 是一种高效、可靠且可扩展的数据采集工具,尤其适合处理和移动大规模的日志...

    基于Flume的分布式日志采集分析系统设计与实现.pdf

    日志采集部分使用Flume来实时采集日志数据,日志处理部分使用Elasticsearch来存储和处理日志数据,日志分析部分使用Kibana来提供可视化的展示结果。 系统实现 该系统的实现主要包括三个步骤:日志采集、日志处理和...

    kafka+flume 实时采集oracle数据到hive中.docx

    Flume是一个分布式、可靠、高吞吐量的日志收集系统,能够实时地从Kafka中提取数据,并将其写入到HDFS中。为了实现这一点,需要先安装Flume,版本号为flume-1.9.0-bin.tar.gz。然后,需要配置Flume的配置文件flume....

    Kafka hdfs flume 数据采集实验

    接下来,Apache Flume 是一个用于高效、可靠和集中收集、聚合和移动大量日志数据的系统。Flume 提供了简单灵活的架构,支持多个数据源(如Web服务器日志、Kafka),通过数据流将数据传输到一个或多个目的地,如HDFS...

    flume+kafka+flink+mysql数据统计

    Flume 提供了灵活的数据源、通道和接收器配置,使得数据收集过程稳定且可扩展。 接着,Kafka 是一个高吞吐量的分布式消息队列系统,它在 Flume 收集到数据后,作为一个中间层存储平台,能够缓存大量数据并确保数据...

    使用Flume收集数据内含源码以及说明书可以自己运行复现.zip

    4. **数据收集流程**:描述一个实际的案例,说明如何配置Flume来收集Web服务器的访问日志。这会包括设置source为taildir类型,监听日志文件的变化,设置channel为内存或文件类型,以及配置sink将数据写入HDFS。 5. ...

    Flume 根据字段进行路由插入 ES

    Flume 是一个高度可靠的数据收集系统,常用于从各种源(如日志、网络流等)收集数据,然后将其传输到存储或处理系统。而 Elasticsearch 是一个分布式、实时的搜索与分析引擎,适合大规模数据的索引和查询。在本场景...

    flume包,用于数据的采集

     Source: 数据收集组件。(source从Client收集数据,传递给Channel)  Channel: 中转Event的一个临时存储,保存由Source组件传递过来的Event。(Channel连接 sources 和 sinks ,这个有点像一个队列。)  Sink...

    flume抽取数据库数据的source

    Flume 是 Apache 开源项目中的一款分布式、可靠且可用于有效收集、聚合和移动大量日志数据的工具。在大数据处理领域,它常被用于实时数据流传输,将数据从源头迁移到目标存储,如 Hadoop HDFS 或 Elasticsearch。在...

    数据采集之Flume.xmind

    Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具 Apache Flume是Apache软件基金会(ASF)的顶级项目 Event是Flume定义的一个数据流传输的最小单元。...

    天气爬虫采集,kafka实时分发,flume 收集数据导入到 Hbase.zip

    总结来说,本资料集提供的"weather-mrs-master"项目涵盖了从数据采集到处理的完整流程,包括爬虫技术、Kafka实时分发、Flume数据导入以及HBase存储。对于希望了解和实践大数据实时处理的开发者,这是一个非常有价值...

    Flume采集MySQL数据所需jar包.zip

    在大数据处理领域,Apache Flume 是一款用于收集、聚合和移动大量日志数据的可靠工具。它被广泛应用于从各种源收集数据并将其传输到集中式存储系统,如Hadoop HDFS。在这个场景中,我们关注的是如何使用 Flume 从 ...

Global site tag (gtag.js) - Google Analytics