Flume数据收集 - 嬡仩岼疧嚡囡陔 - ITeye博客

`

mvplee

浏览: 73475 次

最近访客更多访客>>

simon1991

liangliang01

loren_mt

pistolove

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Flume数据收集

博客分类：

Hadoop

阅读更多

1、创建flume监听的目录，如果不嫌创建，启动flume时会报错

2、配置flume

sources：目录

channels：内存

skin：hdfs

#定义agent名， source、channel、sink的名称
a4.sources = s1
a4.channels = c1
a4.sinks = s1

#具体定义source
a4.sources.s1.type = spooldir
a4.sources.s1.spoolDir = /root/logs

#具体定义channel
a4.channels.c1.type = memory
a4.channels.c1.capacity = 10000
a4.channels.c1.transactionCapacity = 100

#定义拦截器，为消息添加时间戳
a4.sources.s1.interceptors = i1
a4.sources.s1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

#具体定义sink
a4.sinks.s1.type = hdfs
a4.sinks.s1.hdfs.path = hdfs://ns1/flume/%Y%m%d
a4.sinks.s1.hdfs.filePrefix = events-
a4.sinks.s1.hdfs.fileType = DataStream
#不按照条数生成文件
a4.sinks.s1.hdfs.rollCount = 0
#HDFS上的文件达到128M时生成一个文件
a4.sinks.s1.hdfs.rollSize = 134217728
#HDFS上的文件达到60秒生成一个文件
a4.sinks.s1.hdfs.rollInterval = 60

#组装source、channel、sink
a4.sources.s1.channels = c1
a4.sinks.s1.channel = c1

3、

copy hadoop-common-x.x.x.jar、commons-configuration-x.x.jar、hadoop-auth-x.x.x.jar、hadoop-hdfs-x.x.x.jar到flume/lib下，flume把数据写如到hdfs时需要使用hadoop API

copy core-site.xml、hdfs-site.xml到flume/conf，flume需要知道hadoop的具体配置

4、启动flume，配置文件名称为a4.conf

bin/flume-ng agent -n a4 -c conf -f conf/a4.conf -Dflume.root.logger=INFO,console

此时只有文件被放入/root/logs就会被flume收集到，上传到hdfs

分享到：

sqoop数据的导入和导出 | Hive CLI

2015-10-11 17:00
浏览 580
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

flume数据采集端过滤工程: 标题中的“flume数据采集端过滤工程”指的是一项利用Apache Flume进行数据采集，并在源头（采集端）实现数据过滤的技术实践。Apache Flume是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。它...

06模块-协同工作：Hadoop数据导入导出：Flume收集数据-安装讲课.pdf: ### Hadoop 数据导入导出与 Flume 数据收集详解 #### 概述 Hadoop作为一款分布式计算框架，广泛应用于大规模数据处理场景。随着大数据技术的发展，数据的收集、传输及处理变得越来越重要。Flume作为一款高效、可靠...

Flume 数据采集实战: Flume 是大数据领域中常用的数据采集工具，它能高效地从各种数据源收集数据，然后传输至其他组件，如 Spark 或 Kafka，以便进行进一步的分析处理。在日志分析场景下，Flume 常用于收集服务器日志，以监控服务器运行...

flume_jars.zip: 总的来说，“flume_jars.zip”压缩包提供了一套完整的Flume开发环境，使得开发者能够在本地环境中快速搭建和测试Flume数据收集解决方案。这些JAR文件是理解和操作Flume不可或缺的部分，对于构建高效、稳定的大数据...

让你快速认识flume及安装和使用flume1 5传输数据日志到hadoop2 2 文档: 让你快速认识flume及安装和使用flume1 5传输数据日志到hadoop2 2 中文文档认识 flume 1 flume 是什么这里简单介绍一下它是 Cloudera 的一个产品 2 flume 是干什么的收集日志的 3 flume 如何搜集日志我们把...

利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka: Flume是Apache的一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。在这个场景中，它被用来从MySQL数据库中抽取数据，并将这些数据流式传输到HDFS、MySQL以及Kafka。 1. **Flume**: Flume的核心...

Flume日志收集与MapReduce模式.pdf: Flume是Apache Hadoop项目中的一个数据收集、聚合和传输系统，用于高效、可靠地从各种数据源收集数据，而MapReduce则是Hadoop的核心计算框架，用于处理和生成大规模数据集。 Flume日志收集： Flume作为日志收集工具...

大数据采集技术-flume数据加工.pdf: 在大数据领域，数据采集是整个数据分析流程的基础，它涉及到从各种源收集大量数据，并将其整理成可供后续处理和分析的格式。Apache Flume 是一种高效、可靠且可扩展的数据采集工具，尤其适合处理和移动大规模的日志...

基于Flume的分布式日志采集分析系统设计与实现.pdf: 日志采集部分使用Flume来实时采集日志数据，日志处理部分使用Elasticsearch来存储和处理日志数据，日志分析部分使用Kibana来提供可视化的展示结果。系统实现该系统的实现主要包括三个步骤：日志采集、日志处理和...

kafka+flume 实时采集oracle数据到hive中.docx: Flume是一个分布式、可靠、高吞吐量的日志收集系统，能够实时地从Kafka中提取数据，并将其写入到HDFS中。为了实现这一点，需要先安装Flume，版本号为flume-1.9.0-bin.tar.gz。然后，需要配置Flume的配置文件flume....

Kafka hdfs flume 数据采集实验: 接下来，Apache Flume 是一个用于高效、可靠和集中收集、聚合和移动大量日志数据的系统。Flume 提供了简单灵活的架构，支持多个数据源（如Web服务器日志、Kafka），通过数据流将数据传输到一个或多个目的地，如HDFS...

flume+kafka+flink+mysql数据统计: Flume 提供了灵活的数据源、通道和接收器配置，使得数据收集过程稳定且可扩展。接着，Kafka 是一个高吞吐量的分布式消息队列系统，它在 Flume 收集到数据后，作为一个中间层存储平台，能够缓存大量数据并确保数据...

使用Flume收集数据内含源码以及说明书可以自己运行复现.zip: 4. **数据收集流程**：描述一个实际的案例，说明如何配置Flume来收集Web服务器的访问日志。这会包括设置source为taildir类型，监听日志文件的变化，设置channel为内存或文件类型，以及配置sink将数据写入HDFS。 5. ...

Flume 根据字段进行路由插入 ES: Flume 是一个高度可靠的数据收集系统，常用于从各种源（如日志、网络流等）收集数据，然后将其传输到存储或处理系统。而 Elasticsearch 是一个分布式、实时的搜索与分析引擎，适合大规模数据的索引和查询。在本场景...

flume包，用于数据的采集: 　Source：数据收集组件。（source从Client收集数据，传递给Channel）　Channel：中转Event的一个临时存储，保存由Source组件传递过来的Event。（Channel连接 sources 和 sinks ，这个有点像一个队列。）　Sink...

flume抽取数据库数据的source: Flume 是 Apache 开源项目中的一款分布式、可靠且可用于有效收集、聚合和移动大量日志数据的工具。在大数据处理领域，它常被用于实时数据流传输，将数据从源头迁移到目标存储，如 Hadoop HDFS 或 Elasticsearch。在...

数据采集之Flume.xmind: Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具 Apache Flume是Apache软件基金会（ASF）的顶级项目 Event是Flume定义的一个数据流传输的最小单元。...

天气爬虫采集，kafka实时分发，flume 收集数据导入到 Hbase.zip: 总结来说，本资料集提供的"weather-mrs-master"项目涵盖了从数据采集到处理的完整流程，包括爬虫技术、Kafka实时分发、Flume数据导入以及HBase存储。对于希望了解和实践大数据实时处理的开发者，这是一个非常有价值...

Flume采集MySQL数据所需jar包.zip: 在大数据处理领域，Apache Flume 是一款用于收集、聚合和移动大量日志数据的可靠工具。它被广泛应用于从各种源收集数据并将其传输到集中式存储系统，如Hadoop HDFS。在这个场景中，我们关注的是如何使用 Flume 从 ...

Global site tag (gtag.js) - Google Analytics