flume使用hdfs sink时需要注意的几点 - 探索中前进的Rock - ITeye博客

`

zhao_rock

浏览: 192985 次
性别:
来自: 大连

最近访客更多访客>>

hejianhua66

qq113220715

qryt520

lzyboy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

kingding：我编译之后吧jar包拷贝到lib后按照你的配置修改后运行报错： ...
基于flume-ng抓取mysql数据到kafka
somefuture：集成spring？spring现在没有xml了，怎么改呢
CXF集成Spring
zhao_rock： string2020 写道<mirrorOf>ce ...
使用Maven为代码构建依赖包
string2020： <mirrorOf>central</mir ...
使用Maven为代码构建依赖包
aiien007：同上
工作的感受

flume使用hdfs sink时需要注意的几点

博客分类：

flume

flume hdfs sink

阅读更多

最近接触了flume，这个日志收集器在扩展性方面确实很便捷，相信这与其架构的设计有密切的关系。书归正传，这次用到了hdfs sink在使用时还是有几点需要注意的，在此和大家分享一下。

第一部分windows下搭建单机的hdfs

如果你和我一样没有linux的测试环境，想在windows搭建hdfs，可以参考下面的链接，笔者就是参照这篇文章进行部署的

http://blog.csdn.net/jiutianhe/article/details/17709717

需要注意的是windows下使用hdfs需要依赖hadoop.dll winutils.exe等，此处有两点需要注意

1. hadoop.dll winutils.exe在官方的bin包中没有，可以通过源码编译或者在网上下载已经编译好的

2. 在2.2版本后这些依赖包，均发生了改变，也就是说低版本的这些依赖，在高版本上使用会报错

第二部分hdfs sink

1.需要把hadoop的包引入到%flume_home%/lib中

1.1 hadoop-common 不引入会报错 classNotFound SequenceFile

1.2 hadoop-hdfs 不引入会报错 no filesystem for scheme hdfs

1.3 flume-ng启动时的classpath需要加入%hadoop_home%/share/hadoop/common/lib ，这主要是hadoop-common依赖的jar在那个目录

1.4hdfs需要event的header里要带时间戳，如果没有可以通过设置hdfs.useLocalTimeStamp=true来使用本地时间戳

以上就是在使用时，需要注意的地方，如果感兴趣就行动起来吧，想的再多，也不如动手试试。

最近一直在接触flume，后期可能会写一些flume的源码及架构解读。

0
顶

0
踩

分享到：

Flume-ng 1.6启动过程源码分析(一) | 基于flume-ng抓取mysql数据到kafka

2016-08-20 21:14
浏览 3380
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Flume配置双HA hdfsSink.docx: 在默认情况下，Flume 的 HDFSSink 只能连接到一个Hadoop集群，并且能够通过配置支持HA模式。这意味着它可以根据`hdfs-site.xml`和`core-site.xml`中的设置自动选择活动的NameNode进行通信。但是，当需要同时将数据...

flume所需要的hdfs包.zip: 使用 Flume 与 HDFS 集成时，需要注意以下几点： - **配置安全设置**：如果 HDFS 集群启用了安全性（如 Kerberos），那么 Flume 需要相应的安全配置才能正确地认证并访问 HDFS。 - **容错和高可用**：Flume 支持...

Flume-HDFS-驱动-jar包: 然而，需要注意的是，根据实际环境和需求，可能还需要配置其他参数，例如HDFS的安全认证（如果启用了Kerberos），或者设置Flume的缓冲区大小以优化性能。总之，Flume-HDFS驱动JAR包是确保Flume能成功与HDFS集成的...

flume+hdfs所需jar.rar: 在配置 Flume 以将数据写入 HDFS 时，我们需要在 Flume 的配置文件（通常是 `flume.conf`）中指定 HDFS Sink。例如： ```properties a.sources = r1 a.sinks = k1 a.channels = c1 a.sources.r1.type = exec a....

flume-ng-hdfs-sink-1.7.0.jar: flume-ng-hdfs-sink-1.7.0.jar，这个包里包含了flume和HDFS集成的所有类

Flume采集Rabbitmq数据同步到HDFS: agent.sinks.hdfsSink.hdfs.filePrefix = flume_ agent.sinks.hdfsSink.hdfs.fileSuffix = .txt ``` 在这个配置中，`rabbitSource`是Source，它连接到RabbitMQ服务器的`myQueue`队列；`memoryChannel`是内存Channel...

Flume采集数据到Kafka,然后从kafka取数据存储到HDFS的方法思路和完整步骤: ### Flume采集数据到Kafka,然后从Kafka取数据存储到HDFS的方法思路和完整步骤 #### 一、概述随着大数据技术的发展，高效的数据采集、处理与存储变得尤为重要。本文将详细介绍如何利用Flume采集日志数据，并将其...

利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka: 标题中的“利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka”是一项数据集成任务，涉及Apache Flume、MySQL数据库、Hadoop Distributed File System (HDFS) 和Apache Kafka这四个关键技术。Flume是Apache的一...

flume-hadoop-fonxian1024.zip: 配置Flume的HDFS Sink时，我们需要在Flume配置文件（通常是conf/flume.conf）中定义一个Sink。例如： ``` agent_name.sink.type = hdfs agent_name.sink.hdfs.path = hdfs://namenode:port/path/to/store/logs ...

Flume-ng在windows环境搭建并测试+log4j日志通过Flume输出到HDFS.docx: 在本文中，我们将介绍如何在 Windows 环境下搭建 Flume-ng，并使用 Log4j 将日志输出到 HDFS。一、Flume-ng 安装与配置首先，需要下载 Flume-ng 并解压到指定目录。然后，需要设置环境变量，新建 FLUME_HOME ...

flume 简介安装使用案例(将log4j数据写到hdfs中): 在 Flume 中使用 Avro，可以通过设置 `agent_name.sinks.hdfsSink.serializer.class` 为 `org.apache.flume.sink.hdfs.HDFSEventSink$AvroEventSerializer` 来启用。综上所述，Flume 是一个强大的日志收集工具，...

flume客户端整合hadoop所用的jar包: 具体是flume使用hdfs sink时所用的，当你的主机没有hadoop环境的时候，添加这些jar包就能使用，前提是主机能通hdfs服务器的9000端口。【flume版本1.7.0 hadoop版本2.7.4】这些jar包是楼主一个个试出来的，大佬们给...

flume消费kafka数据上传hdfs.doc: Flume 消费 Kafka 数据上传 HDFS ...Flume 消费 Kafka 数据上传 HDFS 需要考虑 Channel 的选择、FileChannel 优化、HDFS Sink 的小文件问题、Flume 拦截器的使用等问题，以确保数据传输的可靠性和高效性。

Kafka接收Flume数据并存储至HDFS.docx: 本文为读者提供了一个完整的大数据处理方案，从Flume数据采集到Kafka队列存储再到HDFS文件系统存储，帮助读者快速熟悉Flume、Kafka和HDFS的操作使用，以及相互的操作接口。知识点： 1、Kafka的安装和配置，包括...

大数据采集技术-flume监控文件内容至hdfs.pdf: agent.sinks.hdfsSink.hdfs.path = hdfs://namenode:port/path/to/save/data agent.sinks.hdfsSink.hdfs.fileType = DataStream agent.sinks.hdfsSink.hdfs.writeFormat = Text agent.sinks.hdfsSink.channel = ...

实时大数据采集框架Flume详解（视频+课件+代码+工具）: 04_Flume中配置使用file channel及HDFS sink 05_Flume中配置HDFS文件生成大小及时间分区 06_Flume中配置Spooling Dir的使用 07_Flume中配置Spooling Dir的文件过滤 08_Flume中配置扇入架构的介绍 09_Flume中...

大数据采集技术-Flume监控日志到HDFS.pptx: 以下是关于"Flume监控日志到HDFS"的详细知识点： 1. **Flume简介**：Flume是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。它具有高可用性、可扩展性和容错性，能够处理各种来源的数据，并将其...

flume-to-hdfs-jar1.rar: 对于 HDFS sink，Flume 将使用这些库来将数据流式传输到 HDFS 上的指定位置。总的来说，这个压缩包为使用 Flume 在 Hadoop 环境中构建高效的数据采集和分发流程提供了必要的支持。正确地配置和使用这些库能够确保 ...

flume集群搭建与使用文档: 下面是Flume集群搭建与使用文档的知识点总结： Flume集群搭建 1. 硬件环境：三台物理服务器，，每个服务器拥有2个物理CPU、8个核心和32G内存。 2. 软件环境：64位CentOS release 6.5，JDK版本为1.7.0_60。 3. ...

Global site tag (gtag.js) - Google Analytics