最近接触了flume,这个日志收集器在扩展性方面确实很便捷,相信这与其架构的设计有密切的关系。书归正传,这次用到了hdfs sink在使用时还是有几点需要注意的,在此和大家分享一下。
第一部分windows下搭建单机的hdfs
如果你和我一样没有linux的测试环境,想在windows搭建hdfs,可以参考下面的链接,笔者就是参照这篇文章进行部署的
http://blog.csdn.net/jiutianhe/article/details/17709717
需要注意的是windows下使用hdfs需要依赖hadoop.dll winutils.exe等,此处有两点需要注意
1. hadoop.dll winutils.exe在官方的bin包中没有,可以通过源码编译或者在网上下载已经编译好的
2. 在2.2版本后这些依赖包,均发生了改变,也就是说低版本的这些依赖,在高版本上使用会报错
第二部分hdfs sink
1.需要把hadoop的包引入到%flume_home%/lib中
1.1 hadoop-common 不引入会报错 classNotFound SequenceFile
1.2 hadoop-hdfs 不引入会报错 no filesystem for scheme hdfs
1.3 flume-ng启动时的classpath需要加入%hadoop_home%/share/hadoop/common/lib ,这主要是hadoop-common依赖的jar在那个目录
1.4hdfs需要event的header里要带时间戳,如果没有可以通过设置hdfs.useLocalTimeStamp=true来使用本地时间戳
以上就是在使用时,需要注意的地方,如果感兴趣就行动起来吧,想的再多,也不如动手试试。
最近一直在接触flume,后期可能会写一些flume的源码及架构解读。
相关推荐
在默认情况下,Flume 的 HDFSSink 只能连接到一个Hadoop集群,并且能够通过配置支持HA模式。这意味着它可以根据`hdfs-site.xml`和`core-site.xml`中的设置自动选择活动的NameNode进行通信。但是,当需要同时将数据...
使用 Flume 与 HDFS 集成时,需要注意以下几点: - **配置安全设置**:如果 HDFS 集群启用了安全性(如 Kerberos),那么 Flume 需要相应的安全配置才能正确地认证并访问 HDFS。 - **容错和高可用**:Flume 支持...
然而,需要注意的是,根据实际环境和需求,可能还需要配置其他参数,例如HDFS的安全认证(如果启用了Kerberos),或者设置Flume的缓冲区大小以优化性能。 总之,Flume-HDFS驱动JAR包是确保Flume能成功与HDFS集成的...
在配置 Flume 以将数据写入 HDFS 时,我们需要在 Flume 的配置文件(通常是 `flume.conf`)中指定 HDFS Sink。例如: ```properties a.sources = r1 a.sinks = k1 a.channels = c1 a.sources.r1.type = exec a....
flume-ng-hdfs-sink-1.7.0.jar,这个包里包含了flume和HDFS集成的所有类
agent.sinks.hdfsSink.hdfs.filePrefix = flume_ agent.sinks.hdfsSink.hdfs.fileSuffix = .txt ``` 在这个配置中,`rabbitSource`是Source,它连接到RabbitMQ服务器的`myQueue`队列;`memoryChannel`是内存Channel...
### Flume采集数据到Kafka,然后从Kafka取数据存储到HDFS的方法思路和完整步骤 #### 一、概述 随着大数据技术的发展,高效的数据采集、处理与存储变得尤为重要。本文将详细介绍如何利用Flume采集日志数据,并将其...
标题中的“利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka”是一项数据集成任务,涉及Apache Flume、MySQL数据库、Hadoop Distributed File System (HDFS) 和Apache Kafka这四个关键技术。Flume是Apache的一...
配置Flume的HDFS Sink时,我们需要在Flume配置文件(通常是conf/flume.conf)中定义一个Sink。例如: ``` agent_name.sink.type = hdfs agent_name.sink.hdfs.path = hdfs://namenode:port/path/to/store/logs ...
在本文中,我们将介绍如何在 Windows 环境下搭建 Flume-ng,并使用 Log4j 将日志输出到 HDFS。 一、Flume-ng 安装与配置 首先,需要下载 Flume-ng 并解压到指定目录。然后,需要设置环境变量,新建 FLUME_HOME ...
在 Flume 中使用 Avro,可以通过设置 `agent_name.sinks.hdfsSink.serializer.class` 为 `org.apache.flume.sink.hdfs.HDFSEventSink$AvroEventSerializer` 来启用。 综上所述,Flume 是一个强大的日志收集工具,...
具体是flume使用hdfs sink时所用的,当你的主机没有hadoop环境的时候,添加这些jar包就能使用,前提是主机能通hdfs服务器的9000端口。 【flume版本1.7.0 hadoop版本2.7.4】 这些jar包是楼主一个个试出来的,大佬们给...
Flume 消费 Kafka 数据上传 HDFS ...Flume 消费 Kafka 数据上传 HDFS 需要考虑 Channel 的选择、FileChannel 优化、HDFS Sink 的小文件问题、Flume 拦截器的使用等问题,以确保数据传输的可靠性和高效性。
本文为读者提供了一个完整的大数据处理方案,从Flume数据采集到Kafka队列存储再到HDFS文件系统存储,帮助读者快速熟悉Flume、Kafka和HDFS的操作使用,以及相互的操作接口。 知识点: 1、Kafka的安装和配置,包括...
agent.sinks.hdfsSink.hdfs.path = hdfs://namenode:port/path/to/save/data agent.sinks.hdfsSink.hdfs.fileType = DataStream agent.sinks.hdfsSink.hdfs.writeFormat = Text agent.sinks.hdfsSink.channel = ...
04_Flume中配置使用file channel及HDFS sink 05_Flume中配置HDFS文件生成大小及时间分区 06_Flume中配置Spooling Dir的使用 07_Flume中配置Spooling Dir的文件过滤 08_Flume中配置扇入架构的介绍 09_Flume中...
以下是关于"Flume监控日志到HDFS"的详细知识点: 1. **Flume简介**:Flume是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。它具有高可用性、可扩展性和容错性,能够处理各种来源的数据,并将其...
对于 HDFS sink,Flume 将使用这些库来将数据流式传输到 HDFS 上的指定位置。 总的来说,这个压缩包为使用 Flume 在 Hadoop 环境中构建高效的数据采集和分发流程提供了必要的支持。正确地配置和使用这些库能够确保 ...
下面是Flume集群搭建与使用文档的知识点总结: Flume集群搭建 1. 硬件环境:三台物理服务器,,每个服务器拥有2个物理CPU、8个核心和32G内存。 2. 软件环境:64位CentOS release 6.5,JDK版本为1.7.0_60。 3. ...