一、flume配置
一台机器做负载均衡,二台服务器做存储hdfs
============================================
hadoop01
============================================
#声明Agent
a1.sources = r1
a1.sinks = k1 k2
a1.channels = c1
#声明source
a1.sources.r1.type = spoolDir
a1.sources.r1.spoolDir = /root/work/data/flumeData
a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = timestamp
#声明Sink
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hadoop02
a1.sinks.k1.port = 44444
a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hadoop03
a1.sinks.k2.port = 44444
a1.sinkGroups = g1
a1.sinkGroups.g1.sinks = k1 k2
a1.sinkgroups.g1.processor.type = load_balance
a1.sinkgroups.g1.processor.selector = random
#声明channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.TransactionCapacity = 100
#绑定关系
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
a1.sinks.k2.channel = c1
============================================
hadoop02 hadoop03
============================================
#声明Agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
#声明source
a1.sources.r1.type = avro
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 44444
#声明Sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = /zebra/reportTime=%Y-%m-%d %H-00-00
#避免产生大量的小文件,因是单机操作,则备份设为1
a1.sinks.k1.hdfs.rollInterval = 30
a1.sinks.k1.hdfs.rollSize = 0
a1.sinks.k1.hdfs.rollCount = 0
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.minBlockReplicas = 1
#声明channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.TransactionCapacity = 100
#声明channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
============================================
二、启动过程中存在的问题
1、服务器防火墙没有关闭,无法连接服务器
2、hadoop01读取文件时报错,hadoop01中配置的channel capacity太小,扩大容量
a1.sinks.k2.type=hdfs
a1.sinks.k2.hdfs.path=hdfs://hadoop11:9000/flumedata
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.rollInterval = 30
a1.sinks.k1.hdfs.rollSize = 0
a1.sinks.k1.hdfs.rollCount = 0
a1.sinks.k1.hdfs.minBlockReplicas = 1
相关推荐
Flume 是 Apache Hadoop 生态系统中的一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据...通过分析和理解 "flume配置文件demo",你可以更好地掌握 Flume 的基本用法,并为自己的数据处理项目打下坚实的基础。
配置Flume涉及到编辑Flume配置文件,这是一个基于Java的Properties格式的文本文件。在案例一中,我们看到一个简单的配置示例,用于监听特定端口(如44444)并把接收到的数据打印到控制台。以下是对配置文件中各个...
这里的`agentName`是你自定义的Agent名称,`config/file.conf`是你的Flume配置文件的路径。 4. **配置Flume**: 配置文件是Flume的核心,它定义了数据流的结构。一个基本的配置示例可能如下所示: ``` ...
通过这份23页的Flume教程,你可能会了解到如何创建基本的Flume配置,理解Flume的工作原理,学习如何处理数据流中的错误,以及如何监控和优化Flume的性能。此外,还可能涉及实际案例分析,教你如何根据业务需求设计和...
Flume 是一个由 Cloudera 开发的日志收集系统,专为处理和传输大量日志数据而设计。它具有分布式、可靠性和高可用性,能够有效地从多种数据源收集数据,进行简单的处理,并将数据发送到不同的数据接收方。Flume 的...
7. **部署与启动**: 完成配置后,在Ambari中启动Flume服务,Ambari会自动处理服务部署和依赖关系。 8. **监控与管理**: 在Ambari的仪表板上,你可以实时监控Flume的运行状态,查看数据流情况,以及进行故障排查和...
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,...同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
9. 将Flume与Kafka、Storm与HDFS通过合理的配置连接起来,形成完整的实时数据处理链路。 在这个过程中,文档《Twitter Storm系列》flume-ng+Kafka+Storm+HDFS 实时系统搭建.docx和《安装扎记.pdf》将提供详细的步骤...
**大数据采集技术与Flume配置详解** 在大数据领域,数据采集是整个数据分析流程的第一步,它涉及从各种来源收集大量数据并将其传输到处理或存储系统。Apache Flume是Apache Hadoop项目的一个子项目,专门设计用于...
理解并熟练掌握 Flume 的配置深入是实现高效日志收集和处理的关键。通过灵活地配置 Source、Sink、Channel 和 Interceptor,以及选择合适的部署模型,可以构建适应各种需求的日志管理系统,确保大数据环境中的实时...
这两个案例展示了 Flume 的基本用法,从简单的网络数据接收(netcat)到 Avro 数据格式的处理。Flume 可以扩展到更复杂的配置,包括多个源、接收器和通道,以及支持多种数据源和存储系统,使得日志管理和分析更加...
4. 将flume/conf下的flume-env.sh.template文件修改为flume-env.sh,并配置JAVA_HOME环境变量,指向JDK的安装目录。 入门案例: 1. 创建配置文件:例如使用Flume实时监控整个目录的新文件,自动输出到控制台。 2. ...
在大数据处理领域,Flume、Kafka和Storm是三个至关重要的工具,它们分别在数据采集、数据分发和实时处理方面发挥着核心作用。这里我们将深入探讨这三个组件以及如何搭建它们。 1. Flume:Flume是Apache软件基金会的...
- **池伟的博客:** 池伟先生在CSDN上发表了多篇关于Flume的详细教程和经验分享,如链接所示,这些文章详细讲解了Flume的安装配置、架构设计以及使用中碰到的问题和解决方案。 ### 知识点总结: 1. **Flume发展历史...
### Flume 1.6.0 入门详解:安装、部署及案例分析 #### 一、Flume 概述 Flume 是 Cloudera 开发的一款高效、可靠且易于扩展的日志收集系统,适用于大数据环境下的日志采集任务。Flume 的初始版本被称为 FlumeOG...
Apache Flume 是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。在本实验中,你将学习如何安装、配置并使用 Flume 组件,...同时,熟悉 Flume 的配置和使用也将有助于你在实际工作中解决类似问题。
- Flume的配置不仅包括启动基础服务,还可能涉及使用Web界面或配置文件来调整Agent的具体配置,如源(source)、通道(channel)和接收器(sink)的配置,以及相关的参数设置。 总体来说,安装和配置Flume涉及多个...
5. **Flume配置文件编辑**: 使用`vim`编辑配置文件,如`tail-avro-avro-logger.conf`和`avro-hdfs.conf`,根据实际需求设置Source、Channel和Sink的属性。 6. **开发数据生成脚本**: 在Node02上运行一个Shell...