`
fengy20043
  • 浏览: 4375 次
  • 性别: Icon_minigender_2
社区版块
存档分类
最新评论

flume配置及问题处理

阅读更多

一、flume配置

一台机器做负载均衡,二台服务器做存储hdfs

============================================

hadoop01  

============================================

#声明Agent

a1.sources = r1

a1.sinks = k1 k2

a1.channels = c1

 

#声明source

a1.sources.r1.type = spoolDir

a1.sources.r1.spoolDir = /root/work/data/flumeData

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = timestamp

 

#声明Sink

a1.sinks.k1.type = avro

a1.sinks.k1.hostname = hadoop02

a1.sinks.k1.port = 44444

a1.sinks.k2.type = avro

a1.sinks.k2.hostname = hadoop03

a1.sinks.k2.port = 44444

 

a1.sinkGroups = g1

a1.sinkGroups.g1.sinks = k1 k2

a1.sinkgroups.g1.processor.type = load_balance

a1.sinkgroups.g1.processor.selector = random

 

#声明channel

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.TransactionCapacity = 100

 

#绑定关系

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

a1.sinks.k2.channel = c1

============================================

hadoop02 hadoop03

============================================

#声明Agent

a1.sources = r1

a1.sinks = k1

a1.channels = c1

 

#声明source

a1.sources.r1.type = avro

a1.sources.r1.bind = 0.0.0.0

a1.sources.r1.port = 44444

 

#声明Sink

a1.sinks.k1.type = hdfs

a1.sinks.k1.hdfs.path = /zebra/reportTime=%Y-%m-%d %H-00-00

#避免产生大量的小文件,因是单机操作,则备份设为1

a1.sinks.k1.hdfs.rollInterval = 30

a1.sinks.k1.hdfs.rollSize = 0

a1.sinks.k1.hdfs.rollCount = 0

a1.sinks.k1.hdfs.fileType = DataStream

a1.sinks.k1.hdfs.minBlockReplicas = 1

 

#声明channel

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.TransactionCapacity = 100

 

#声明channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

============================================

 

二、启动过程中存在的问题

1、服务器防火墙没有关闭,无法连接服务器


 2、hadoop01读取文件时报错,hadoop01中配置的channel capacity太小,扩大容量

 
3、产生海量小文件,单机版配置roll时间和备份数


 a1.sinks.k2.type=hdfs

a1.sinks.k2.hdfs.path=hdfs://hadoop11:9000/flumedata

a1.sinks.k1.hdfs.fileType = DataStream

a1.sinks.k1.hdfs.rollInterval = 30

a1.sinks.k1.hdfs.rollSize = 0

a1.sinks.k1.hdfs.rollCount = 0

a1.sinks.k1.hdfs.minBlockReplicas = 1

  • 大小: 59.8 KB
  • 大小: 61.4 KB
  • 大小: 73.2 KB
分享到:
评论

相关推荐

    flume配置文件demo

    Flume 是 Apache Hadoop 生态系统中的一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据...通过分析和理解 "flume配置文件demo",你可以更好地掌握 Flume 的基本用法,并为自己的数据处理项目打下坚实的基础。

    Flume学习文档(2){Flume安装部署、Flume配置文件}.docx

    配置Flume涉及到编辑Flume配置文件,这是一个基于Java的Properties格式的文本文件。在案例一中,我们看到一个简单的配置示例,用于监听特定端口(如44444)并把接收到的数据打印到控制台。以下是对配置文件中各个...

    flume安装程序

    这里的`agentName`是你自定义的Agent名称,`config/file.conf`是你的Flume配置文件的路径。 4. **配置Flume**: 配置文件是Flume的核心,它定义了数据流的结构。一个基本的配置示例可能如下所示: ``` ...

    Flume1.6.0入门:安装、部署、及flume的案例

    ### Flume 1.6.0 入门详解:安装、部署及案例分析 #### 一、Flume 概述 Flume 是 Cloudera 开发的一款高效、可靠且易于扩展的日志收集系统,适用于大数据环境下的日志采集任务。Flume 的初始版本被称为 FlumeOG...

    flume教程及配置讲解共23页.pdf.zip

    通过这份23页的Flume教程,你可能会了解到如何创建基本的Flume配置,理解Flume的工作原理,学习如何处理数据流中的错误,以及如何监控和优化Flume的性能。此外,还可能涉及实际案例分析,教你如何根据业务需求设计和...

    flume介绍及安装配置

    Flume 是一个由 Cloudera 开发的日志收集系统,专为处理和传输大量日志数据而设计。它具有分布式、可靠性和高可用性,能够有效地从多种数据源收集数据,进行简单的处理,并将数据发送到不同的数据接收方。Flume 的...

    大数据Ambari之flume集成编译好的源码包

    7. **部署与启动**: 完成配置后,在Ambari中启动Flume服务,Ambari会自动处理服务部署和依赖关系。 8. **监控与管理**: 在Ambari的仪表板上,你可以实时监控Flume的运行状态,查看数据流情况,以及进行故障排查和...

    Flume的配置与使用

    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,...同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

    lamp安装配置及flume+Kafka+Storm+HDFS实时系统搭分享

    9. 将Flume与Kafka、Storm与HDFS通过合理的配置连接起来,形成完整的实时数据处理链路。 在这个过程中,文档《Twitter Storm系列》flume-ng+Kafka+Storm+HDFS 实时系统搭建.docx和《安装扎记.pdf》将提供详细的步骤...

    大数据采集技术-Flume配置.pptx

    **大数据采集技术与Flume配置详解** 在大数据领域,数据采集是整个数据分析流程的第一步,它涉及从各种来源收集大量数据并将其传输到处理或存储系统。Apache Flume是Apache Hadoop项目的一个子项目,专门设计用于...

    04、日志收集系统Flume-实时计算4-3:flume配置深入.pptx

    理解并熟练掌握 Flume 的配置深入是实现高效日志收集和处理的关键。通过灵活地配置 Source、Sink、Channel 和 Interceptor,以及选择合适的部署模型,可以构建适应各种需求的日志管理系统,确保大数据环境中的实时...

    04、日志收集系统Flume-flume配置案例.docx

    这两个案例展示了 Flume 的基本用法,从简单的网络数据接收(netcat)到 Avro 数据格式的处理。Flume 可以扩展到更复杂的配置,包括多个源、接收器和通道,以及支持多种数据源和存储系统,使得日志管理和分析更加...

    hadoop集群配置之————flume安装配置(详细版)

    4. 将flume/conf下的flume-env.sh.template文件修改为flume-env.sh,并配置JAVA_HOME环境变量,指向JDK的安装目录。 入门案例: 1. 创建配置文件:例如使用Flume实时监控整个目录的新文件,自动输出到控制台。 2. ...

    flume及kafka及storm搭建.rar

    在大数据处理领域,Flume、Kafka和Storm是三个至关重要的工具,它们分别在数据采集、数据分发和实时处理方面发挥着核心作用。这里我们将深入探讨这三个组件以及如何搭建它们。 1. Flume:Flume是Apache软件基金会的...

    Flume集群环境搭建,flume监控

    - **池伟的博客:** 池伟先生在CSDN上发表了多篇关于Flume的详细教程和经验分享,如链接所示,这些文章详细讲解了Flume的安装配置、架构设计以及使用中碰到的问题和解决方案。 ### 知识点总结: 1. **Flume发展历史...

    Apache_Flume安装与配置

    - Flume的配置不仅包括启动基础服务,还可能涉及使用Web界面或配置文件来调整Agent的具体配置,如源(source)、通道(channel)和接收器(sink)的配置,以及相关的参数设置。 总体来说,安装和配置Flume涉及多个...

    大数据采集技术-Flume级联配置.pptx

    5. **Flume配置文件编辑**: 使用`vim`编辑配置文件,如`tail-avro-avro-logger.conf`和`avro-hdfs.conf`,根据实际需求设置Source、Channel和Sink的属性。 6. **开发数据生成脚本**: 在Node02上运行一个Shell...

Global site tag (gtag.js) - Google Analytics