`
sunbin
  • 浏览: 353107 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

flume实时监控日志文件到hdfs

 
阅读更多

1、复制jar包到flume/lib下

 

commons-configuration-1.6.jar  
commons-io-2.4.jar  
hadoop-annotations-2.7.6.jar  
hadoop-auth-2.7.6.jar  
hadoop-common-2.7.6.jar  
hadoop-hdfs-2.7.6.jar 
htrace-core-3.1.0-incubation.jar 

 2、创建flume-hdfs.conf文件     vim    flume-hdfs.conf

#name the components on this agent
a2.sources = r2
a2.sinks = k2
a2.channels = c2
 
# Describe/configure the source
a2.sources.r2.type = exec
a2.sources.r2.command = tail -F /tmp/haitao/hive.log
a2.sources.r2.bind = hadoop002
a2.sources.r2.shell = /bin/bash -c
 
# Describe the sink
a2.sinks.k2.type = hdfs
a2.sinks.k2.hdfs.path = hdfs://hadoop002:9000/flume/%Y%m%d/%H
#上传文件的前缀
a2.sinks.k2.hdfs.filePrefix = logs-haitao-
#是否按照时间滚动文件夹
a2.sinks.k2.hdfs.round = true
#多少时间单位创建一个新的文件夹
a2.sinks.k2.hdfs.roundValue = 1
#重新定义时间单位
a2.sinks.k2.hdfs.roundUnit = hour
#是否使用本地时间戳
a2.sinks.k2.hdfs.useLocalTimeStamp = true
#积攒多少个Event才flush到HDFS一次
#a2.sinks.k2.hdfs.batchSize = 1000
#设置文件类型,可支持压缩
a2.sinks.k2.hdfs.fileType = DataStream
#多久生成一个新的文件
a2.sinks.k2.hdfs.rollInterval = 60
#设置每个文件的滚动大小
a2.sinks.k2.hdfs.rollSize = 134217700
#文件的滚动与Event数量无关
a2.sinks.k2.hdfs.rollCount = 0
#最小冗余数
a2.sinks.k2.hdfs.minBlockReplicas = 1
 
# Use a channel which buffers events in memory
a2.channels.c2.type = memory
a2.channels.c2.capacity = 1000
a2.channels.c2.transactionCapacity = 100
 
# Bind the source and sink to the channel
a2.sources.r2.channels = c2
a2.sinks.k2.channel = c2
————————————————

 3、执行监控配置  

首先进入flume安装目录  cd /usr/local/flume

bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-hdfs.conf

 

分享到:
评论

相关推荐

    大数据采集技术-Flume监控日志到HDFS.pptx

    以下是关于"Flume监控日志到HDFS"的详细知识点: 1. **Flume简介**:Flume是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。它具有高可用性、可扩展性和容错性,能够处理各种来源的数据,并将其...

    利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka

    标题中的“利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka”是一项数据集成任务,涉及Apache Flume、MySQL数据库、Hadoop Distributed File System (HDFS) 和Apache Kafka这四个关键技术。Flume是Apache的一...

    Flume采集Rabbitmq数据同步到HDFS

    在这个场景中,我们将探讨如何使用Flume从RabbitMQ消息队列中采集数据,并同步到HDFS。 RabbitMQ是一个开源的消息代理和队列服务器,广泛应用于各种分布式系统中,提供可靠的数据交换机制。它允许生产者发送消息,...

    大数据采集技术-flume监控文件内容至hdfs.pdf

    首先,我们要理解实训目标——掌握Flume监控文件内容的功能。Flume的核心在于其数据流模型,由源(Source)、通道(Channel)和 Sink 组成。Source 是数据的生产者,负责从不同的数据源获取数据;Channel 暂存这些数据,...

    flume所需要的hdfs包.zip

    - **监控和日志**:确保开启 Flume 的监控和日志记录,以便在出现问题时能够快速定位和解决。 总的来说,"flume所需要的hdfs包.zip" 提供了将 Flume 与 HDFS 集成所需的关键组件,使得用户能够高效地将实时数据流...

    Flume采集数据到Kafka,然后从kafka取数据存储到HDFS的方法思路和完整步骤

    本文将详细介绍如何利用Flume采集日志数据,并将其发送到Kafka中,最后将这些数据从Kafka取出并存储到HDFS上。这一流程不仅适用于大规模的日志数据采集场景,还能帮助读者快速熟悉Flume、Kafka和HDFS等大数据组件的...

    flime安装+配置+测试+案例(采集日志至HDFS)

    在本文中,我们将深入探讨 Flume 的安装、配置、测试以及如何将其应用于实际案例,即从不同节点采集日志并存储到 HDFS。 首先,我们从安装 Flume 开始。Flume 的安装包括解压安装包,重命名 Flume 目录,配置 `...

    大数据采集技术-Flume读取本地文件到HDFS.pptx

    在数据采集过程中,我们可能需要向本地文件写入内容,或者在文件写入后立即移动到Flume监控的目录。例如,可以使用`hdfs dfs`命令将文件移动到HDFS: ```bash hdfs dfs -mv /path/to/local/file /flume/test1 ``` ...

    大数据采集技术-Flume监控日志至Kafka.pptx

    本篇将详细介绍如何利用Flume监控日志并将其传输到Kafka。 首先,Flume是Apache Hadoop的一个子项目,专门设计用于高效、可靠地收集、聚合和移动大量日志数据。它的核心特性包括容错性、可扩展性和灵活性,使其成为...

    Flume集群环境搭建,flume监控

    ### Flume监控: - **监控配置:** 要开启Flume的监控服务,需要在配置文件中设置监控的类型(type)和端口(port),例如设置`-Dflume.monitoring.type=http`以及`-Dflume.monitoring.port=34545`。 - **监控数据...

    flume 简介安装使用案例(将log4j数据写到hdfs中)

    Flume 是 Apache Hadoop 生态系统中的一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的工具。...对于 log4j 数据,Flume 可以实时监控日志文件并将其无缝地导入 HDFS,为后续的大数据分析提供基础。

    flume日志采集

    下面是一个简单的Flume配置示例,展示了如何配置一个agent来收集日志数据并写入HDFS: ```properties # 定义agent的名字 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 配置source a1.sources.r1.type = ...

    log4j输出日志到flume

    总的来说,通过Log4j和Flume的集成,我们可以实现日志的实时收集和传输,这对于大型分布式系统的监控和日志分析具有重要意义。这个过程涉及到日志框架的配置、自定义Appender的开发以及Flume Agent的配置,每个环节...

    基于Flume的美团日志收集系统方案.doc

    Collector层有三种目标Sink,即SinkHdfs(离线数据存储到HDFS)、SinkKafka(实时日志流到Kafka)和SinkBypass(实时日志流到其他服务器)。 在Store层,HDFS用于长期存储所有日志,Kafka存储最近7天的日志,以供...

    Flume 安装搭建使用.

    使用 Flume 将本地文件实时读取到 HDFS 中。 步骤: 1. 创建 flume-hdfs.conf 文件。 2. 配置 Source、Channel 和 Sink。 3. 启动 Flume 配置文件。 4. 使用 telnet 工具向本机的 44444 端口发送内容。 五、...

    基于Spark Streaming + Kafka + Flume 实现的日志收集处理系统.zip

    它可以轻松地从多种数据源(如Web服务器、应用服务器)收集日志,并将这些数据传输到集中存储系统(如HDFS或Kafka)。Flume的灵活性和可配置性使其在日志收集处理系统中扮演重要角色,能够灵活应对不同来源和格式的...

    大数据采集技术-flume监控httpsources.pdf

    总结,Flume监控HTTP源是大数据采集的一个重要应用场景。通过合理的配置和使用,Flume可以帮助我们从各种HTTP服务中高效、稳定地收集数据,为后续的大数据分析提供源源不断的输入。了解并掌握Flume的这一功能,将有...

    Flume 构建高可用、可扩展的海量日志采集系统

    4. **监控与报警**:通过集成监控工具(如Zabbix、Nagios等),实时监控Flume Agent的状态和性能指标,一旦检测到异常情况立即触发报警通知,及时进行干预处理。 #### 五、案例分析 假设一家大型电商平台需要实时...

    6大数据之Flume 概述和企业开发案例.docx

    Flume 最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到 HDFS。 Flume 的优点 Flume 可以和任意存储进程集成,输入的数据速率大于写入目的存储的速率,Flume 会进行缓冲,减小 HDFS 的压力。Flume ...

    大数据采集技术-Flume监控端口实验手册.pdf

    Flume 支持多种数据源,如网络套接字、文件系统、应用程序接口等,能够灵活地将数据传输到各种存储系统,如 HDFS、HBase 或其他日志管理系统。通过构建可配置的、容错的、高可用的数据管道,Flume 提供了一种有效...

Global site tag (gtag.js) - Google Analytics