`
fenglei0213
  • 浏览: 3652 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

flume-plugin 采集增量日志,断点续传

阅读更多
flume 官方插件,常用两种方式采集增量日志
1 exec 插件可以执行 Shell tail -f 文件 命令。优点,实时采集,缺点。如果flume进程重启。将无法找到当时的checkpoint。特别是主文件已经被log4j切走,或者被Shell脚本切走

2 spool 插件可以检测目录下新增的文件,处理过的文件用.COMPLETE文件名称结束。优点,Flume内部实现了checkpoint断点续传。(如何实现的?)缺点是不够实时。除非日志不按小时或者天级别切分,按分钟级别切分。这样产生的临时文件很多。不容易实现秒级别的采集

3 每隔几秒钟读一下文件。甚至可以while true不休息。这种方式可以记录文件的总体字节偏移的checkpoint。百度内部的rtlc也是这么实现的。这种方式目前来看比较好

4 tail -n +1 从第一行开始读文件,读出所有的增量。优点是即保证了tail-f。又保证了获取了最后一行的行号。如果文件内容过大,flume内存会OOM。当然可以通过程序控制,丢弃无用的数据

其他方法
网上还流传了一种做法,定时任务修改flume配置文件。然后重启flume。这种方式我很不建议使用。太挫了
http://blog.csdn.net/weijonathan/article/details/41749151?utm_source=tuicool&utm_medium=referral
分享到:
评论

相关推荐

    flume-ng安装

    Flume-NG 是一个分布式日志收集系统,能够从各种数据源中实时采集数据,并将其传输到集中式存储系统中。本文将指导您完成 Flume-NG 的安装和基本配置。 安装 Flume-NG 1. 先决条件:Java JDK 安装 在安装 Flume-...

    flume-plugin-maven-plugin-1.0.zip

    当这两者结合时,Flume-Plugin-Maven-Plugin便应运而生,它是一个用于构建Flume插件的强大工具,方便开发者快速构建和管理Flume自定义组件。标题中提到的"flume-plugin-maven-plugin-1.0.zip"便是这样一个插件的...

    apache-flume-1.5.0-cdh5.3.6-bin.zip

    大数据日志收集工具 flume-1.5.0-cdh5.3.6。 大数据日志收集工具flume-1.5.0-cdh5.3.6。 大数据日志收集工具flume-1.5.0-cdh5.3.6。 大数据日志收集工具flume-1.5.0-cdh5.3.6。 大数据日志收集工具flume-1.5.0-cdh...

    flume-ng-sql-source-1.5.2

    总之,Flume-ng-sql-source-1.5.2为Flume增加了强大的SQL数据源能力,使得数据采集范围扩大到了结构化数据领域,这对于构建实时数据处理和分析系统至关重要。通过对源码的深入理解和使用,可以更高效地利用这一工具...

    Flume-ng-1.6.0-cdh.zip

    Flume-ng-1.6.0-cdh.zip 内压缩了 3 个项目,分别为:flume-ng-1.6.0-cdh5.5.0.tar.gz、flume-ng-1.6.0-cdh5.7.0.tar.gz 和 flume-ng-1.6.0-cdh5.10.1.tar.gz,选择你需要的版本。

    flume-ng-sql-source-release-1.5.2.zip

    Flume-ng-sql-source是Apache Flume的一个扩展插件,主要功能是允许用户从各种数据库中抽取数据并将其传输到其他目的地,如Apache Kafka。在本案例中,我们讨论的是版本1.5.2的发布包,即"flume-ng-sql-source-...

    flume-interceptor-1.0-SNAPSHOT.jar

    注意:flume-interceptor-1.0-SNAPSHOT.jar flume-interceptor-1.0-SNAPSHOT.jar flume-interceptor-1.0-SNAPSHOT.jar flume-interceptor-1.0-SNAPSHOT.jar flume-interceptor-1.0-SNAPSHOT.jar flume-interceptor-...

    Flume-ng在windows环境搭建并测试+log4j日志通过Flume输出到HDFS.docx

    Flume-ng 在 Windows 环境搭建并测试 + Log4j 日志通过 Flume 输出到 HDFS Flume-ng 是一个高可用、可靠、分布式的日志聚合系统,可以实时地从各种数据源(如日志文件、网络 socket、数据库等)中收集数据,并将其...

    flume-ng-sql-source-1.5.2.jar

    flume-ng-sql-source-1.5.2.jar从数据库中增量读取数据到hdfs中的jar包

    apache-flume-1.9.0-bin.tar.gz

    1. **bin** 目录:包含可执行脚本,如 `flume-ng` 和 `flume-agent`,用于启动、停止和管理 Flume 代理。 2. **conf** 目录:存放配置文件,例如 `flume.conf`,这是默认的配置文件,用户可以在这里定义数据流的结构...

    flume-taildir-source-1.9.0.jar

    flume断点续传覆盖jar,使用组件flume-taildir-source-1.9.0覆盖flume/bin目录下的jar即可

    flume-ng-sql-source-1.5.3.jar

    flume-ng-sql-source-1.5.3.jar,flume采集mysql数据jar包,将此文件拖入FLUME_HOME/lib目录下,如果是CM下CDH版本的flume,则放到/opt/cloudera/parcels/CDH-xxxx/lib/flume-ng/lib下,同样需要的包还有mysql-...

    flume-ng-1.6.0-cdh5.5.0.tar.gz

    Apache Flume 是一个分布式...总的来说,Apache Flume-ng-1.6.0-cdh5.5.0 是一个强大且灵活的数据收集工具,特别适合在 CDH 环境中处理大规模的日志数据,它的易用性和可扩展性使其成为大数据基础设施的重要组成部分。

    odps-flume-plugin-2.0.4.jar

    odps-flume-plugin-2.0.4.jar

    flume-ng-sql-source-1.5.1

    flume-ng-sql-source-1.5.1 flume连接数据库 很好用的工具

    flume-ng-1.6.0 cdh5.7.0安装包

    总结来说,Flume-ng-1.6.0-cdh5.7.0是专为CDH 5.7.0设计的数据流管理工具,具备强大的数据采集、传输和处理能力,是构建高效大数据管道的重要组成部分。对于需要管理和分析大量日志或其他类型数据的企业,部署和熟练...

Global site tag (gtag.js) - Google Analytics