`
侯上校
  • 浏览: 225678 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Flume写数据换行

 
阅读更多
在Flume写入HDFS的时候会自动换行问题, 项目要求写入HDFS中数据不需要换行, 查看源码及配置如下:
BodyTextEventSerializer.java
  @Override
  public void write(Event e) throws IOException {
    out.write(e.getBody());
    if (appendNewline) {
      out.write('\n');
    }
  }
  // for legacy reasons, by default, append a newline to each event written out
  private final String APPEND_NEWLINE = "appendNewline";
  private final boolean APPEND_NEWLINE_DFLT = false;

  private final OutputStream out;
  private final boolean appendNewline;

  private BodyTextEventSerializer(OutputStream out, Context ctx) {
    this.appendNewline = ctx.getBoolean(APPEND_NEWLINE, APPEND_NEWLINE_DFLT);
    this.out = out;
  }

http://flume.apache.org/FlumeUserGuide.html中查看此配置项为:
Body Text Serializer

Alias: text. This interceptor writes the body of the event to an output stream without any transformation or modification. The event headers are ignored. Configuration options are as follows:

Property Name	Default	Description
appendNewline	true	Whether a newline will be appended to each event at write time. The default of true assumes that events do not contain newlines, for legacy reasons.
Example for agent named a1:

a1.sinks = k1
a1.sinks.k1.type = file_roll
a1.sinks.k1.channel = c1
a1.sinks.k1.sink.directory = /var/log/flume
a1.sinks.k1.sink.serializer = text
a1.sinks.k1.sink.serializer.appendNewline = false

 

分享到:
评论

相关推荐

    Flume采集数据到Kafka,然后从kafka取数据存储到HDFS的方法思路和完整步骤

    ### Flume采集数据到Kafka,然后从Kafka取数据存储到HDFS的方法思路和完整步骤 #### 一、概述 随着大数据技术的发展,高效的数据采集、处理与存储变得尤为重要。本文将详细介绍如何利用Flume采集日志数据,并将其...

    利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka

    标题中的“利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka”是一项数据集成任务,涉及Apache Flume、MySQL数据库、Hadoop Distributed File System (HDFS) 和Apache Kafka这四个关键技术。Flume是Apache的一...

    flume数据采集端过滤工程

    标题中的“flume数据采集端过滤工程”指的是一项利用Apache Flume进行数据采集,并在源头(采集端)实现数据过滤的技术实践。Apache Flume是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。它...

    Flume 抽取MYSQL Oracle数据 JSON格式 推送Kafka

    Flume二次开发,支持抽取MYSQL Oracle数据库数据 以JSON格式推送至Kafka。 demo: sql_json.sources.sql_source.type = com.hbn.rdb.source.SQLSource sql_json.sources.sql_source.connectionurl = jdbc:oracle:...

    kafka+flume 实时采集oracle数据到hive中.docx

    基于Kafka+Flume实时采集Oracle数据到Hive中 一、Kafka获取Oracle日志实时数据 Kafka是一种分布式流媒体平台,能够实时地从Oracle数据库中提取日志信息。为了实现这一点,需要先安装ZooKeeper和Kafka,然后配置...

    天气爬虫采集,kafka实时分发,flume 收集数据导入到 Hbase.zip

    《天气爬虫采集,Kafka实时分发,Flume收集数据导入到HBase:构建大数据实时处理系统》 在当今大数据时代,实时数据处理成为关键的一环,本资料集围绕"天气爬虫采集,Kafka实时分发,Flume收集数据导入到HBase"的...

    《数据采集与预处理》教学教案—07Flume采集数据上传到集群.pdf

    《数据采集与预处理》教学教案—07Flume采集数据上传到集群.pdf 本文档提供了关于Flume采集数据上传到集群的教学教案,旨在帮助学生熟悉Flume的相关基础知识,学会将采集的日志数据转存到HDFS和HBase中的方法。 一...

    flume hbanse2.0 lib

    Flume 是 Apache 开源项目提供的一款分布式、可靠且可用于有效收集、聚合和移动大量日志数据的工具。它设计用于高可用性和高可靠性,使得在大数据环境中处理流式数据变得简单。在描述中提到的问题是关于 Flume 不...

    Flume 数据采集实战

    《Flume 数据采集实战》 Flume 是大数据领域中常用的数据采集工具,它能高效地从各种数据源收集数据,然后传输至其他组件,如 Spark 或 Kafka,以便进行进一步的分析处理。在日志分析场景下,Flume 常用于收集...

    Flume push数据到SparkStreaming

    标题中的“Flume push数据到SparkStreaming”是指在大数据处理领域中,使用Apache Flume将实时数据流推送到Apache Spark Streaming进行进一步的实时分析和处理的过程。这两个组件都是Apache Hadoop生态系统的重要...

    flume抽取数据库数据的source

    Flume 是 Apache 开源项目中的一款分布式、可靠且可用于有效收集、聚合和移动大量日志数据的工具。在大数据处理领域,它常被用于实时数据流传输,将数据从源头迁移到目标存储,如 Hadoop HDFS 或 Elasticsearch。在...

    实时大数据采集框架Flume详解(视频+课件+代码+工具)

    01_Flume的介绍及其架构组成 02_Flume的安装部署 03_Flume的测试运行 04_Flume中配置使用file channel及HDFS sink 05_Flume中配置HDFS文件生成大小及时间分区 06_Flume中配置Spooling Dir的使用 07_Flume中...

    flume+kafka+flink+mysql数据统计

    在大数据处理领域,Flume、Kafka、Flink 和 MySQL 是四个非常重要的组件,它们各自承担着不同的职责,共同构建了一套高效的数据流处理系统。本文将深入探讨这些技术及其在"flume+kafka+flink+mysql数据统计"中的应用...

    Flume 根据字段进行路由插入 ES

    在大数据处理领域,Flume 和 Elasticsearch (ES) 是两个常用工具。Flume 是一个高度可靠的数据收集系统,常用于从各种源(如日志、网络流等)收集数据,然后将其传输到存储或处理系统。而 Elasticsearch 是一个...

    flume包,用于数据的采集

    同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。Client:Client生产数据,运行在一个独立的线程。  Event: 一个数据单元,消息头和消息体组成。(Events可以是日志...

    使用Flume收集数据内含源码以及说明书可以自己运行复现.zip

    在IT行业中,数据采集是大数据处理的关键步骤,而Apache Flume正是一个专为此设计的分布式、可靠且可用的服务。这份资料“使用Flume收集数据内含源码以及说明书可以自己运行复现.zip”包含了实现Flume数据采集的源码...

    06模块-协同工作:Hadoop数据导入导出 :Flume收集数据-安装讲课.pdf

    ### Hadoop 数据导入导出与 Flume 数据收集详解 #### 概述 Hadoop作为一款分布式计算框架,广泛应用于大规模数据处理场景。随着大数据技术的发展,数据的收集、传输及处理变得越来越重要。Flume作为一款高效、可靠...

    大数据采集技术-flume数据加工.pdf

    Apache Flume 是一种高效、可靠且可扩展的数据采集工具,尤其适合处理和移动大规模的日志数据。本文将深入探讨 Flume 在大数据采集中的作用,以及如何使用 Flume 进行数据加工。 Flume 是 Apache Hadoop 生态系统的...

    flume所需要的hdfs包.zip

    Flume 是 Apache Hadoop 生态系统中的一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的工具。在大数据处理中,日志数据的管理和分析是非常关键的一环,而 Flume 提供了一个高效、灵活和可扩展的解决方案...

    Flume采集MySQL数据所需jar包.zip

    在大数据处理领域,Apache Flume 是一款用于收集、聚合和移动大量日志数据的可靠工具。它被广泛应用于从各种源收集数据并将其传输到集中式存储系统,如Hadoop HDFS。在这个场景中,我们关注的是如何使用 Flume 从 ...

Global site tag (gtag.js) - Google Analytics