`
indinna
  • 浏览: 4819 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

解决flume向kafka发送 均分到各个partition中

阅读更多

官网中虽然说没有key 会随机分配到partition,但是不知道为什么在我这没有出现这种效果,所以我加了一个key,需要加个source拦截器

运行flume-ng agent --conf conf --conf-file test.sh --name a1 -Dflume.root.logger=INFO,console

 

# example.conf: A single-node Flume configuration

 

# Name the components on this agent

a1.sources = r1

a1.sinks = k1

a1.channels = c1

 

# Describe/configure the source

a1.sources.r1.type =exec

a1.sources.r1.command =tail -F /opt/access.log

 

# Describe the sink

a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink

a1.sinks.k1.topic = test

a1.sinks.k1.brokerList = node1:9092,node2:9092,node3:9092

a1.sinks.k1.metadata.broker.list = node1:9092,node2:9092,node3:9092

a1.sinks.k1.requiredAcks = 1

a1.sinks.k1.batchSize = 20

a1.sinks.k1.channel = c1

 

#source 拦截器

a1.sources.r1.interceptors = i2

a1.sources.r1.interceptors.i2.type = org.apache.flume.sink.solr.morphline.UUIDInterceptor$Builder

a1.sources.r1.interceptors.i2.headerName = key

a1.sources.r1.interceptors.i2.preserveExisting = false

 

# Use a channel which buffers events in memory

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.transactionCapacity = 100

 

# Bind the source and sink to the channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

分享到:
评论

相关推荐

    Flume+kafka+Storm整合

    - 编写一个KafkaSink类,用于将Flume收集的数据发送到Kafka中。 - 引入必要的pom.xml依赖,并使用 `mvn package` 命令打包JAR文件,放入Flume的lib目录下。 3. **编写Storm代码:** - 开发一个Storm拓扑,该拓扑...

    flume与kafka整合需要的jar包

    首先,Flume配置向Kafka发送数据时,需要在`flume.conf`配置文件中定义一个Kafka sink。例如: ```properties agent.sources = source1 agent.sinks = kafkaSink agent.channels = channel1 agent.sources.source1...

    flume+kafka+flink+mysql数据统计

    接着,Kafka 是一个高吞吐量的分布式消息队列系统,它在 Flume 收集到数据后,作为一个中间层存储平台,能够缓存大量数据并确保数据的可靠传输。Kafka 的主题和分区机制保证了数据的有序性和容错性,使得即使在高...

    flume-kafka流程

    - **Kafka Sink配置**:在Flume的配置文件(ProducerSink.properties)中,需要指定Kafka的Broker地址、主题名称等参数,以便Flume能够将收集到的数据正确地发送到Kafka中。 - 例如,可以通过以下配置项来设置Kafka ...

    Flume采集数据到Kafka,然后从kafka取数据存储到HDFS的方法思路和完整步骤

    本文将详细介绍如何利用Flume采集日志数据,并将其发送到Kafka中,最后将这些数据从Kafka取出并存储到HDFS上。这一流程不仅适用于大规模的日志数据采集场景,还能帮助读者快速熟悉Flume、Kafka和HDFS等大数据组件的...

    本科毕业设计项目,基于spark streaming+flume+kafka+hbase的实时日志处理分析系统,大数据处理技术

    本科毕业设计项目,基于spark streaming+flume+kafka+hbase的实时日志处理分析系统 基于spark streaming+flume+kafka+hbase的实时日志处理分析系统 本科毕业设计项目,基于spark streaming+flume+kafka+hbase的...

    flume,kafka,storm整合

    Flume从源收集数据,将其发送到Kafka的`topic1`,Storm消费者从`topic1`读取数据进行实时处理,然后将处理结果写入`topic2`。这个系统适用于大规模日志收集、实时分析等场景,为大数据处理提供了灵活高效的解决方案...

    flume+kafka+storm最完整讲解

    sink 则配置为 `org.apache.flume.sink.kafka.KafkaSink`,将数据发送到 Kafka 的特定 topic。 【Kafka】 Kafka 是一个高吞吐量的分布式消息系统,它允许应用程序实时地发布和订阅数据流。在实验中,你需要配置 `...

    lamp安装配置及flume+Kafka+Storm+HDFS实时系统搭分享

    在这个过程中,文档《Twitter Storm系列》flume-ng+Kafka+Storm+HDFS 实时系统搭建.docx和《安装扎记.pdf》将提供详细的步骤指导和常见问题解决方案,帮助你顺利完成整个系统的搭建和优化。 总的来说,LNMP与实时大...

    企业大数据处理:Spark、Druid、Flume与Kafka应用实践(超清完整版).pdf

    ### 企业大数据处理:Spark、Druid、Flume与Kafka应用实践 ...通过这些实战案例的学习,读者不仅可以掌握核心技术,还能了解到如何解决实际工作中遇到的各种问题,从而提高工作效率和解决问题的能力。

    kafka+flume+kafka中问题.pdf

    flume从kafka读取数据,然后再sink到kafka中, 这种场景下会出现问题。 (1)现象表示为: flume从kafka读取数据,sink的sinkTopic中没有数据,也无法从sinkTopic中读取数据; (2)原因分析: 如果在一个Flume Agent中...

    基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例.txt

    基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例.txt基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例.txt基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例.txt基于Flume+Kafka+Hbase+Flink+FineBI的实时综合...

    flume整合kafka的jar包

    flume整合kafka的jar包,将其放入到flume的lib目录下即可。

    基于Flume+kafka+spark大型电商网站日志分析系统(离线+实时).zip

    这里提到的"基于Flume+kafka+spark大型电商网站日志分析系统(离线+实时)"就是一个这样的解决方案,结合了三个关键组件:Apache Flume、Apache Kafka和Apache Spark。下面将详细介绍这三个技术及其在系统中的作用。...

    log4j+flume+kafka+storm

    此时,日志数据将通过Flume发送到Kafka,并可以在Kafka Consumer中查看到。 ### 总结 本文详细介绍了如何将Log4j、Flume与Kafka进行整合,使得日志数据能够从Log4j经由Flume传输至Kafka。这一过程不仅涉及具体的...

    Flume+Kafka+Storm+Hbase实现日志抓取和实施网站流量统计

    搭建Hadoop集群,并使用flume+kafka+storm+hbase实现日志抓取分析,使用一个主节点master、两个slave节点

    flume+kafka+sparkstreaming

    通过flume监控文件,让kafka消费flume数据,再将sparkstreaming连接kafka作为消费者进行数据处理,文档整理实现

    Flume+Kafka+HBase实例

    4. 数据流转:Flume从源收集数据,将其发送到Kafka;Kafka作为中间层,接收并暂存数据,然后由HBase消费者读取并写入HBase。整个过程形成了一个完整的数据处理流水线。 在这个项目中,通过这样的组合,我们可以实现...

    flume及kafka及storm搭建.rar

    Sources负责从各种数据源如Web服务器日志、syslog等获取数据,Channels作为临时存储,确保数据在处理过程中的可靠性,而Sinks则负责将数据发送到目标位置,如HDFS、HBase或Kafka。 2. Kafka:Kafka是由LinkedIn开发...

Global site tag (gtag.js) - Google Analytics