采集层 主要可以使用Flume, Kafka两种技术。
Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API.
Kafka:Kafka是一个可持久化的分布式的消息队列。
- Kafka 是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics。相比之下,Flume是一个专用工具被设计为旨在往HDFS,HBase发送数据。它对HDFS有特殊的优化,并且集成了Hadoop的安全特性。所以,Cloudera 建议如果数据被多个系统消费的话,使用kafka;如果数据被设计给Hadoop使用,使用Flume。
- 正如你们所知Flume内置很多的source和sink组件。然而,Kafka明显有一个更小的生产消费者生态系统,并且Kafka的社区支持不好。希望将来这种情况会得到改善,但是目前:使用Kafka意味着你准备好了编写你自己的生产者和消费者代码。如果已经存在的Flume Sources和Sinks满足你的需求,并且你更喜欢不需要任何开发的系统,请使用Flume。
- Flume可以使用拦截器实时处理数据。这些对数据屏蔽或者过量是很有用的。Kafka需要外部的流处理系统才能做到。
- Kafka和Flume都是可靠的系统,通过适当的配置能保证零数据丢失。然而,Flume不支持副本事件。于是,如果Flume代理的一个节点奔溃了,即使使用了可靠的文件管道方式,你也将丢失这些事件直到你恢复这些磁盘。如果你需要一个高可靠行的管道,那么使用Kafka是个更好的选择。
- Flume和Kafka可以很好地结合起来使用。如果你的设计需要从Kafka到Hadoop的流数据,使用Flume代理并配置Kafka的Source读取数据也是可行的:你没有必要实现自己的消费者。你可以直接利用Flume与HDFS及HBase的结合的所有好处。你可以使用Cloudera Manager对消费者的监控,并且你甚至可以添加拦截器进行一些流处理。
Flume和Kafka可以结合起来使用。通常会使用Flume + Kafka的方式。其实如果为了利用Flume已有的写HDFS功能,也可以使用Kafka + Flume的方式。
转载自:https://my.oschina.net/frankwu/blog/355298
相关推荐
大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK...... 大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK...... 大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK.......
#### 一、Flume、Kafka与Storm概述 在大数据领域,数据采集、传输与实时处理是至关重要的环节。本篇内容重点介绍了如何利用Flume、Kafka与Storm这三个开源工具实现一套完整的实时数据流处理系统。 **Flume** 是一...
- `flume-kafka-plugin.jar`:包含Flume-ng与Kafka交互所需的插件。 - `kafka_2.8.0-0.8.0.jar`:Kafka的核心库。 - `sbt-launch.jar`:Scala构建工具SBT的启动脚本。 - `scala*.jar`:Scala语言相关的库。 - `...
基于Kafka+Flume实时采集Oracle数据到Hive中 一、Kafka获取Oracle日志实时数据 Kafka是一种分布式流媒体平台,能够实时地从Oracle数据库中提取日志信息。为了实现这一点,需要先安装ZooKeeper和Kafka,然后配置...
在大数据领域,构建一个完整的生态系统是至关重要的,其中包括多个组件,如Hadoop、Spark、Hive、HBase、Oozie、Kafka、Flume、Flink、Elasticsearch和Redash。这些组件协同工作,提供了数据存储、处理、调度、流...
Kafka接收Flume数据并存储至HDFS Kafka是Apache软件基金会下的一个开源流处理平台,由LinkedIn开发,现已捐赠给Apache软件基金会。Kafka提供高吞吐量、持久性、可扩展性和容错性等特点,使其成为大数据处理的首选...
### 全国首份接地气流处理文档:Kafka与Flume整合详解 ...通过上述步骤,我们完成了Flume与Kafka的安装、配置及测试过程,实现了一个简单的日志数据采集与传输流程。这对于构建高效的数据管道具有重要的意义。
Flume二次开发,支持抽取MYSQL Oracle数据库数据 以JSON格式推送至Kafka。 demo: sql_json.sources.sql_source.type = com.hbn.rdb.source.SQLSource sql_json.sources.sql_source.connectionurl = jdbc:oracle:...
### Flume采集数据到Kafka,然后从Kafka取数据存储到HDFS的方法思路和完整步骤 #### 一、概述 随着大数据技术的发展,高效的数据采集、处理与存储变得尤为重要。本文将详细介绍如何利用Flume采集日志数据,并将其...
Kafka+FlumeNG+Storm+HBase实时处理系统介绍
本实验的主题是“Kafka hdfs flume 数据采集实验”,涉及的关键技术包括Apache Kafka、Hadoop Distributed File System (HDFS) 和 Apache Flume,这些工具都是大数据生态中的重要组件。下面将详细阐述它们的功能、...
flume skin 直连kafka,kafka安装过程和flume配置样例,下载下来即可安装一个生产可用的日志采集系统
flume从kafka读取数据,然后再sink到kafka中, 这种场景下会出现问题。 (1)现象表示为: flume从kafka读取数据,sink的sinkTopic中没有数据,也无法从sinkTopic中读取数据; (2)原因分析: 如果在一个Flume Agent中...
《Spark Streaming + Kafka + Flume 日志收集处理系统的构建与应用》 在大数据处理领域,实时数据流处理已经成为不可或缺的一部分。Spark Streaming、Kafka和Flume作为三个关键组件,共同构建了一个高效、可靠且可...
标题中的“kafka+flume”指的是在大数据处理领域中,使用Apache Kafka与Apache Flume进行日志数据的采集和传输的集成方案。这两个组件都是Apache软件基金会的重要项目,广泛应用于大数据实时处理和流计算场景。 ...
《基于Spark+Kafka+Flume实现的电影推荐系统》 该项目的核心是构建一个实时的电影推荐系统,它结合了Apache Spark、Kafka和Flume等大数据处理工具,旨在高效地处理海量用户行为数据,为用户提供个性化的电影推荐。...
本科毕业设计项目,基于spark streaming+flume+kafka+hbase的实时日志处理分析系统 基于spark streaming+flume+kafka+hbase的实时日志处理分析系统 本科毕业设计项目,基于spark streaming+flume+kafka+hbase的...
### storm、kafka、flume性能测试分析 #### 一、背景介绍 随着大数据时代的到来,数据处理系统的重要性日益凸显。Apache Storm、Apache Kafka 和 Apache Flume 是三种广泛应用于实时数据处理领域的开源工具。其中,...