`

Flume-ng+Kafka+storm

阅读更多

出处:http://blog.csdn.net/zxcvg/article/details/18600335/  谢谢

 

吐个槽 :在word文档中写好的 包括图片 在csdn粘贴过来后 图片必须重新上传 不爽啊!!

Flume-ng+Kafka+storm的学习笔记

 

Flume-ng

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

 

     Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html 官方的英文文档 介绍的比较全面。

       不过这里写写自己的见解

 

这个是flume的架构图

 从上图可以看到几个名词:

Agent: 一个Agent包含SourceChannelSink和其他的组件。Flume就是一个或多个Agent构成的。

      Source:数据源。简单的说就是agent获取数据的入口 。

       Channel:管道。数据流通和存储的通道。一个source必须至少和一个channel关联。

       Sink:用来接收channel传输的数据并将之传送到指定的地方。传送成功后数据从channel中删除。

 

Flume具有高可扩展性 可随意组合:

 

 

注意 source是接收源 sink是发送源

 

 

上图是一个source将数据发给3个channel 其中的sink2将数据发给JMS ,sink3将数据发给另一个source。

总的来说flume的扩展性非常高 根据需要可随意组合。

现在在说说一个概念叫Event:

       Event是flume的数据传输的基本单元。Flume本质上是将数据作为一个event从源头传到结尾。是由可选的Headers和载有数据的一个byte array构成。

  代码结构:

 

 

  1. /** 
  2.  * Basic representation of a data object inFlume. 
  3.  * Provides access to data as it flows throughthe system. 
  4.  */  
  5. public interface Event{  
  6.   /** 
  7.    * Returns a map of name-valuepairs describing the data stored in the body. 
  8.    */  
  9.   public Map<String, String> getHeaders();  
  10.   /** 
  11.    * Set the event headers 
  12.    * @param headersMap of headers to replace the current headers. 
  13.    */  
  14.   public void setHeaders(Map<String, String> headers);  
  15.   /** 
  16.    * Returns the raw byte array of the datacontained in this event. 
  17.    */  
  18.   public byte[] getBody();  
  19.   /** 
  20.    * Sets the raw byte array of the datacontained in this event. 
  21.    * @param body Thedata. 
  22.    */  
  23.   public void setBody(byte[] body);  
  24. }  



 

这个是网上找的flume channel ,source,sink的汇总

链接是http://abloz.com/2013/02/26/flume-channel-source-sink-summary.html

Component

Type

Description

Implementation Class

Channel

memory

In-memory, fast, non-durable event transport

MemoryChannel

Channel

file

A channel for reading, writing, mapping, and manipulating a file

FileChannel

Channel

jdbc

JDBC-based, durable event transport (Derby-based)

JDBCChannel

Channel

recoverablememory

A durable channel implementation that uses the local file system for its storage

RecoverableMemoryChannel

Channel

org.apache.flume.channel.PseudoTxnMemoryChannel

Mainly for testing purposes. Not meant for production use.

PseudoTxnMemoryChannel

Channel

(custom type as FQCN)

Your own Channel impl.

(custom FQCN)

Source

avro

Avro Netty RPC event source

AvroSource

Source

exec

Execute a long-lived Unix process and read from stdout

ExecSource

Source

netcat

Netcat style TCP event source

NetcatSource

Source

seq

Monotonically incrementing sequence generator event source

SequenceGeneratorSource

Source

org.apache.flume.source.StressSource

Mainly for testing purposes. Not meant for production use. Serves as a continuous source of events where each event has the same payload. The payload consists of some number of bytes (specified bysize property, defaults to 500) where each byte has the signed value Byte.MAX_VALUE (0x7F, or 127).

org.apache.flume.source.StressSource

Source

syslogtcp

SyslogTcpSource

Source

syslogudp

SyslogUDPSource

Source

org.apache.flume.source.avroLegacy.AvroLegacySource

AvroLegacySource

Source

org.apache.flume.source.thriftLegacy.ThriftLegacySource

ThriftLegacySource

Source

org.apache.flume.source.scribe.ScribeSource

ScribeSource

Source

(custom type as FQCN)

Your own Source impl.

(custom FQCN)

Sink

hdfs

Writes all events received to HDFS (with support for rolling, bucketing, HDFS-200 append, and more)

HDFSEventSink

Sink

org.apache.flume.sink.hbase.HBaseSink

A simple sink that reads events from a channel and writes them to HBase.

org.apache.flume.sink.hbase.HBaseSink

Sink

org.apache.flume.sink.hbase.AsyncHBaseSink

org.apache.flume.sink.hbase.AsyncHBaseSink

Sink

logger

Log events at INFO level via configured logging subsystem (log4j by default)

LoggerSink

Sink

avro

Sink that invokes a pre-defined Avro protocol method for all events it receives (when paired with an avro source, forms tiered collection)

AvroSink

Sink

file_roll

RollingFileSink

Sink

irc

IRCSink

Sink

null

/dev/null for Flume – blackhole all events received

NullSink

Sink

(custom type as FQCN)

Your own Sink impl.

(custom FQCN)

ChannelSelector

replicating

ReplicatingChannelSelector

ChannelSelector

multiplexing

MultiplexingChannelSelector

ChannelSelector

(custom type)

Your own ChannelSelector impl.

(custom FQCN)

SinkProcessor

default

DefaultSinkProcessor

SinkProcessor

failover

FailoverSinkProcessor

SinkProcessor

load_balance

Provides the ability to load-balance flow over multiple sinks.

LoadBalancingSinkProcessor

SinkProcessor

(custom type as FQCN)

Your own SinkProcessor impl.

(custom FQCN)

Interceptor$Builder

host

HostInterceptor$Builder

Interceptor$Builder

timestamp

TimestampInterceptor

TimestampInterceptor$Builder

Interceptor$Builder

static

StaticInterceptor$Builder

Interceptor$Builder

regex_filter

RegexFilteringInterceptor$Builder

Interceptor$Builder

(custom type as FQCN)

Your own Interceptor$Builder impl.

(custom FQCN)

EventSerializer$Builder

text

BodyTextEventSerializer$Builder

EventSerializer$Builder

avro_event

FlumeEventAvroEventSerializer$Builder

EventSerializer

org.apache.flume.sink.hbase.SimpleHbaseEventSerializer

SimpleHbaseEventSerializer

EventSerializer

org.apache.flume.sink.hbase.SimpleAsyncHbaseEventSerializer

SimpleAsyncHbaseEventSerializer

EventSerializer

org.apache.flume.sink.hbase.RegexHbaseEventSerializer

RegexHbaseEventSerializer

HbaseEventSerializer

Custom implementation of serializer for HBaseSink.
(custom type as FQCN)

Your own HbaseEventSerializer impl.

(custom FQCN)

AsyncHbaseEventSerializer

Custom implementation of serializer for AsyncHbase sink.
(custom type as FQCN)

Your own AsyncHbaseEventSerializer impl.

(custom FQCN)

EventSerializer$Builder

Custom implementation of serializer for all sinks except for HBaseSink and AsyncHBaseSink.
(custom type as FQCN)

Your own EventSerializer$Builder impl.

 

下面介绍下kafka以及kafka和flume的整合

Kafka:

       从这个链接抄了些内容下来http://dongxicheng.org/search-engine/kafka/

  Kafka是Linkedin于2010年12月份开源的消息系统,它主要用于处理活跃的流式数据。活跃的流式数据在web网站应用中非常常见,这些数据包括网站的pv、用户访问了什么内容,搜索了什么内容等。 这些数据通常以日志的形式记录下来,然后每隔一段时间进行一次统计处理。

传统的日志分析系统提供了一种离线处理日志信息的可扩展方案,但若要进行实时处理,通常会有较大延迟。而现有的消(队列)系统能够很好的处理实时或者近似实时的应用,但未处理的数据通常不会写到磁盘上,这对于Hadoop之类(一小时或者一天只处理一部分数据)的离线应用而言,可能存在问题。Kafka正是为了解决以上问题而设计的,它能够很好地离线和在线应用。

2、  设计目标

(1)数据在磁盘上存取代价为O(1)。一般数据在磁盘上是使用BTree存储的,存取代价为O(lgn)。

(2)高吞吐率。即使在普通的节点上每秒钟也能处理成百上千的message。

(3)显式分布式,即所有的producer、broker和consumer都会有多个,均为分布式的。

(4)支持数据并行加载到Hadoop中。

3、  KafKa部署结构


 

kafka是显式分布式架构,producer、broker(Kafka)和consumer都可以有多个。Kafka的作用类似于缓存,即活跃的数据和离线处理系统之间的缓存。几个基本概念:

(1)message(消息)是通信的基本单位,每个producer可以向一个topic(主题)发布一些消息。如果consumer订阅了这个主题,那么新发布的消息就会广播给这些consumer。

(2)Kafka是显式分布式的,多个producer、consumer和broker可以运行在一个大的集群上,作为一个逻辑整体对外提供服务。对于consumer,多个consumer可以组成一个group,这个message只能传输给某个group中的某一个consumer.

 

  数据从producer推送到broker,接着consumer在从broker上拉取数据。Zookeeper是一个分布式服务框架 用来解决分布式应用中的数据管理问题等。

 在kafka中 有几个重要概念producer生产者 consumer 消费者 topic 主题。

我们来实际开发一个简单的生产者消费者的例子。

生产者:

   

  1. public classProducerTest {  
  2.        
  3.       public static void main(String[] args) {  
  4.             Properties props = newProperties();  
  5.                 props.setProperty("metadata.broker.list","xx.xx.xx.xx:9092");  
  6.              props.setProperty("serializer.class","kafka.serializer.StringEncoder");  
  7.               props.put("request.required.acks","1");  
  8.               ProducerConfigconfig = new ProducerConfig(props);  
  9.              Producer<String, String> producer = newProducer<String, String>(config);  
  10.              KeyedMessage<String, String> data = newKeyedMessage<String, String>("kafka","test-kafka");  
  11.               try {  
  12.                 producer.send(data);  
  13.                  } catch (Exception e) {  
  14.                   e.printStackTrace();  
  15.                  }  
  16.              producer.close();   
  17.       }  
  18.     }  

 

 

上面的代码中的xx.xx.xx.xx是kafka server的地址.

上面代码的意思就是向主题 kafka中同步(不配置的话 默认是同步发射)发送了一个信息 是test-kafka.

下面来看看消费者:

      

  1.  public classConsumerTest extends Thread {   
  2.     private finalConsumerConnector consumer;   
  3.     private final String topic;   
  4.    
  5.     public static voidmain(String[] args) {   
  6.         ConsumerTest consumerThread = newConsumerTest("kafka");   
  7.         consumerThread.start();   
  8.     }   
  9.     publicConsumerTest(String topic) {   
  10.         consumer =kafka.consumer.Consumer   
  11.                 .createJavaConsumerConnector(createConsumerConfig());   
  12.         this.topic =topic;   
  13.     }   
  14.    
  15.     private staticConsumerConfig createConsumerConfig() {   
  16.         Properties props = newProperties();   
  17.         props.put("zookeeper.connect","xx.xx.xx.xx:2181");   
  18.         props.put("group.id""0");   
  19.         props.put("zookeeper.session.timeout.ms","10000");   
  20. //       props.put("zookeeper.sync.time.ms", "200");   
  21. //       props.put("auto.commit.interval.ms", "1000");   
  22.    
  23.         return newConsumerConfig(props);   
  24.    
  25.     }   
  26.    
  27.     public void run(){   
  28.          
  29.         Map<String,Integer> topickMap = new HashMap<String, Integer>();  
  30.         topickMap.put(topic, 1);  
  31.          Map<String, List<KafkaStream<byte[],byte[]>>>  streamMap =consumer.createMessageStreams(topickMap);  
  32.          KafkaStream<byte[],byte[]>stream = streamMap.get(topic).get(0);  
  33.          ConsumerIterator<byte[],byte[]> it =stream.iterator();  
  34.          System.out.println("--------------------------");  
  35.          while(it.hasNext()){  
  36.             //  
  37.              System.out.println("(consumer)--> " +new String(it.next().message()));  
  38.          }  
  39.          
  40.     }   
  41. }  

 

 

上面的代码就是负责接收生产者发送过来的消息 测试的时候先开启消费者 然后再运行生产者即可看到效果。

接下来 我们将flume 和kafka进行整合:

 在flume的source数据源接收到数据后 通过管道 到达sink,我们需要写一个kafkaSink 来将sink从channel接收的数据作为kafka的生产者 将数据 发送给消费者。

 具体代码:

     

  1.  public class KafkaSink extends AbstractSinkimplementsConfigurable {  
  2.        
  3.       private static final Log logger = LogFactory.getLog(KafkaSink.class);  
  4.        
  5.       private Stringtopic;  
  6.       private Producer<String, String>producer;  
  7.        
  8.    
  9.       @Override  
  10.       public Status process()throwsEventDeliveryException {  
  11.             
  12.             Channel channel =getChannel();  
  13.          Transaction tx =channel.getTransaction();  
  14.          try {  
  15.                  tx.begin();  
  16.                  Event e = channel.take();  
  17.                  if(e ==null) {  
  18.                          tx.rollback();  
  19.                          return Status.BACKOFF;  
  20.                  }  
  21.                  KeyedMessage<String,String> data = new KeyedMessage<String, String>(topic,newString(e.getBody()));  
  22.                  producer.send(data);  
  23.                  logger.info("Message: {}"+new String( e.getBody()));  
  24.                  tx.commit();  
  25.                  return Status.READY;  
  26.          } catch(Exceptione) {  
  27.            logger.error("KafkaSinkException:{}",e);  
  28.                  tx.rollback();  
  29.                  return Status.BACKOFF;  
  30.          } finally {  
  31.                  tx.close();  
  32.          }  
  33.       }  
  34.    
  35.       @Override  
  36.       public void configure(Context context) {  
  37.            topic = "kafka";  
  38.             Properties props = newProperties();  
  39.                 props.setProperty("metadata.broker.list","xx.xx.xx.xx:9092");  
  40.              props.setProperty("serializer.class","kafka.serializer.StringEncoder");  
  41. //           props.setProperty("producer.type", "async");  
  42. //           props.setProperty("batch.num.messages", "1");  
  43.               props.put("request.required.acks","1");  
  44.               ProducerConfigconfig = new ProducerConfig(props);  
  45.               producer = newProducer<String, String>(config);  
  46.       }  
  47. }  
  48.    

 

 

将此文件打成jar包 传到flume的lib下面 如果你也用的是maven的话 需要用到assembly 将依赖的jar包一起打包进去。

      在flume的配置是如下:

 

[plain] view plaincopyprint?
 
  1.       agent1.sources = source1  
  2. agent1.sinks = sink1  
  3. agent1.channels =channel1  
  4.    
  5. # Describe/configuresource1  
  6. agent1.sources.source1.type= avro  
  7. agent1.sources.source1.bind= localhost  
  8. agent1.sources.source1.port= 44444  
  9. # Describe sink1  
  10. agent1.sinks.sink1.type= xx.xx.xx.KafkaSink(这是类的路径地址)  
  11.    
  12. # Use a channel whichbuffers events in memory  
  13. agent1.channels.channel1.type= memory  
  14. agent1.channels.channel1.capacity= 1000  
  15. agent1.channels.channel1.transactionCapactiy= 100  
  16.    
  17. # Bind the source andsink to the channel  
  18. agent1.sources.source1.channels= channel1  
  19. agent1.sinks.sink1.channel= channel1  



 

 

测试的话是avro的方式传送数据的 可以这样测试

bin/flume-ng avro-client--conf conf -H localhost -p 44444 -F/data/flumetmp/a

/data/flumetmp/a 这个为文件的地址.

测试的时候在本地 一定要把上面写的消费者程序打开 以便接收数据测试是否成功。

接下来我们介绍下storm然后将kafka的消费者和storm进行整合:

Storm:

   Storm是一个分布式的实时消息处理系统。

 Storm各个组件之间的关系:

 

Storm集群主要由一个主节点和一群工作节点(worker node)组成,通过 Zookeeper进行协调。

 主节点:主节点通常运行一个后台程序 —— Nimbus,用于响应分布在集群中的节点,分配任务和监测故障。

工作节点: Supervisor,负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。Nimbus和Supervisor之间的协调由zookeeper完成。

 Worker:处理逻辑的进程,在其中运行着多个Task,每个task 是一组spout/blots的组合。

 

Topology:是storm的实时应用程序,从启动开始一直运行,只要有tuple过来 就会触发执行。拓扑:storm的消息流动很像一个拓扑结构。

2. stream是storm的核心概念,一个stream是一个持续的tuple序列,这些tuple被以分布式并行的方式创建和处理。

3. spouts是一个stream的源头,spouts负责从外部系统读取数据,并组装成tuple发射出去,tuple被发射后就开始再topology中传播。

4. bolt是storm中处理 数据的核心,storm中所有的数据处理都是在bolt中完成的

这里就简单介绍一些概念 具体的可以看些详细的教程。

 

我们接下来开始整合storm和kafka。

从上面的介绍得知storm的spout是负责从外部读取数据的 所以我们需要开发一个KafkaSpout 来作为kafka的消费者和storm的数据接收源。可以看看这个https://github.com/HolmesNL/kafka-spout。我在下面只写一个简单的可供测试。

具体代码:

 

  1. public class KafkaSpout implements IRichSpout {  
  2.    
  3.       private static final Log logger = LogFactory.getLog(KafkaSpout.class);  
  4.       /** 
  5.        * 
  6.        */  
  7.       private static final long serialVersionUID = -5569857211173547938L;  
  8.       SpoutOutputCollector collector;  
  9.       private ConsumerConnectorconsumer;  
  10.       private Stringtopic;  
  11.    
  12.       public KafkaSpout(String topic) {  
  13.            this.topic = topic;  
  14.       }  
  15.    
  16.       @Override  
  17.       public void open(Map conf, TopologyContext context,  
  18.                  SpoutOutputCollector collector) {  
  19.            this.collector = collector;  
  20.             
  21.       }  
  22.    
  23.       private static ConsumerConfig createConsumerConfig() {  
  24.            Properties props = newProperties();  
  25.            props.put("zookeeper.connect","xx.xx.xx.xx:2181");  
  26.            props.put("group.id","0");  
  27.            props.put("zookeeper.session.timeout.ms","10000");  
  28.            //props.put("zookeeper.sync.time.ms", "200");  
  29.            //props.put("auto.commit.interval.ms", "1000");  
  30.    
  31.            return new ConsumerConfig(props);  
  32.       }  
  33.    
  34.       @Override  
  35.       public void close() {  
  36.            // TODOAuto-generated method stub  
  37.    
  38.       }  
  39.    
  40.       @Override  
  41.       public void activate() {  
  42.            this.consumer = Consumer.createJavaConsumerConnector(createConsumerConfig());  
  43.            Map<String, Integer> topickMap = newHashMap<String, Integer>();  
  44.            topickMap.put(topic,new Integer(1));  
  45.            Map<String, List<KafkaStream<byte[],byte[]>>>streamMap =consumer.createMessageStreams(topickMap);  
  46.            KafkaStream<byte[],byte[]>stream = streamMap.get(topic).get(0);  
  47.            ConsumerIterator<byte[],byte[]> it =stream.iterator();  
  48.            while (it.hasNext()) {  
  49.                  String value = newString(it.next().message());  
  50.                  System.out.println("(consumer)-->" + value);  
  51.                  collector.emit(new Values(value), value);  
  52.            }  
  53.    
  54.       }  
  55.    
  56.       @Override  
  57.       public void deactivate() {  
  58.            // TODOAuto-generated method stub  
  59.    
  60.       }  
  61.    
  62.       private boolean isComplete;  
  63.    
  64.       @Override  
  65.       public void nextTuple() {  
  66.    
  67.       }  
  68.    
  69.       @Override  
  70.       public void ack(Object msgId) {  
  71.            // TODOAuto-generated method stub  
  72.    
  73.       }  
  74.    
  75.       @Override  
  76.       public void fail(Object msgId) {  
  77.            // TODOAuto-generated method stub  
  78.    
  79.       }  
  80.    
  81.       @Override  
  82.       public void declareOutputFields(OutputFieldsDeclarer declarer) {  
  83.            declarer.declare(new Fields("KafkaSpout"));  
  84.    
  85.       }  
  86.    
  87.       @Override  
  88.       public Map<String, Object> getComponentConfiguration() {  
  89.            // TODOAuto-generated method stub  
  90.            return null;  
  91.       }  
  92.    
  93. }  
  94.    
  95. public class FileBlots implementsIRichBolt{  
  96.        
  97.       OutputCollector collector;  
  98.        
  99.       public void prepare(Map stormConf, TopologyContext context,  
  100.                  OutputCollector collector) {  
  101.            this.collector = collector;  
  102.             
  103.       }  
  104.    
  105.       public void execute(Tuple input) {  
  106.            String line = input.getString(0);  
  107.            for(String str : line.split("\\s+")){  
  108.            List a = newArrayList();  
  109.            a.add(input);   
  110.            this.collector.emit(a,newValues(str));  
  111.            }  
  112.            this.collector.ack(input);  
  113.       }  
  114.    
  115.       public void cleanup() {  
  116.             
  117.       }  
  118.    
  119.       public void declareOutputFields(OutputFieldsDeclarer declarer) {  
  120.            declarer.declare(new Fields("words"));  
  121.             
  122.       }  
  123.    
  124.       public Map<String, Object> getComponentConfiguration() {  
  125.            // TODOAuto-generated method stub  
  126.            return null;  
  127.       }  
  128.    
  129. }  
  130. public class WordsCounterBlots implementsIRichBolt{  
  131.        
  132.       OutputCollector collector;  
  133.       Map<String, Integer> counter;  
  134.        
  135.       public void prepare(Map stormConf, TopologyContext context,  
  136.                  OutputCollector collector) {  
  137.            this.collector = collector;  
  138.            this.counter =new HashMap<String, Integer>();  
  139.             
  140.       }  
  141.    
  142.       public void execute(Tuple input) {  
  143.            String word = input.getString(0);  
  144.            Integer integer = this.counter.get(word);  
  145.            if(integer !=null){  
  146.                  integer +=1;  
  147.                  this.counter.put(word, integer);  
  148.            }else{  
  149.                  this.counter.put(word, 1);  
  150.            }  
  151.            System.out.println("execute");  
  152.            Jedis jedis = JedisUtils.getJedis();  
  153.            jedis.incrBy(word, 1);  
  154.            System.out.println("=============================================");  
  155.            this.collector.ack(input);  
  156.       }  
  157.    
  158.       public void cleanup() {  
  159.            for(Entry<String, Integer> entry :this.counter.entrySet()){  
  160.                       System.out.println("------:"+entry.getKey()+"=="+entry.getValue());  
  161.            }  
  162.             
  163.       }  
  164.    
  165.       public void declareOutputFields(OutputFieldsDeclarer declarer) {  
  166.             
  167.             
  168.       }  
  169.    
  170.       public Map<String, Object> getComponentConfiguration() {  
  171.            // TODOAuto-generated method stub  
  172.            return null;  
  173.       }  
  174.    
  175. }  



 

Topology测试:

 

  1. public class KafkaTopology {  
  2.    
  3.       public static void main(String[] args) {  
  4.            try {  
  5.                  JedisUtils.initialPool("xx.xx.xx.xx"6379);  
  6.            } catch (Exception e) {  
  7.                  e.printStackTrace();  
  8.            }  
  9.             
  10.            TopologyBuilder builder = newTopologyBuilder();           builder.setSpout("kafka",new KafkaSpout("kafka"));  
  11.            builder.setBolt("file-blots",new FileBlots()).shuffleGrouping("kafka");  
  12.            builder.setBolt("words-counter",new WordsCounterBlots(),2).fieldsGrouping("file-blots",new Fields("words"));  
  13.            Config config = new Config();  
  14.            config.setDebug(true);  
  15.                  LocalCluster local = newLocalCluster();  
  16.                  local.submitTopology("counter", config, builder.createTopology());  
  17.       }  
  18. }  



 

 

至此flume + kafka+storm的整合就写完了。注意 这个是 初始学习阶段做的测试 不可正式用于线上环境,在写本文之时 已经离测试过去了一段时间 所以可能会有些错误 请见谅。

分享到:
评论

相关推荐

    lamp安装配置及flume+Kafka+Storm+HDFS实时系统搭分享

    在这个过程中,文档《Twitter Storm系列》flume-ng+Kafka+Storm+HDFS 实时系统搭建.docx和《安装扎记.pdf》将提供详细的步骤指导和常见问题解决方案,帮助你顺利完成整个系统的搭建和优化。 总的来说,LNMP与实时大...

    Flume+kafka+Storm整合

    ### Flume+kafka+Storm整合知识点详解 #### 一、Flume、Kafka与Storm概述 在大数据领域,数据采集、传输与实时处理是至关重要的环节。本篇内容重点介绍了如何利用Flume、Kafka与Storm这三个开源工具实现一套完整的...

    log4j+flume+kafka+storm

    本文详细介绍了如何将Log4j、Flume与Kafka进行整合,使得日志数据能够从Log4j经由Flume传输至Kafka。这一过程不仅涉及具体的配置细节,还包括了环境准备、测试验证等多个方面,确保了整个系统能够稳定高效地运行。...

    flume-ng-kafka-sink:将数据发布到 Apache Kafka 的 Apache Flume Sink 实现

    Flume-NG-Kafka-Sink 这是一个 Sink 实现,可以将数据发布到主题。 目标是将 Flume 与 Kafka 集成,以便基于拉式的处理系统(如可以处理来自各种 Flume 源(如 Syslog)的数据。 这现在是官方 Flume 发行版(从 v...

    Kafka+FlumeNG+Storm+HBase

    Kafka+FlumeNG+Storm+HBase实时处理系统介绍

    flume+kafka+storm搭建

    本文将详细介绍如何利用Flume、Kafka和Storm搭建一个大数据消息平台。 首先,我们来了解Flume。Flume是Cloudera公司提供的一款分布式、可靠且高可用的海量日志采集、聚合和传输的系统。它允许你定制数据发送方,...

    大数据架构:flume-ng+Kafka+Storm+HDFS实时系统组合

    直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边...

    Kafka+FlumeNG+Storm+HBase构架设计

    ### Kafka+FlumeNG+Storm+HBase 架构设计详解 #### 一、概述 在当前的大数据处理场景下,构建一个既能处理历史数据又能实时处理新增数据的架构至关重要。本文将详细介绍如何利用Kafka、FlumeNG、Storm与HBase搭建...

    实时日志分析

    ### 实时日志分析知识点详解 ...综上所述,Flume-ng+Kafka+Storm+HDFS构成了一个强大的实时日志分析系统,不仅能够满足当前项目的需求,还具备良好的扩展性和维护性,适用于大规模的日志处理场景。

    flume,kafka,storm整合

    - Flume Kafka插件:https://github.com/beyondj2ee/flumeng-kafka-plugin - Storm版本:0.9.7 - Zookeeper版本:3.4.5 接下来是各个软件的安装步骤: 1. **Flume安装**: - 下载Apache Flume 1.5.0的tar.gz包。 ...

    利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka

    在这个场景中,Flume将数据推送到Kafka,使得数据可以实时地被其他消费者(如Storm、Spark Streaming等)处理。 5. **wlslog.sql**: 这个文件可能是SQL脚本,用于创建或操作MySQL中的表结构,以配合Flume的数据抽取...

    flume-ng-1.6.0-cdh5.14.0.tar.gz

    在实际应用中,Flume NG 1.6.0-cdh5.14.0 常常与其他大数据组件如 Hadoop、Kafka 和 Storm 结合使用,构建复杂的数据处理流水线。例如,可以先使用 Flume 从多台服务器收集日志数据,然后通过 Kafka 进行消息队列...

    Flume+Kafka环境构建和实战.zip

    - **启动Flume**:执行`bin/flume-ng agent --conf conf --conf-file conf/flume.conf --name a1 -Dflume.root.logger=INFO,console`启动Flume Agent。 2. **Kafka环境构建**: - **安装Zookeeper**:Kafka依赖...

    flume-kafka-storm-drools-example

    《构建实时大数据处理流水线:flume-kafka-storm-drools-example详解》 在大数据领域,实时数据处理是至关重要的。"flume-kafka-storm-drools-example"项目提供了一个综合示例,展示了如何利用Apache Flume、Apache...

    基于Flume的美团日志收集系统.pdf

    本文对基于 Flume 的美团日志收集系统进行了详细的介绍和分析,包括日志收集系统的架构设计、Flume-NG 与 Scribe 的比较、美团日志收集系统的架构和设计、美团日志收集系统的设计和优化等方面。同时,本文还对 Flume...

    基于Flume的美团日志收集系统方案.doc

    在Store层,HDFS用于长期存储所有日志,Kafka存储最近7天的日志,以供Storm实时处理,而Bypass则为其他服务器和应用提供实时日志流。这样的设计确保了日志数据的高效管理和多途径利用,满足了美团在离线分析和实时...

    storm-miclog:近乎实时的日志监控系统。 它有一些基本组件

    "storm-miclog"就是这样一个专为实现近乎实时日志监控而设计的系统,它巧妙地融合了多个开源组件,如Flume-ng、Kafka、Storm以及Zookeeper,打造了一套高效、可靠的解决方案。 首先,我们来了解一下这个系统的核心...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 28.Flume(共33页).pptx

    从Hadoop的介绍与安装开始,逐步深入到MapReduce、YARN、HDFS、Hive、HBase、Pig、Zookeeper、Sqoop、Flume、Kafka、Storm、Spark等关键组件的学习。 【Flume详解】Flume是大数据领域中的重要日志收集系统,它提供...

Global site tag (gtag.js) - Google Analytics