Flume源代码解读三

xcly

浏览: 125784 次
性别:
来自: 深圳

最近访客更多访客>>

蛤蟆丸子

zq_zero

zxjun8771

suncong1024

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hadoop

Hadoop Flume 日志收集

[ xcly原创于iteye,见http://xcly.iteye.com ]

本节重点介绍 agentSink中ENDTOEND的实现。

每一个节点通过source获得事件Event,然后由sink处理，sink同source一样，flume提供了多种实现，sink的生成同Flume源代码解读一中介绍的实现方式类似，由SinkFactory工厂方法实现，跟SourceFactory不一样的是定义了取得SinkDecoBuilder的抽象方法,在SinkFactoryImpl中不止通过name可以获得EventSink，也可以获得EventSinkDecorator，关键点是EventSinkDecorator也是EventSink.Base的子类。这种装饰器模式的实现方式給事件的处理方式提供了类似于管道流的一种实现，我们可以将任意EventSinkDecorator串成一个管道，用来对事件进行加工和处理。

我们看ENDTOEND的实现，就是一串ackedWriteAhead => { stubbornAppend => { insistentOpen =>rpcSink，由FlumeBuilder的buildSink实现。这里使用了强大的语言识别工具Antlr, 具体实现细节还有待深究。

下次补上。

ackedWriteAhead 对应的实现类是NaiveFileWALDec, NaiveFileWALDeco是一个非常重要的类，它里面有两套数据流机制, 一套是RollSink开始的将数据不断写入本地硬盘的数据流，当数据写入本地硬盘后，通过DirectDriver的一个线程不断循环从写好的硬盘数据中获取数据发送至collector,如果写成功，再删除硬盘上的数据。

NaiveFileWALDec的build中申明了几个关键的类是从FlumeNode实例中取得的，NaiveFileWALManager负责数据的持久化，当再次尝试发生时，也读取数据，最初数据都是写入writing目录。 WALAckManager和它之中的PendingAckQueuer， WALAckManager负责act check,并且调用PendingAckQueuer作为结束数据append的动作。即PendingAckQueuer的end方法。

RollSink的newSink见NaiveFileWALManager的newAckWritingSink方法，AckChecksumInjector嵌套SeqfileEventSink， AckChecksumInjector在event中添加tag/checksum和时间作为校验和，并且对消息body使用了hash算法。而 SeqfileEventSink主要负责将数据流写入本地文件系统。

未完待续

分享到：

Flume源代码解读四 | Flume源代码解读二

2012-03-10 20:40
浏览 3216
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论