- 浏览: 2094850 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (366)
- hadoop (91)
- DB (2)
- vmware (0)
- python (49)
- Java (72)
- Linux (57)
- 多线程 (2)
- hive (1)
- hbase (3)
- mongodb (5)
- Hibernate (3)
- nodejs (1)
- 模式与重构 (1)
- 持续集成CI (4)
- Mysql (2)
- chorme (1)
- 软件开发 (0)
- 敏捷 (5)
- maven (3)
- windows (7)
- 测试驱动 (1)
- scala (3)
- Jetty (0)
- android (1)
- eclipse (1)
- 设计模式 (1)
- 面向对象设计 (2)
- oracle (3)
- cassandra (15)
- pig (3)
- rails (1)
- redis (4)
- ruby (1)
- storm (0)
- 实时运算 (3)
- scribe (1)
- hadoop源码 (3)
- cassandra jna (1)
- Kafka (2)
- Sublime (2)
- C++ (2)
- C (1)
- 版本控制 (1)
- 服务器 (1)
- docker (0)
- flink (1)
最新评论
-
伍大都督:
解释太到位了,感谢分享
理解Linux系统中的load average(图文版) -
rfjian123:
非常感谢,用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS -
yuhaifei12:
今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题 -
BigBird2012:
想问一下,使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱” -
zhuqx1130:
有用,谢谢
解决Sublime Text 3中文显示乱码(tab中文方块)问题
Flume NG 1.x 是Flume 0.9.x的重构版本,基本面目全非了,Master和zookeeper没有了,collector没有了,Web console没有了,只有
- source (avro:很简单使用;exec:使用shell命令)
- sink (我用的hdfs)
- channl
这3个组件,俨然从一个分布式系统变成了传输工具。新的架构如下:
下面是一个例子(参数经过优化),使用avro作为source,hdfs作为sink,memory作为channel
# Define a memory channel called ch1 on agent1
agent1.channels.ch1.type = memory
agent1.channels.ch1.capacity = 100000
agent1.channels.ch1.transactionCapacity = 100000
agent1.channels.ch1.keep-alive = 30
# Define an Avro source called avro-source1 on agent1 and tell it
# to bind to 0.0.0.0:41414. Connect it to channel ch1.
agent1.sources.avro-source1.channels = ch1
agent1.sources.avro-source1.type = avro
agent1.sources.avro-source1.bind = 0.0.0.0
agent1.sources.avro-source1.port = 41414
agent1.sources.avro-source1.threads = 5
# Define a logger sink that simply logs all events it receives
# and connect it to the other end of the same channel.
agent1.sinks.log-sink1.channel = ch1
agent1.sinks.log-sink1.type = hdfs
agent1.sinks.log-sink1.hdfs.path = hdfs://CNC-XX-R-541:9000/flume/
agent1.sinks.log-sink1.hdfs.writeFormat = Text
agent1.sinks.log-sink1.hdfs.fileType = DataStream
agent1.sinks.log-sink1.hdfs.rollInterval = 0
agent1.sinks.log-sink1.hdfs.rollSize = 60554432
agent1.sinks.log-sink1.hdfs.rollCount = 0
agent1.sinks.log-sink1.hdfs.batchSize = 1000
agent1.sinks.log-sink1.hdfs.txnEventMax = 1000
agent1.sinks.log-sink1.hdfs.callTimeout = 60000
agent1.sinks.log-sink1.hdfs.appendTimeout = 60000
# Finally, now that we've defined all of our components, tell
# agent1 which ones we want to activate.
agent1.channels = ch1
agent1.sources = avro-source1
agent1.sinks = log-sink1
agent1.channels.ch1.type = memory
agent1.channels.ch1.capacity = 100000
agent1.channels.ch1.transactionCapacity = 100000
agent1.channels.ch1.keep-alive = 30
# Define an Avro source called avro-source1 on agent1 and tell it
# to bind to 0.0.0.0:41414. Connect it to channel ch1.
agent1.sources.avro-source1.channels = ch1
agent1.sources.avro-source1.type = avro
agent1.sources.avro-source1.bind = 0.0.0.0
agent1.sources.avro-source1.port = 41414
agent1.sources.avro-source1.threads = 5
# Define a logger sink that simply logs all events it receives
# and connect it to the other end of the same channel.
agent1.sinks.log-sink1.channel = ch1
agent1.sinks.log-sink1.type = hdfs
agent1.sinks.log-sink1.hdfs.path = hdfs://CNC-XX-R-541:9000/flume/
agent1.sinks.log-sink1.hdfs.writeFormat = Text
agent1.sinks.log-sink1.hdfs.fileType = DataStream
agent1.sinks.log-sink1.hdfs.rollInterval = 0
agent1.sinks.log-sink1.hdfs.rollSize = 60554432
agent1.sinks.log-sink1.hdfs.rollCount = 0
agent1.sinks.log-sink1.hdfs.batchSize = 1000
agent1.sinks.log-sink1.hdfs.txnEventMax = 1000
agent1.sinks.log-sink1.hdfs.callTimeout = 60000
agent1.sinks.log-sink1.hdfs.appendTimeout = 60000
# Finally, now that we've defined all of our components, tell
# agent1 which ones we want to activate.
agent1.channels = ch1
agent1.sources = avro-source1
agent1.sinks = log-sink1
启动avro agent,参数“ageng1”在上述配置文件定义。
flume-ng agent --conf ./conf/ -f conf/flume.conf -n agent1
client端上传文件
flume-ng avro-client --conf conf -H localhost -p 41414 -F /data/xx.txt
心得:
- 感觉就是一个传输工具,使用配置很简单,但是参数还得调,要不报错。
- 上传文件可以自动按照大小、行或者处理时间分割为多个文件。
- 测试了单机上传700MB文件,上传速度和hadoop fs -put速度相同,记录没有丢失。
纠结:
- 输出文件只能在flume.conf定义吗?
- 如何将文件按照规则汇总到HDFS(比如按照客户合并输出)?
- 基于事务的传输保证每个事务内Event(日志行)有保证传到HDFS,但是如果传输整个文件中途中断,还是会有部分数据上传遗留到HDFS。
结论:FlumeNG1.1,尚不能满足复杂业务要求,尽管支持自定义source和sink等组件,系统使用过程中觉得软件不够坚固,非常简单的示例,都报错,让人心里没底,还好源码够简单,这样看来只适合做简单传输。
错误记录:
org.apache.flume.ChannelException: Space for commit to queue couldn't be acquired Sinks are likely not keeping up with sources, or the buffer size is too tight
解决:设置agent1.channels.<channel_name>.keep-alive = 30
资料:
FlumeNG 架构
Flume User Guide
--heipark
评论
8 楼
luyee2010
2013-12-04
Could not find or load main class org.apache.flume.tools.GetJavaProperty
7 楼
java.jianan
2013-03-27
不好意思,说错了,是 3 M/S 写入dfs,但是和 put 比起来,速度还是很慢,我把参数贴出来:
a1.sinks.k1.hdfs.rollInterval=600
a1.sinks.k1.hdfs.threadsPoolSize=10000
a1.sinks.k1.hdfs.rollSize=21474836480
a1.sinks.k1.hdfs.rollCount=0
a1.sinks.k1.hdfs.callTimeout=80000
a1.sinks.k1.hdfs.batchSize=200000
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 20000000
a1.channels.c1.transactionCapacity=20000000
a1.channels.c1.keep-alive=60
JAVA_OPTS="-Xms61440m -Xmx61440m -Xmn20000m -Xss200k -XX:+UseParallelGC -XX:ParallelGCThreads=12 -XX:+UseParallelOldGC"
a1.sinks.k1.hdfs.rollInterval=600
a1.sinks.k1.hdfs.threadsPoolSize=10000
a1.sinks.k1.hdfs.rollSize=21474836480
a1.sinks.k1.hdfs.rollCount=0
a1.sinks.k1.hdfs.callTimeout=80000
a1.sinks.k1.hdfs.batchSize=200000
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 20000000
a1.channels.c1.transactionCapacity=20000000
a1.channels.c1.keep-alive=60
JAVA_OPTS="-Xms61440m -Xmx61440m -Xmn20000m -Xss200k -XX:+UseParallelGC -XX:ParallelGCThreads=12 -XX:+UseParallelOldGC"
6 楼
heipark
2013-03-25
java.jianan 写道
我测试本地上传1G txt 文件,平均每分钟写入 hdfs 只有3M,有什么办法能提高写的速度呢?
调整sink hdfs参数试试吧,你这个速度不正常,怎么也要每秒10MB数据
5 楼
java.jianan
2013-03-24
我测试本地上传1G txt 文件,平均每分钟写入 hdfs 只有3M,有什么办法能提高写的速度呢?
4 楼
shenbai
2012-10-11
avro rpc client 直接调用apendBatch函数,发数据给source,也没有返回机制(同步),怎么控制client发送速度,发的太快,flume处理不过来就会死掉,文件一大就oom,不知道怎么解决呢?
3 楼
long904
2012-08-28
heipark 写道
long904 写道
感觉这个上传速度很慢,与put根本不是一个等级的。是否哪里配置错误了呢,请教!
兄弟flume-avro-agent使用的是netty编写的,网速速度应该是有保证的。
你说的put速度指什么?
hadoop fs -put
2 楼
heipark
2012-08-27
long904 写道
感觉这个上传速度很慢,与put根本不是一个等级的。是否哪里配置错误了呢,请教!
兄弟flume-avro-agent使用的是netty编写的,网速速度应该是有保证的。
你说的put速度指什么?
1 楼
long904
2012-08-27
感觉这个上传速度很慢,与put根本不是一个等级的。是否哪里配置错误了呢,请教!
发表评论
-
cloudera CDH5 vmware中cloudera manager报错"Internal error while querying the Host "
2014-07-22 10:19 2045无法获取host和service状态,解决办法: s ... -
thrift0.9.1简单教程(包含Java服务端和Java、python客户端)
2014-04-25 15:55 6404一、Thrift Java服务端和客户端 官 ... -
yum错误“Error in PREUN scriptlet in rpm package ”
2014-03-10 12:07 3980打算通过yum安装软件,发展之前有软件残骸。使用yu ... -
搭建cloudera yum私服
2014-03-05 11:08 3203一、安装Cloudera yum仓库 1. 下载仓库rpm ... -
cloudera创建私服错误一例
2014-02-24 11:41 1370执行“reposync -r cloudera-cdh4 ” ... -
Cloudera Manager的Hadoop配置文件管理
2014-02-11 10:21 11453本文基于Cloudera Manager 4.8,以下简称 ... -
修改cloudera manager管理主机名(转)
2014-02-10 14:22 7642I installed the Cloudera Mana ... -
cloudera manager tasktrakcer监控状态错误
2014-02-10 11:32 1279此文用作图片外链。cloudera网站坑爹呀! -
cloudera manager 4.8 添加设备DNS反向解析问题
2014-01-28 16:20 3762添加设备时agent会使用host命令反向解析获取clou ... -
apache kafka v0.8入门遇到问题
2014-01-23 12:20 1666官方文档:https://kafka.apache.org/ ... -
hadoop2.0(cdh4) fs client错误"java.io.IOException: No FileSystem for scheme: hdfe"
2013-12-31 12:32 10052启动dfs client时候报错:“java.io.IOE ... -
Hadoop Combiner的几个调用时间点
2013-12-20 08:37 2963Combiner是在Map端被执行,共有两个时机会被触 ... -
hadoop1.0中NameNode HA的妥协方案
2013-12-10 16:26 1525hadoop1.0没有HA,可以添加NFS做为metada ... -
hdaoop2.x (CDH4、5)下使用DFS Client(包含HA)
2013-12-09 16:42 3312一、不使用HA场景 1.1 获取FileSystem(下 ... -
Hadoop学习指南
2013-11-26 14:26 1391安装配置 CDH4(hadoop2.0) 端口 C ... -
cloudera cdh中hadoop-client包的作用
2013-11-22 22:12 4113hadoop-client是为了让开发者可以很方便的使用当前 ... -
could only be replicated to 0 nodes instead of minReplication (=1)
2013-11-18 17:02 13918一、出现这个错误,先看看DN是不是正常启动并与NN通信,使用 ... -
Hadoop Pig获取HDFS文件名
2013-11-15 08:37 3214A = LOAD 'input' using PigS ... -
cloudera CDH5正式版(与CDH4比较)
2013-11-04 22:14 2514要求JDK7以上,JDK6不被支持 基于a ... -
Pig写UDF解析XML遇到一诡异错误“ClassNotFoundException”
2013-10-16 10:11 1277UDF中使用apache digester做XML解析,代码 ...
相关推荐
Flume-NG 安装与配置指南 Flume-NG 是一个分布式日志收集系统,能够从各种数据源中实时采集数据,并将其传输到集中式存储系统中。本文将指导您完成 Flume-NG 的安装和基本配置。 安装 Flume-NG 1. 先决条件:...
Flume-ng-sql-source是Apache Flume的一个扩展插件,主要功能是允许用户从各种数据库中抽取数据并将其传输到其他目的地,如Apache Kafka。在本案例中,我们讨论的是版本1.5.2的发布包,即"flume-ng-sql-source-...
Flume-ng-1.6.0-cdh.zip 内压缩了 3 个项目,分别为:flume-ng-1.6.0-cdh5.5.0.tar.gz、flume-ng-1.6.0-cdh5.7.0.tar.gz 和 flume-ng-1.6.0-cdh5.10.1.tar.gz,选择你需要的版本。
Flume-ng-sql-source-1.5.2是Apache Flume的一个扩展,它允许Flume从SQL数据库中收集数据。Apache Flume是一个分布式、可靠且可用于有效聚合、移动大量日志数据的系统。"ng"代表"next generation",表明这是Flume的...
Flume-ng 在 Windows 环境搭建并测试 + Log4j 日志通过 Flume 输出到 HDFS Flume-ng 是一个高可用、可靠、分布式的日志聚合系统,可以实时地从各种数据源(如日志文件、网络 socket、数据库等)中收集数据,并将其...
"flume-ng-1.6.0-cdh5.5.0.tar.gz" 是 Apache Flume 的一个特定版本,具体来说是 "Next Generation" (ng) 版本的 1.6.0,与 Cloudera Data Hub (CDH) 5.5.0 发行版兼容。CDH 是一个包含多个开源大数据组件的商业发行...
flume-ng-sql-source-1.5.1 flume连接数据库 很好用的工具
flume-ng-sql-source-1.5.3.jar,flume采集mysql数据jar包,将此文件拖入FLUME_HOME/lib目录下,如果是CM下CDH版本的flume,则放到/opt/cloudera/parcels/CDH-xxxx/lib/flume-ng/lib下,同样需要的包还有mysql-...
该压缩包“flume-ng-1.6.0-cdh5.7.0”是针对Cloudera Data Hub (CDH) 5.7.0 平台的Flume的特定版本,"ng"代表"Next Generation",意味着它是Flume的更新版本,提供了更先进的特性和性能优化。CDH是一个完整的、经过...
flume-ng-sql-source-1.5.2.jar从数据库中增量读取数据到hdfs中的jar包
《Flume-ng-sql-source-1.4.3.jar:数据采集与SQL集成的利器》 Flume-ng-sql-source-1.4.3.jar 是Apache Flume的一个扩展组件,它为Flume提供了与SQL数据库交互的能力。Flume是Apache Hadoop生态体系中的一个分布式...
flume是一个日志收集器,更多详细的介绍可以参照官网:http://flume.apache.org/ flume-ng-sql-source实现oracle增量数据读取 有了这个jar文件即可从关系型数据库拉去数据到flume
flume-ng-1.5.0-cdh5.3.6.rarflume-ng-1.5.0-cdh5.3.6.rar flume-ng-1.5.0-cdh5.3.6.rar flume-ng-1.5.0-cdh5.3.6.rar flume-ng-1.5.0-cdh5.3.6.rar flume-ng-1.5.0-cdh5.3.6.rar flume-ng-1.5.0-cdh5.3.6.rar flume...
包含flume-ng-sql-source-1.5.1&flume;-ng-sql-source-1.4.1 此内容均为网上下载
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...
`flume-ng-1.6.0-cdh5.10.1.tar.gz` 是一个针对Cloudera Distribution Including Apache Hadoop (CDH) 5.10.1 版本优化的Flume NG的打包文件,Flume NG是Flume的下一代版本,提供更先进的特性和性能。 Flume的核心...
flume1.9采集数据入存入elasticsearch6.2.4,flume1.9本身只支持低版本的elasticsearch,基于apache-flume-1.9.0-src的flume-ng-sinks/flume-ng-elasticsearch-sink源码修改,支持es6.2.4,打的包,直接替换flume/...