- 浏览: 661746 次
- 性别:
- 来自: 深圳
博客专栏
-
Hadoop学习
浏览量:251936
最新评论
-
leibnitz:
请问,你知道在FSEdigLog#loadFSEdits()时 ...
Hadoop学习二十三:Hadoop-Hdfs FSDirectory 源码 -
jiaqing_blog:
七.等待队列(本是Object里的方法,但影响了线程)noti ...
多线程总结二:线程的状态转换 -
haaarySun:
虽然是三年前的帖子,但还是想回复博主,logger是继承了ca ...
Java日志学习三:Apache Log4j源码浅析 -
annmi_cai:
好好学习,天天向上!
Hadoop学习四:Hadoop-Hdfs NameNode -
emotionText:
楼主你好!我运行报错SLF4J: Class path con ...
Hadoop学习三十:Win7 Eclipse调试Centos Hadoop2.2-Mapreduce
文章列表
Hadoop学习四十四:某项目技术小结概述
- 博客分类:
- Hadoop
一.对源代码的改造
改造MultipleInputs:能够做到HBase文件或者HDFS文件的混合输入
改造JobControl和ControlledJob:能够做到一个Job运行完后,先执行扩展类,再运行下一个Job
改造HFileOutputFormat和PutSortReducer:有一种业务场景是新来的一批数据里包含了少量要删除的数据。改造后配合Mapper对这些删除数据的标记,PutSortReducer能发现这些数据,HFileOutputFormat将这些数据记录到某个文件(不生成HFile)
改造hadoop_datajoin-2.3.0.jar:使用Partit ...
一.概述
关于二次排序的文章,网上很多,比喻http://www.cnblogs.com/xuxm2007/archive/2011/09/03/2165805.html就写的不错。在此文基础上补充几点。
二.job.setPartitionerClass在什么地方被用到
mapper里每一次write,都会调用到
collector.collect(key, value,partitioner.getPartition(key, value, partitions));注partitions = jobContext.getNumReduceTas ...
Hadoop学习四十二:HBase 过滤器
- 博客分类:
- Hadoop
一.概述
客户端创建包含过滤器Filter的Scan。
Scan通过RPC被发送给RegionServer,在服务器端执行过滤操作。
Scan的作用域是region,所以一个RegionServer有多个region的话,Scan将被发送到每个region。
二.Filter工作流程
你 ...
Hadoop学习四十一:HBase基础
- 博客分类:
- Hadoop
一.概述
再次学习HBase实战和HBase权威指南时,对HBase了解又深了许多。本文列出一些值得关注的点。
二.HBase物理和逻辑存储结构
user表包含两个列族info activity,为此表预分区[1,3) [3,正无穷),此时us ...
一.概述
Hadoop2.2.0 Hbase0.96.1.1 Phoenix-2.2.0-SNAPSHOT
Phoenix官网上提供了三个与Hbase兼容的版本,分别为Phoenix2.X-Hbase0.94.X ,Phoenix3.X-Hbase0.94.X,Phoenix4.X-Hbase0.98.1+,没有与Hbase0.96兼容的版本。幸运的是git上有Phoenix Hbase0.96的分支,参考https://github.com/forcedotcom/phoenix/tree/port-0.96。于是我自己编译成了Phoenix-2.2.0-SNAPSHOT 。
...
一.概述
HBase与MapReduce集成时,有以下三种情形
HBase作为数据流向。
HBase作为数据源。
HBase作为数据源和数据流向。
阅读本文前,最好先了解http://zy19982004.iteye.com/blog/2068112
二.HBase作为数据流向
HBase作为数据流向时,如从Hdfs里向HBase里导入数据,可以有下列方式
map里直接调用HBase Api,往HBase插入数据。此时job.setNumReduceTasks(0),并且job.setOutputFormatClass(Nu ...
一.概述
在http://zy19982004.iteye.com/blog/2037549的最后曾经提到过,这里再详细探讨一下。
二.job.setNumReduceTasks(0)唯一影响的是map结果的输出方式
当job.setNumReduceTasks(0)时,即没有reduce阶段,此时唯一影响的就是map ...
一.HBase存储
HBase存储的都是字节码。我们也知道,计算机系统里,数值一律采用补码来表示和存储(http://zy19982004.iteye.com/blog/1706138)。
那么Integer(-1)在HBase里将被存储为\xFF\xFF\xFF\xFF,Integer(1)在Hbase里将被存储为\x00\x00\x00\x01。
再来看看在比较大小时的PureJavaComparer.compareTo,会将字节码,通过&0xff,转换成一个无符号位的正数。此时将出现\xFF\xFF\xFF\xFF & 0xff = ...
一.错误
使用BulkLoad向Hbase导入数据时出现了错误
2014-04-04 15:39:08,521 WARN org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles - Bulk load operation did not find any files to load in directory hdfs://192.168.1.200:9000/user/root/output1. Does it contain files in subdirectories that correspond to col ...
一.上文
http://zy19982004.iteye.com/blog/2037549从整体上描述了Job执行的过程,大致分为三步
准备数据
map reduce
清理
其中最主要的当然是map reduce的过程,map由MapTask主导完成,reduce由ReduceTask主导完成。先看看官方给的一个图
二.MapTask
MapTask分为以下几步
Read:从InputSplit中读取数据,解析出一个个key/value。
Map:由自定义的Mapper类处理上述key/value。处理结果也是key/value ...
一. 版本环境
以前工作的过程中,陆陆续续看过一些Hadoop1.0 MapReduce的源码,但没有形成体系。现在再次来看,顺便记录。此次学习版本的是Hadoop2.2.0 MapReduce。环境为直接在Win7下Local模式调试。MapReduce。
二. Job提交流程
从Job waitForCompletion开始
1 Job submit
1.1 JobSubmitter submitJobInternal
1.1.1 JobSubmissionFiles.getStagingDir 初始化Job系统工作目录jobStagingArea。 ...
一. 地址
http://hbase.apache.org/book.html#arch.bulk.load
写道
9.8. Bulk Loading 9.8.1. Overview HBase includes several methods of loading data into tables. The most straightforward method is to either use the TableOutputFormat class from a MapReduce job, or use the normal client APIs; ho ...
一. 对hadoop eclipse plugin认识不足
http://zy19982004.iteye.com/blog/2024467曾经说到我最hadoop eclipse plugin作用的认识。但事实上我犯了一个错误,Win7 Eclipse里的MyWordCount程序一直在本地运行,没有提交到集群环境上运行(查看192.168.1.200:50030)没有这个Job。运行方式分为两种,右键Run As
Java Application
Run on Hadoop
如果说Run As Java Application在本地运行还好说,它直接使 ...
一. 代码
Hbase In Action(HBase实战)和Hbase:The Definitive Guide(HBase权威指南)两本书中,有很多入门级的代码,可以选择自己感兴趣的check out。地址分别为https://github.com/HBaseinaction https://github.com/larsgeorge/hbase-book。
在Win7下运行Hbase与MapReduce集成章节的代码时,出现了错误。比喻这个代码https://github.com/larsgeorge/hbase-book/blob/master/ch07/src/ma ...
一. 自己搭建开发环境
今天自己搭建了一套Centos5.3 + Hadoop2.2 + Hbase0.96.1.1的开发环境,Win7 Eclipse调试MapReduce成功。可能是版本比较高的原因,出了问题,网上找不到完整解决方案,只能靠自己。
二. Hadoop安装
这个就不啰嗦了,网上大把文章。我下载的是hadoop-2.2.0.tar.gz。
http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503949.html 很详细的介绍了Hadoop Hdfs的安装。它这个不是Hadoop2 ...