本月博客排行
-
第1名
龙儿筝 -
第2名
zysnba -
第3名
johnsmith9th - wy_19921005
- sgqt
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- wy_19921005
- benladeng5225
- fantaxy025025
- javashop
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- ranbuijj
- arpenker
- tanling8334
- kaizi1992
- sichunli_030
- xpenxpen
- gaojingsong
- wiseboyloves
- xiangjie88
- ganxueyun
- xyuma
- wangchen.ily
- jh108020
- zxq_2017
- jbosscn
- lemonhandsome
- luxurioust
- Xeden
- lzyfn123
- forestqqqq
- zhanjia
- nychen2000
- ajinn
- wjianwei666
- johnsmith9th
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
最新文章列表
Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (中)
继续上一篇文章, 那时候AM Allocation已经生成, 就等着NM 的心跳来找到有资源的NM, 再去启动, 那么假设一个NM 心跳, 然后走的就是RMNodeImpl的状态机的RMNodeEventType.STATUS_UPDATE事件, 看一下事件定义:
private static final StateMachineFactory<RMNodeImpl,
...
Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (上)
参考了一篇文章, 才看懂了Yarnrunner的整个流程:
http://blog.csdn.net/caodaoxi/article/details/12970993
网上很多文章写的不是很清楚, 有些到AM的启动的时候就错了, 结合最近俩星期看的Yarnrunner部分的源码 我把我的理解写下来, 打算分三部分
上: SubmitJob到schduler为ApplicationMaster申请 ...
Hadoop MapReduce Job执行过程源码跟踪
前面一片文章写了MR怎么写, 然后添加的主要功能怎么用, 像partitioner, combiner等, 这周看了一下MR执行的时候Job提交以及Task运行的过程, 记录一下整个源码执行步骤, 量太大就不写详细了, 只是一步一步跟踪下去, 具体是在做什么就稍微解释一下, 跟多还是要靠自己看上下文理解了, 首先Job是通过job.waitForCompletion(true) 来提交的, 里面是通 ...
Hadoop的Map端sort, partition, combiner以及Group
Mapreduce在执行的时候首先会解析成KV键值对传送到Map方法里面, 在Mapper类的run里面有这么一段代码:
while (context.nextKeyValue()) {
map(context.getCurrentKey(), context.getCurrentValue(), context);
}
就是只要还有KV键值对, 就不停的调 ...
运行Hadoop jar 第三方jar包依赖
将自己编写的MapReduce程序打包成jar后,在运行 hadoop jar 命令时,如果要依赖第三方jar包,提示 ClassNotFoundException ....
解决方法:
1.新建一个lib文件夹,将需要依赖的第三方jar包放到lib文件夹中;
2.将MapReduce程序打包后的jar包(如:jmdata-operatives-mrs-access.jar)用WinRAR打开 ...
【转载】MapReduce模型
MapReduce 是适合海量数据处理的编程模型。Hadoop是能够运行在使用各种语言编写的MapReduce程序: Java, Ruby, Python, and C++. MapReduce程序是平行性的,因此可使用多台机器集群执行大规模的数据分析非常有用的。
MapReduce程序的工作分两个阶段进行:
Map阶段
Reduce 阶段
输入到每一个阶段均是键 - ...
Hadoop2.7.1高可用环境搭建
Hadoop基础知识:http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html
注:本文中缺少的图可以下载附件DOC
Hadoop2.7.1集群搭建
1.系统配置
电脑1(Lenovo),win7 64位系统 ...
基于ODPS的MapReduce例子
公司提了一个要求,要基于阿里云的ODPS实现一个简单的数据ETL Demo。
基本需求如下:多条身份证,姓名,来源部门信息遵循两条规则, 有权威部门则采用权威部门数据,无权威部门则采用出现次数多权重数据。
实现过程如下:
1.去阿里云申请accessID, accessKey
2.下载SDK开发工具
3.下载ODPS Eclipse插件并集成
4.仿造WordCount例子实现需求
具体表结构及代 ...
hadoop中常见的错误
hadoop的mapreduce作业出现Java heap space解决方案
在配置文件maprd-site中设置mapred.child.java.opts:-Xmx1024m
hadoop执行出现Unable to initialize any output collector
检查代码是否有导错包。
设置你的maprd-site的属性Map Task缓冲区所占内存大小。mapreduc ...
Hadoop使用笔记二 -- hadoop2.6.3配置并启动
虚拟机的密码都是root/lijian
虚拟机以4台linux的主机
在你的hosts加入各台虚拟机
192.168.8.129 CentOS1
192.168.8.131 CentOS2
192.168.8.130 CentOS3
192.168.8.132 CentOS4
首先需要编译好的hadoop以及jdk相关的环境
配置步骤
1. 配置HA NameNodes文 ...
开源大数据索引项目hive-solr
github地址:https://github.com/qindongliang/hive-solr
欢迎大家fork和使用
关于这个项目的介绍,请参考散仙前面的文章:
http://qindongliang.iteye.com/blog/2283862
最新更新:
(1)添加了对solrcloud集群的支持
(2)修复了在反序列时对于hive中null列和空值的处理bug
(3)优化了在构建 ...
使用MapReduce对数据文件进行切分
有一个格式化的数据文件,用\t分割列,第2列为产品名称。现在需求把数据文件根据产品名切分为多个文件,使用MapReduce程序要如何实现?
原始文件:
[root@localhost opt]# cat aprData
1 a1 a111
2 a2 a211
3 a1 a112
4 a1 a1 ...
16.RDD 实战
由于RDD的不可修改的特性,导致RDD的操作与正常面向对象的操作不同,RDD的操作基本分为3大类:transformation,action,contoller
1. Transformation
Transformatio ...