本月博客排行
-
第1名
arpenker -
第2名
kaizi1992 -
第3名
wy_19921005
年度博客排行
-
第1名
龙儿筝 -
第2名
宏天软件 -
第3名
青否云后端云 - wallimn
- vipbooks
- gashero
- wy_19921005
- benladeng5225
- fantaxy025025
- javashop
- e_e
- tanling8334
- arpenker
- sam123456gz
- kaizi1992
- zysnba
- xiangjie88
- lemonhandsome
- ganxueyun
- xyuma
- Xeden
- wangchen.ily
- zhanjia
- jh108020
- johnsmith9th
- zxq_2017
- jbosscn
- forestqqqq
- ajinn
- daizj
- xpenxpen
- wjianwei666
- ranbuijj
- 喧嚣求静
- kingwell.leng
- silverend
- lchb139128
- kristy_yy
- jveqi
- lich0079
- lzyfn123
- java-007
- sunj
- yeluowuhen
- lerf
- xiaoxinye
- flashsing123
- lxguy
- zhangjijun
- lyndon.lin
最新文章列表
Mapreduce《案例之数据去重复》
Mapreduce《案例之数据去重复》
源数据:
a.txt内容:
2012-3-1 b
2012-3-2 a
2012-3-3 b
2012-3-4 d
2012-3-5 a
2012-3-6 c
2012-3-7 d
2012-3-3 c
b.txt内容:
2012-3-1 a
2012-3-2 b
2012-3-3 c
2012-3-4 d
2012- ...
Mapreduce《案例之平均分》
Mapreduce《案例之数据排序》
数据源:
a.txt 内容:
aaa 120
bbb 100
ccc 130
ddd 150
b.txt内容:
aaa 121
bbb 101
ccc 131
ddd 150
c.txt内容
aaa 119
bbb 99
ccc 129
ddd 150
输出结果:
aaa120
bbb100
c ...
Mapreduce《案例之两表连接》
Mapreduce《案例之两表连接》
数据源:
a.txt内容
addressed addressname
1 Beijing
2 Guangzhou
3 Shenzhen
4 Xian
b.txt内容
factoryname addressed
BeijingRedStar 1
ShenzhenThunder 3
GuangzhouHonda 2
Beij ...
Mapreduce《案例之内连接》
Mapreduce《案例之内连接》
数据源:
child parent
Tom Lucy
Tom Jack
Jone Lucy
Jone Jack
Lucy Mary
Lucy Ben
Jack Alice
Jack Jesse
Terry Alice
Terry Jesse
Philip Terry
Philip Alma
Mark Terry
Mark ...
MapReduce详解
转载请出自出处:http://eksliang.iteye.com/blog/2228705
一.Hadoop1.0中MapReduce的组成
1.从功能模块角度
客户端:提交MapReduce作业;
JobTracker:
1.作业调度: ...
napreduce shuffle 过程记录
在我看来 hadoop的核心是mapreduce,而mapreduce的核心则是 shuffle,在我们需要优化mapreduce,提高mapreduce效率时,需要优化的核心代码都在这个shuffle过程。
我从网上拉过来一张图,加上自己的标注来详细记录一下该过程,以便后期优化代码做一个记录
mapreduce整个执行过程如下如所示
其中1、2、3、4.... ...
MapReduce和Hive支持递归子目录作为输入
关键字:MapReduce、Hive、子目录、递归、输入、Input、mapreduce.input.fileinputformat.input.dir.recursive、hive.mapred.supports.subdirectories
一般情况下,传递给MapRe ...
Pig0.15集成Tez,让猪飞起来
1,Tez是什么?
Tez是Hortonworks公司开源的一种新型基于DAG有向无环图开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能,看下面一张图,就能说明问题:
2,Tez能干什么?
上图已经说明问题了,如果将我们的Hive,或者Pig运行在Tez之上,那么速度会有几倍的提升,当然这仅仅是相对MapReduce来讲的,因为Spark这种分布式内存计 ...
Hadoop2.6.0-cdh5.4.1源码编译安装
版本使用范围,大致 与Apache Hadoop编译步骤一致大同小异,因为CDH的Hadoop的本来就是从社区版迁过来的,所以,这篇文章同样适合所有的以Apache Hadoop为原型的其他商业版本的hadoop编译,例如,Cloudera(CDH)的hadoop和Hortonworks(HDP)的的hadoop编译,下面开工:
1,环境准备(Cenots6.x,其他的大同小异)
(1)yum安 ...
转:hive表Join的倾斜问题以及解决方法
写HQL语句的时候常常会遇到表Join的情况,一个简单的Join会被Hive解释成一个MapReduce任务,Map端分别读取两个表的数据,Reduce做真正的Join操作。
如果执行的过程中,如果发现有些Reduce任务比其他的Reduce任务慢很多,往往是发生了倾斜问题。
问题分析
select
a.*,
b.cat_name
from
dim_a ...
MapReduce工作原理图文详解
目录:1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程
正文
1.MapReduce作业运行流程
下面贴出我用visio2010画出的流程示意图:
流程分析:
1.在客户端启动一个作业。
2.向JobTracker请求一个Job ID。
3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包 ...
Hadoop2.2如何集成Apache Pig0.12.1?
散仙假设你的Hadoop环境已经安装完毕
(1)到https://archive.apache.org/dist/pig/下载对应的tar包,如果是hadoop0.20.x之前的版本,则直接可以用,如果Hadoop2.x之后的,则需要重新编译,在pig的根目录下执行如下命令:
ant clean jar-withouthadoop -Dhadoopversion=23
否则执行M ...