最新文章列表

Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (中)

继续上一篇文章, 那时候AM Allocation已经生成, 就等着NM 的心跳来找到有资源的NM, 再去启动, 那么假设一个NM 心跳, 然后走的就是RMNodeImpl的状态机的RMNodeEventType.STATUS_UPDATE事件, 看一下事件定义: private static final StateMachineFactory<RMNodeImpl, ...
humingminghz 评论(0) 有1620人浏览 2016-09-27 13:25

Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (上)

参考了一篇文章, 才看懂了Yarnrunner的整个流程: http://blog.csdn.net/caodaoxi/article/details/12970993 网上很多文章写的不是很清楚, 有些到AM的启动的时候就错了, 结合最近俩星期看的Yarnrunner部分的源码 我把我的理解写下来, 打算分三部分 上: SubmitJob到schduler为ApplicationMaster申请 ...
humingminghz 评论(0) 有3627人浏览 2016-09-24 16:46

Hadoop MapReduce Job执行过程源码跟踪

前面一片文章写了MR怎么写, 然后添加的主要功能怎么用, 像partitioner, combiner等, 这周看了一下MR执行的时候Job提交以及Task运行的过程, 记录一下整个源码执行步骤, 量太大就不写详细了, 只是一步一步跟踪下去, 具体是在做什么就稍微解释一下, 跟多还是要靠自己看上下文理解了, 首先Job是通过job.waitForCompletion(true) 来提交的, 里面是通 ...
humingminghz 评论(0) 有3003人浏览 2016-09-07 15:07

Hadoop的Map端sort, partition, combiner以及Group

Mapreduce在执行的时候首先会解析成KV键值对传送到Map方法里面, 在Mapper类的run里面有这么一段代码: while (context.nextKeyValue()) { map(context.getCurrentKey(), context.getCurrentValue(), context); } 就是只要还有KV键值对, 就不停的调 ...
humingminghz 评论(0) 有1515人浏览 2016-09-05 15:15

MapReduce原理与设计思想

  MapReduce原理与设计思想 简单解释 MapReduce 算法 一个有趣的例子 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑 ...
lishichang 评论(0) 有571人浏览 2016-08-23 20:20

MapReduce工作原理

文章转自:http://weixiaolu.iteye.com/blog/1474172   1.MapReduce作业运行流程 下面贴出我用visio2010画出的流程示意图:                 流程分析: ...
lishichang 评论(0) 有501人浏览 2016-08-23 14:43

运行Hadoop jar 第三方jar包依赖

将自己编写的MapReduce程序打包成jar后,在运行 hadoop jar 命令时,如果要依赖第三方jar包,提示 ClassNotFoundException .... 解决方法: 1.新建一个lib文件夹,将需要依赖的第三方jar包放到lib文件夹中; 2.将MapReduce程序打包后的jar包(如:jmdata-operatives-mrs-access.jar)用WinRAR打开 ...
h_1_y_m 评论(0) 有1026人浏览 2016-08-22 13:47

大数据应用,Hadoop发行版各显神通

本文来源微信:技术为王 文中综合了Hortonworks、Cloudera、MapR三家主要的Hadoop发行版供应商的Hadoop应用案例,真是各有神通,不服来辩。 Cloudera:加速数 ...
博学boxue 评论(0) 有226人浏览 2016-08-16 17:11

Scala mapreduce

本文只是带你进入 Scala 的世界,包括安装、不可变变量 val、可变变量 var、定义类、集合(包括列表(list)、集(set)、映射(map))以及集合遍历 ...
e_e 评论(0) 有803人浏览 2016-07-07 14:40

【转载】MapReduce模型

MapReduce 是适合海量数据处理的编程模型。Hadoop是能够运行在使用各种语言编写的MapReduce程序: Java, Ruby, Python, and C++. MapReduce程序是平行性的,因此可使用多台机器集群执行大规模的数据分析非常有用的。 MapReduce程序的工作分两个阶段进行: Map阶段 Reduce 阶段 输入到每一个阶段均是键 - ...
zhongmin2012 评论(0) 有467人浏览 2016-06-15 19:21

Hadoop2.7.1高可用环境搭建

Hadoop基础知识:http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html 注:本文中缺少的图可以下载附件DOC Hadoop2.7.1集群搭建 1.系统配置 电脑1(Lenovo),win7 64位系统 ...
Donald_Draper 评论(0) 有2952人浏览 2016-05-31 17:31

Apache顶级项目介绍4 - Hadoop

  大象起舞,天下太平,极客们应该知道我们的重量级人物Hadoop登场了。 提到Hadoop, 正所谓饮水思源,我们不得不提及一下Hadoop之父,其对技术界的影响,在近10年可谓重大, 他就是Doug Cutting, 其传奇人生及其大作这里不赘述了,大家可以Google/Bing一下,之后或许我们会推出一些技术大牛的介绍以及好书推荐。   值得提及的是H
erixhao 评论(0) 有874人浏览 2016-05-28 16:00

基于ODPS的MapReduce例子

公司提了一个要求,要基于阿里云的ODPS实现一个简单的数据ETL Demo。 基本需求如下:多条身份证,姓名,来源部门信息遵循两条规则, 有权威部门则采用权威部门数据,无权威部门则采用出现次数多权重数据。 实现过程如下: 1.去阿里云申请accessID, accessKey 2.下载SDK开发工具 3.下载ODPS Eclipse插件并集成 4.仿造WordCount例子实现需求 具体表结构及代 ...
h_1_y_m 评论(0) 有1523人浏览 2016-05-23 13:59

HBase常用功能和HBase+MapReduce使用总结

1.HBase如果加了列限定,如果该列不存在时返回的结果为empty.         看下面的代码:          ?
aoyouzi 评论(0) 有661人浏览 2016-05-21 21:34

hadoop中常见的错误

hadoop的mapreduce作业出现Java heap space解决方案 在配置文件maprd-site中设置mapred.child.java.opts:-Xmx1024m hadoop执行出现Unable to initialize any output collector 检查代码是否有导错包。 设置你的maprd-site的属性Map Task缓冲区所占内存大小。mapreduc ...
Janle 评论(0) 有548人浏览 2016-05-20 13:32

Hadoop使用笔记二 -- hadoop2.6.3配置并启动

虚拟机的密码都是root/lijian 虚拟机以4台linux的主机 在你的hosts加入各台虚拟机 192.168.8.129 CentOS1 192.168.8.131 CentOS2 192.168.8.130 CentOS3 192.168.8.132 CentOS4 首先需要编译好的hadoop以及jdk相关的环境 配置步骤 1. 配置HA NameNodes文 ...
Janle 评论(0) 有601人浏览 2016-05-17 09:42

开源大数据索引项目hive-solr

github地址:https://github.com/qindongliang/hive-solr 欢迎大家fork和使用 关于这个项目的介绍,请参考散仙前面的文章: http://qindongliang.iteye.com/blog/2283862 最新更新: (1)添加了对solrcloud集群的支持 (2)修复了在反序列时对于hive中null列和空值的处理bug (3)优化了在构建 ...
qindongliang1922 评论(0) 有1981人浏览 2016-05-06 16:15

Hadoop使用笔记三 --hadoop环境安装问题汇总

注:linux服务器的用户名/密码:root/lijian 1.准备Linux环境  1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到window ...
Janle 评论(0) 有402人浏览 2016-05-06 14:19

使用MapReduce对数据文件进行切分

  有一个格式化的数据文件,用\t分割列,第2列为产品名称。现在需求把数据文件根据产品名切分为多个文件,使用MapReduce程序要如何实现? 原始文件: [root@localhost opt]# cat aprData 1       a1      a111 2       a2      a211 3       a1      a112 4       a1      a1 ...
yehao0716 评论(0) 有5788人浏览 2016-05-01 22:53

16.RDD 实战

由于RDD的不可修改的特性,导致RDD的操作与正常面向对象的操作不同,RDD的操作基本分为3大类:transformation,action,contoller 1.   Transformation Transformatio ...
zhou_yuefei 评论(0) 有726人浏览 2016-04-23 15:58

最近博客热门TAG

浏览器(34332) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics