最新文章列表

浅谈大数据平台演变(转)

一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性,以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一。Hadoop能够满足大部分的离线存储和离线计 ...
dalan_123 评论(0) 有550人浏览 2015-09-21 22:51

Memcached和Redis区别

Memcached和Redis作为两种Inmemory的key-value数据库,在设计和思想方面有着很多共通的地方,功能和应用方面在很多场合下(作为分布式缓存服务器使用等) 也很相似,在这里把两者放在一起做一下对比的介绍    基本架构和思想   首先简单介绍一下两者的架构和设计思路   Memcached  
bobohenda 评论(0) 有77人浏览 2015-09-18 21:35

Mapreduce《案例之数据去重复》

Mapreduce《案例之数据去重复》 源数据: a.txt内容: 2012-3-1 b 2012-3-2 a 2012-3-3 b 2012-3-4 d 2012-3-5 a 2012-3-6 c 2012-3-7 d 2012-3-3 c   b.txt内容: 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-4 d 2012- ...
bigSeven 评论(0) 有1011人浏览 2015-08-25 17:16

Mapreduce《案例之平均分》

Mapreduce《案例之数据排序》 数据源: a.txt 内容: aaa 120 bbb 100 ccc 130 ddd 150   b.txt内容: aaa 121 bbb 101 ccc 131 ddd 150   c.txt内容 aaa 119 bbb 99 ccc 129 ddd 150     输出结果: aaa120 bbb100 c ...
bigSeven 评论(0) 有574人浏览 2015-08-15 16:49

Mapreduce《案例之两表连接》

Mapreduce《案例之两表连接》 数据源: a.txt内容   addressed addressname 1 Beijing 2 Guangzhou 3 Shenzhen 4 Xian   b.txt内容 factoryname addressed BeijingRedStar 1 ShenzhenThunder 3 GuangzhouHonda 2 Beij ...
bigSeven 评论(0) 有676人浏览 2015-08-15 16:44

Mapreduce《案例之内连接》

Mapreduce《案例之内连接》   数据源: child parent Tom Lucy Tom Jack Jone Lucy Jone Jack Lucy Mary Lucy Ben Jack Alice Jack Jesse Terry Alice Terry Jesse Philip Terry Philip Alma Mark Terry Mark ...
bigSeven 评论(0) 有679人浏览 2015-08-15 16:40

Mapreduce《案例之倒排索引》

Mapreduce《案例之倒排索引》 源数据: 1)file1:   MapReduce is simple       2)file2:   MapReduce is powerful is simple       
bigSeven 评论(0) 有887人浏览 2015-08-15 16:36

HBase 中mapreduce join的使用

首先介绍常用的几种 mapreduce 方法 reduce side join reduce side join是一种最简单的join方式,其主要思想如下: 在map阶段,map函数同时读取两个文件File1和File2, ...
snwz 评论(0) 有1034人浏览 2015-08-06 16:48

MapReduce详解

转载请出自出处:http://eksliang.iteye.com/blog/2228705 一.Hadoop1.0中MapReduce的组成 1.从功能模块角度 客户端:提交MapReduce作业; JobTracker: 1.作业调度: ...
eksliang 评论(0) 有3050人浏览 2015-07-20 11:23

napreduce shuffle 过程记录

           在我看来 hadoop的核心是mapreduce,而mapreduce的核心则是 shuffle,在我们需要优化mapreduce,提高mapreduce效率时,需要优化的核心代码都在这个shuffle过程。        我从网上拉过来一张图,加上自己的标注来详细记录一下该过程,以便后期优化代码做一个记录 mapreduce整个执行过程如下如所示 其中1、2、3、4.... ...
snwz 评论(0) 有771人浏览 2015-07-10 11:23

MapReduce和Hive支持递归子目录作为输入

关键字:MapReduce、Hive、子目录、递归、输入、Input、mapreduce.input.fileinputformat.input.dir.recursive、hive.mapred.supports.subdirectories     一般情况下,传递给MapRe ...
superlxw1234 评论(0) 有3237人浏览 2015-07-08 14:41

Pig0.15集成Tez,让猪飞起来

1,Tez是什么? Tez是Hortonworks公司开源的一种新型基于DAG有向无环图开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能,看下面一张图,就能说明问题: 2,Tez能干什么? 上图已经说明问题了,如果将我们的Hive,或者Pig运行在Tez之上,那么速度会有几倍的提升,当然这仅仅是相对MapReduce来讲的,因为Spark这种分布式内存计 ...
qindongliang1922 评论(0) 有1836人浏览 2015-06-29 19:45

Hadoop2.6.0-cdh5.4.1源码编译安装

版本使用范围,大致 与Apache Hadoop编译步骤一致大同小异,因为CDH的Hadoop的本来就是从社区版迁过来的,所以,这篇文章同样适合所有的以Apache Hadoop为原型的其他商业版本的hadoop编译,例如,Cloudera(CDH)的hadoop和Hortonworks(HDP)的的hadoop编译,下面开工: 1,环境准备(Cenots6.x,其他的大同小异) (1)yum安 ...
qindongliang1922 评论(1) 有5580人浏览 2015-06-25 21:40

云计算(一)

:D 自从要好好的来学习云计算以来,就一直尽量在空余大量内阅读相关各种书籍与技术博客,看了久了,也该自己来写写一些了。云计算这种新事物总是很神奇,感觉上就觉得很高大上。现在是到自己来学习了,总是克服了一些思想上的困难总算是入了一点点门了吧。 HDFS框架 一、前提和设计目标 1、硬件错误是常态,而非异常情况,这种设计和我们之前写代码一直假设程序环境都是完美无缺的情况下的是完全不一样的。HDF ...
星之空 评论(0) 有398人浏览 2015-06-12 21:44

转:hive表Join的倾斜问题以及解决方法

写HQL语句的时候常常会遇到表Join的情况,一个简单的Join会被Hive解释成一个MapReduce任务,Map端分别读取两个表的数据,Reduce做真正的Join操作。 如果执行的过程中,如果发现有些Reduce任务比其他的Reduce任务慢很多,往往是发生了倾斜问题。 问题分析   select a.*, b.cat_name from dim_a ...
tobyqiu 评论(0) 有1987人浏览 2015-05-25 10:24

MapReduce工作原理图文详解

目录:1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程   正文 1.MapReduce作业运行流程 下面贴出我用visio2010画出的流程示意图:       流程分析: 1.在客户端启动一个作业。 2.向JobTracker请求一个Job ID。 3.将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包 ...
沙漠绿树 评论(0) 有1127人浏览 2015-05-13 14:01

我是如何向老婆解释MapReduce的

昨天,我在Xebia印度办公室发表了一个关于MapReduce的演说。演说进行得很顺利,听众们都能够理解MapReduce的概念(根据他们的反馈)。我成功地向技术听 ...
沙漠绿树 评论(0) 有967人浏览 2015-05-13 13:55

基于 Hive 的文件格式:RCFile 简介及其应用

Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高。 1、hadoop 文件格 式简介 目前 hadoop 中流行的文件格式有如下几种: (1 ) Seque nceFile SequenceFile是Hadoop API 提 ...
ych0108 评论(0) 有4062人浏览 2015-05-06 13:51

Hadoop2.2如何集成Apache Pig0.12.1?

散仙假设你的Hadoop环境已经安装完毕 (1)到https://archive.apache.org/dist/pig/下载对应的tar包,如果是hadoop0.20.x之前的版本,则直接可以用,如果Hadoop2.x之后的,则需要重新编译,在pig的根目录下执行如下命令: ant clean jar-withouthadoop -Dhadoopversion=23 否则执行M ...
qindongliang1922 评论(0) 有991人浏览 2015-05-01 16:48

最近博客热门TAG

浏览器(34331) Blog(32212) Google(26471) 网络应用(23512) IE(21696) 互联网(13881) QQ(11035) Firefox(9275) 网络协议(9099) 搜索引擎(8705) 百度(7940) BBS(4716) Gmail(3793) 防火墙(3687) Chrome(3205) 360(3012) 云计算(2849) 腾讯(2715) Yahoo(2236) WordPress(2094)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics