-
云计算--hadoop
收藏logo来源古希腊神话:一只巨龟驮着四头大象,四头大象的背上是宇宙。 hadoop就是处理巨大数据的克星
最近更新文章
007_hadoop中MapReduce应用案例_1_数据去重
前面介绍了复杂的MapReduce Job流在实际中的应用方法:006_hadoop中MapReduce详解_3
这节主要是通过实例来分析MapReduce在实际中的应用,从中得到一些启发,在项目开发中,设计MapReduce往往是比较复杂的。我们先通过简单的实例入手后面慢慢加深。
先简单说一下后面还会出现什么实例吧:
1.数据排序-->partition
2.找隔代关系--> ...
006_hadoop中MapReduce详解_3
前面介绍了什么是MapReduce,然后通过一个简单的例子来说明MapReduce的流程。但都是针对单个Map函数和Reduce函数。在实际业务中可能会很复杂,可能含有 ...
005_hadoop中MapReduce详解_2
前面介绍了的MapReduce的入门。利用了一个hadoop自带的例子来说明MapReduce的流程。现在我们自己动手写一个小例子来锻炼一下。
问题描述:现在有一个文件,文件内容如下:
黄晓明 89
刘杰 48
黄晓明 78
郑爽 90
……
求学生的平均成绩?
分析:
1.在Map阶段我们的输入可以每行读取,生成类似<行号,行内容>即:
<1,黄晓明 89 ...
004_hadoop中MapReduce详解_1
1.什么是MapReduce
MapReduce是Google公司的核心计算模型,我在前面提到过,Google的三大论文。hadoop受到Google的启发开发出自己的MapReduce框架,基于这个框架写出的应用程序能够在上千台计算机上组成大型集群,并以一种可靠容错的方式并行处理上T级别的数据,实现hadoop在集群上的数据和任务并行计算与处理1.一个MapReduce作业通常会把输入的数据集 ...
003_HDFS详解
003_HDFS详解
其实应该先来教大家怎么样搭建完全分布式的,由于时间原因,以后再补上。
这篇主要聊一下Hadoop分布式文件系统——HDFS
大纲:
1.HDFS设计目标
2.HDFS里面的NameNode和DataNode
3.操作HDFS的两种方式
1.HDFS设计目标
硬件错误
硬件错误是常态而不是异常。(每每读这句我就想到了:程序员加班是常态不是异常)HDFS可能由 ...
002_看大纲_hadoop大纲
002_看大纲_hadoop大纲
通过前面一节可以了解一个大概,知道云计算的含义和hadoop的生态体系
知识链接:001_扎马步_初识hadoop
Hadoop有两大部分:HDFS+MapReduce
其中HDFS实现分布式存储的底层支持,Mapreduce来实现分布式并行计算。
HDFS采用主从结构模型。一个master,若干个slave。对应到集群中由一个NameNode和若干 ...
001_扎马步_初识hadoop
练功就要从扎马步开始!就算得到九阴真经基础练不好,那也是竹篮打水一场空,所以我们从基础聊起……
大纲:
介绍什么是云计算
介绍hadoop的由来
介绍hadoop的生态体系
1.什么是云计算比较官方的描述:云计算(英语:Cloud Computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。典型的云计算提供商往往提供通用的网络业务 ...