- 浏览: 50371 次
最新评论
文章列表
《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》第2章Hadoop配置信息处理,本章从Windows和基于Java
Properties配置文件开始,分析了Hadoop使用的基于健–值对构成的、结构相对简单的XML配置文件,以及相应的处理类Configuration,特别是Configuration类中的资源加载、资源合并和属性扩展等比较重要的处理过程。本节为配置文件简介。
第二部分 Common的实现
本部分内容
Hadoop配置信息处理
- 2013-07-18 11:17
- 浏览 252
- 评论(0)
1.4 小结
大数据以及相关的概念、技术是业界和学界最近关注的热点内容,Hadoop在其中扮演了十分重要的角色。本节首先对Hadoop进行了简单的介绍,展示了蓬勃发展的Hadoop生态系统和Hadoop的简单历史。并在此基础上,向读者介绍了阅读分析Hadoop所必需的开发环境的搭建过程,包括:安装与配置JDK、安装与配置Eclipse、安装与配置辅助工具的工作。最后,在上述环境中,从零开始建立了一个包含Hadoop Common和HDFS的源码环境,为进一步学习Hadoop源代码做好准备。
- 2013-07-18 11:14
- 浏览 152
- 评论(0)
1.3 准备Hadoop源代码
在Hadoop的官方网站(http://hadoop.apache.org/)中,可以找到Hadoop项目相关的信息,如图1-14所示。
- 2013-07-18 10:43
- 浏览 206
- 评论(0)
1.2 准备源代码阅读环境
在研究一个开源项目之前,都需要安装与配置基本的开发环境和源代码的阅读环境。这一系列内容包括:安装与配置JDK、安装开发调试IDE、安装与配置相关辅助工具等。
1.2.1 安装与配置JDK
在分 ...
- 2013-07-18 10:14
- 浏览 280
- 评论(0)
第一部分 环境准备
本部分内容
源代码环境准备
第1章 源代码环境准备
数据!数据!数据!
- 2013-07-18 09:45
- 浏览 278
- 评论(0)
1、创建HDFS目录
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
public class MakeDir {
public static void main(String[] args) throws IOException {
Configuration conf = new Configuration();
FileSyste ...
- 2013-07-17 17:31
- 浏览 245
- 评论(0)
VI常用技巧
VI命令可以说是Unix/Linux世界里最常用的编辑文件的命令了,但是因为它的命令集众多,很多人都不习惯使用它,其实您只需要掌握基本命令,然后加以灵活运用,就会发现它的优势,并会逐渐喜欢使用这种方法。本文旨在介绍VI的一些最常用命令和高级应用技巧。1.vi 模式 a) 一般模式: vi 处理文件时,一进入该文件,就是一般模式了. b) 编辑模式:在一般模式下可以进行删除,复制,粘贴等操作,却无法进行编辑操作。等按下‘i,I,o,O,a,A,r,R’等 字母之后才能进入编辑模式.通常在linux中,按下上述字母时,左下方会出现'INSERT'或者‘REPLACE’字样,才可以 ...
- 2013-07-15 10:56
- 浏览 262
- 评论(0)
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class MaxTemperat ...
- 2013-07-12 15:21
- 浏览 227
- 评论(0)
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class MaxTemperatureReducer
extends Reducer<Text, IntWritable, Text, IntWritable> {
@Override
public void reduce(Text key, Iterable ...
- 2013-07-12 14:17
- 浏览 247
- 评论(0)
Format of a National Climate Data Center record:
( The line has been split into multiple lines to show each field; in the real file,
fields are packed into one line with no delimiters.)
0057
332130 # USAF weather station identifier
99999 # WBAN weather station identifier
19500101 # observat ...
- 2013-07-11 16:44
- 浏览 191
- 评论(0)
MapReduce logical data flow:
At the bottom of the diagram is a Unixpipeline, which mimics the whole MapReduce flow .
- 2013-07-11 16:33
- 浏览 303
- 评论(0)
Hadoop does its best to run the map task on a node where the input data resides in
HDFS. This is called the data locality optimization because it doesn’t use valuable clus-
ter bandwidth. Sometimes, however, all three nodes hosting the HDFS block replicas
for a map task’s input split are running o ...
- 2013-07-11 15:17
- 浏览 311
- 评论(0)
用户可以配置和向框架提交 MapReduce 任务(简言之,作业)。一个 MapReduce 作业包括 Map 任务,shuffle过程,排序过程和一套 Reduce 任务。然后框架会管理作业的分配和执行,收集输出和向用户传递作业结果。
MapReduce 是单个 jobstracker 和多个 tasktracker 的组合。一般 jobstracker 和 HDFS 中的 namenode 在同一个节点,也可配置为单独节点;tasktracker 和 datanode 必须是同一个节点。jobstracker 是整个 MapReduce 系统的主控节点。
jobstracker 节点 ...
- 2013-07-11 14:43
- 浏览 258
- 评论(0)
¢Programmersspecify two functions:
map (k, v) → <k’, v’>*
reduce (k’, v’) → <k’, v’>*
All values with thesame key are sent to the same reducer
¢The execution framework handles everything else…
What’s“everything else”?
MapReduce “Runtime”
¢Handlesscheduling
Assigns w ...
- 2013-07-11 08:40
- 浏览 290
- 评论(0)