- 浏览: 298113 次
文章分类
最新评论
-
feargod:
...
ActivityGroup的子activity响应back事件的顺序问题 -
hoarhoar:
谢谢你,终于解决了,我真是受够了,总是45秒钟,真是疯了。
youku 的广告必须要屏蔽 -
lilai:
...
youku 的广告必须要屏蔽 -
aijuans2:
...
youku 的广告必须要屏蔽 -
weiwo1978:
说的非常好,mark
SELECT语句执行的顺序
一、实验目的
了解Hadoop 的 MapeReduce 工作原理
二、实验内容
实现基于单机的伪分布式运行模拟
三、实验需要准备的软件和源
1、 Jdk1.6 以上 下载地址: http://www.oracle.com/technetwork/java/javase/downloads/index.html
2、 Cygwin 下载地址: http://www.cygwin.com/
3、稳定版 hadoop 下载地址: http://hadoop.apache.org/common/releases.html#Download
四、实验步骤
1、了解 Hadoop 工作机制
a、 Hadoop 整体框架运行机制介绍
请参见http://hi.baidu.com/wongxuelei/blog/item/c1642050cfb56d481138c2fd.html
b、 Hadoop 中 MapReduce 部分执行流程
请参见http://www.blogjava.net/shenh062326/archive/2011/01/14/342959.html
c、 Hadoop 在线中文技术文档
请参见http://hadoop.apache.org/common/docs/r0.18.2/cn/
个人意见:
a和 b 说的非常详细,刚入门可以大体了解 Hadoop 的 HDFS 和 MapeReduce 工作框架,等做完实验后再回过头来看这个会更清楚; c 上有实例的说明和代码。
2、安装 JDK 到本地机器
安装目录最好不要有空格(如果有在配置Hadoop 的 JAVA_HOME 时有点麻烦,下面会具体介绍)
3、安装 Cygwin
请参见《Hadoop 开发者入门》第 11 页 —— > 在 Windows 上安装 Hadoop 教程
个人意见:
a、注意选择上面说的需在 Cygwin 中安装的包;
b、上面说到的 http://www.cygwin.cn 好像链接不上了,目前内陆最快的是源有
http://mirrors.163.com/cygwin/ http://mirrors.sohu.com/cygwin/ 会到30 k/s 左右,其他的速度一般只有 3 ~ 5 k/s ;
c、如果没装成功,最好运行 regedit.exe 进入注册表,删除 Cygwin 文件,目录所在位置如图 1 ;
d、环境变量配置仅需把平时我们陪 JDK 的方法配好, Cygwin 仅需把 bin 所在目录加入, usr 下的不用配;
e、安装好 sshd 后,该服务可以在装好的 Cygwin 中输入 net start sshd 命令启动。
4、安装 Hadoop
a、下载 Hadoop 的稳定版本,我选择的是 hadoop-0.18.3.tar.gz (最新版本不太好用),然后解压到任意盘下;
b、配置 Hadoop 用于在单机环境上运行的配置文件在最后, 来源http://hi.baidu.com/shirdrn/blog/item/33c762fecf9811375c600892.html
注意事项:
a、在配置完 JAVA_HOME 后,如果路径有空格,运行 $ bin/hadoop namenode -format命令也可能会出错,最好的办法是将Windows 下的 JDK 映射到 Cygwin 中,命令如下:
LN -s /cygdrive/c/Program\ Files/Java/<jre name> /usr/local/<jre name>
其中
/cygdrive/c/Program\ Files/Java/<jre name>表示在Windows 中的 JDK 路径,
/usr/local/<jre name>表示你想映射到的Cygwin 路径。
然后在把JAVA_HOME 配置成 export JAVA_HOME="/usr/local/<jre name>"
b、运行“ $ bin/hadoop dfs -put ./input input”命令时可能会出现让你把hadoop-site.xml中的“ localhost:9000”改成“ hdfs:\\localhost:9000”的问题。未解决,据网上了解说是因为单机运行的问题。
来源http://hi.baidu.com/shirdrn/blog/item/33c762fecf9811375c600892.html
首先进行Hadoop 配置: 1、 conf/hadoop-env.sh 文件中最基本需要指定 JAVA_HOME ,例如我的如下:
2、只需要修改 conf/hadoop-site.xml 文件即可,默认情况下, hadoop-site.xml 并没有被配置,如果是基于单机运行,就会按照 hadoop-default.xml 中的基本配置选项执行任务。 将hadoop-site.xml 文件修改为如下所示:
1、认证配置 启动cygwin ,同时使用下面的命令启动 ssh :
接着,需要对身份加密认证这一部分进行配置,这也是非常关键的,因为基于分布式的多个Datanode 结点需要向 Namenode 提供任务执行报告信息,如果每次访问 Namenode 结点都需要密码验证的话就麻烦了,当然我要说的就是基于无密码认证的方式的配置,可以参考我的其他文章。 生成RSA 公钥的命令如下:
上面执行到如下步骤时需要进行设置:
继续执行,又会提示进行输入选择密码短语passphrase ,在如下这里:
RSA公钥主要是对结点之间的通讯信息加密的。如果 RSA 公钥生成过程如上图,说明正确生成了 RSA 公钥。 接着生成DSA 公钥,使用如下命令:
然后,需要将DSA 公钥加入到公钥授权文件 authorized_keys 中,使用如下命令:
到此,就可以进行Hadoop 的运行工作了。 2、 Hadoop 处理的数据文件准备 我使用的是hadoop-0.16.4 版本,直接拷贝到 G:\ 根目录下面,同时,我的 cygwin 直接安装在 G:\Cygwin 里面。 在目录G:\hadoop-0.16.4 中创建一个 input 目录,里面准备几个 TXT 文件,我准备了 7 个,文件中内容就是使用空格分隔的多个英文单词,因为是运行 WordCount 这个例子,后面可以看到我存入了多少内容。 3、运行过程 下面,切换到G:\hadoop-0.16.4 目录下面
在执行任务中,使用HDFS ,即 Hadoop 的分布式文件系统,因此这时要做的就是格式化这个文件系统,使用下面命令可以完成:
此时,应该启动Namenode 、 Datanode 、 SecondaryNamenode 、 JobTracer ,使用这个命令启动:
如果你没有配置前面ssh 的无密码认证,或者配置了但是输入了密码短语,那么到这里就会每启动一个进程就提示输入密码,试想,如果有 N 多进程的话,那岂不是要命了。 然后,需要把上面我们在本地的input 目录中准备的文件复制到 HDFS 中的 input 目录中,以便在分布式文件系统管理这些待处理的数据文件,使用下面命令:
现在,才可以执行Hadoop 自带的 WordCount 列子了,使用下面命令开始提交任务,进入运行:
最后查看执行任务后,处理数据的结果,使用的命令行如下所示:
最后,停止Hadoop 进程,使用如下命令:
以上就是全部的过程了。
|
更多信息请查看 java进阶网 http://www.javady.com
发表评论
-
hadoop FSNamesystem中的recentInvalidateSets
2012-04-20 20:28 1019今天早就回来了,然后偷懒了2个小时,现在才开始分析代码, ... -
hadoop namenode后台jetty web
2012-04-20 20:28 1700现在开始分析namenode启动时开启的第2类线程, ... -
hadoop namenode format做了什么?
2012-04-18 20:58 1166一看到format就和磁盘格式化联想到一起,然后这个fo ... -
hadoop分布式配置(服务器系统为centos5,配置时使用的用户是root)
2012-04-14 21:19 1069目前我们使 ... -
hadoop系列A:多文件输出
2012-04-14 21:18 1498package org.myorg; import ... -
Hadoop 安装问题和解决方案
2012-04-10 13:21 1267前几天在Window和Linux主机安装了Hadoop, ... -
运行Hadoop遇到的问题
2012-04-10 13:19 1619运行Hadoop遇到的问题 1, 伪分布式模式 ... -
运行Hadoop遇到的问题
2012-04-10 13:19 0运行Hadoop遇到的问题 1, 伪分布式模式 ... -
hadoop使用过程中的一些小技巧
2012-04-09 10:16 1176hadoop使用过程中的一些小技巧 ------------- ... -
运行hadoop时的一些技巧
2012-04-09 10:14 772//用来给key分区的,需要实现Partitioner接口 ... -
hive相关操作文档收集
2012-04-08 10:51 0How to load data into Hive ... -
hive sql doc
2012-04-08 10:51 0记录2个常用的hive sql语法查询地 官方 ht ... -
hive Required table missing : "`DBS`" in Catalog "" Schema "
2012-04-08 10:51 0最近需要提取一些数据,故开始使用hive,本机搭建了一个hiv ... -
HDFS数据兼容拷贝
2012-04-08 10:50 0系统中使用了hadoop 19.2 20.2 2个版本,为啥有 ... -
hdfs 简单的api 读写文件
2012-04-08 10:50 0Java代码 import ... -
hbase之htable线程安全性
2012-04-22 15:22 1198在单线程环境下使用hbase的htable是没有问题,但是突然 ... -
hbase之scan的rowkey问题
2012-04-22 15:22 1780最近使用到hbase做存储,发现使用scan的时候,返回的ro ... -
datanode启动开启了那些任务线程
2012-04-22 15:22 1095今天开始分析datanode,首先看看datanode开启了哪 ... -
namenode这个类的主要功能
2012-04-22 15:22 1552今天来总看下namenode这个类的主要功能 首先看下这个类 ... -
hadoop监控
2012-04-22 15:21 1601通过从hadoop的 hadoop-metrics文件中就可以 ...
相关推荐
Linux运维入门Hadoop实验参照手册二(安装Hadoop)
【分布式计算开源框架Hadoop入门实践】 Hadoop是Apache开源组织开发的一款分布式计算框架,它在业界得到了广泛应用,尤其在大型互联网公司如亚马逊、Facebook和Yahoo等中扮演着重要角色。Hadoop的核心设计理念是...
2. 安装Hadoop:将Hadoop安装到CentOS系统中,包括下载Hadoop软件包、配置Hadoop环境变量、设置HDFS和MapReduce等核心组件。 3. 运行Hadoop:启动Hadoop集群,并运行一些基本的Hadoop命令来验证安装是否成功,如...
在本套“Hadoop大数据管理实验详细参考文档”中,我们涵盖了从初识Hadoop到进行实际操作的全过程,旨在帮助新手快速入门大数据处理的世界。Hadoop是一个开源框架,主要用于处理和存储海量数据,它的核心组件包括HDFS...
根据提供的文件信息,以下是有关Hadoop入门进阶课程中Hive介绍和安装部署的知识点: 1. Hive介绍: - Hive是Facebook开发的数据仓库工具,运行于Hadoop集群之上。 - 提供类SQL的HQL(Hive Query Language)查询...
【描述】:本实验旨在让学生掌握如何在Hadoop平台上部署并运行WordCount程序,这是Hadoop入门的经典案例,旨在统计文本中的单词出现次数。通过实践,学生将了解Hadoop分布式文件系统(HDFS)的工作原理以及MapReduce...
单机伪分布模式是Hadoop初学者入门的常见方式,它模拟了分布式环境,但所有进程都在同一台机器上运行。这种模式下,Hadoop的各个组件如NameNode、DataNode、JobTracker和TaskTracker等都在一个Java进程中运行,方便...
**Map-Reduce入门** Map-Reduce是Hadoop的另一核心组件,用于大规模数据集的并行计算。它分为两个主要阶段:Map阶段和Reduce阶段。 1. **Map阶段**:在这个阶段,输入数据被分割成多个小片(split),然后分配给...
Hadoop是一个流行的开源框架,允许分布在商业硬件上的分布式存储和计算。Hadoop的核心部分是HDFS(Hadoop ...此外,通过Hadoop入门进阶课程的实践,可以更深入地理解和掌握HDFS的操作以及Hadoop整个生态系统的应用。
### Hadoop入门知识点详解 #### 一、Hadoop概述与目标 **Hadoop**是一种能够处理海量数据的大规模分布式计算框架。本课程旨在使学员掌握Hadoop的基本安装配置与管理,能够熟练地在Hadoop环境中处理数据,并具备...
7. **WordCount程序**:这是Hadoop的入门示例,用于统计文本文件中单词的出现次数。程序包括Mapper和Reducer两个阶段,使用Java编写。Mapper将输入文本分割成单词,Reducer则计算每个单词的总数并写入输出文件。 8....
Hadoop的快速入门需要掌握其架构和运行原理。对于初学者来说,理解HDFS、MapReduce、YARN等核心组件的工作方式是关键。此外,了解如何在集群上部署和配置Hadoop,以及如何运行基本的MapReduce作业也是必要的。通过...
该系列课程由实验楼整理编写,提供了学习Hadoop的新方式,即可以边看博客边上机实验。课程地址为***。需要注意的是,该系列课程所使用的安装包、测试数据和代码都可以在百度网盘下载,具体下载地址为***。 综上所述...
在本实验中,我们将深入探讨Hadoop的安装过程及其核心组件HDFS...总之,Hadoop的安装和HDFS基础实践是大数据技术入门的关键步骤。通过这次实验,你将掌握Hadoop的基本操作,为后续的大数据处理和分析打下坚实基础。
WordCount是Hadoop入门的经典示例,用于统计文本中单词出现的次数。本项目将详细介绍如何在Hadoop环境中成功运行WordCount程序,以及涉及到的相关知识点。 首先,`Hadoop`是一个基于Java的框架,设计用来处理和存储...
主要分为以下几个部分:Hadoop环境准备与本地模式、Hadoop伪分布式集群模式、Hadoop完全分布式集群模式、HDFS Shell命令以及MapReduce入门案例wordcount。 ### Hadoop环境准备及本地模式 #### 实验目的 - 掌握...