Hadoop入门实验

jlins_you

浏览: 300618 次

最近访客更多访客>>

金易aa

yekong1225

nlskyfree

hufu321

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop 专题

hadoop

一、实验目的

了解Hadoop 的 MapeReduce 工作原理

二、实验内容

实现基于单机的伪分布式运行模拟

三、实验需要准备的软件和源

1、 Jdk1.6 以上下载地址： http://www.oracle.com/technetwork/java/javase/downloads/index.html

2、 Cygwin 下载地址： http://www.cygwin.com/

3、稳定版 hadoop 下载地址： http://hadoop.apache.org/common/releases.html#Download

四、实验步骤

1、了解 Hadoop 工作机制

a、 Hadoop 整体框架运行机制介绍

请参见http://hi.baidu.com/wongxuelei/blog/item/c1642050cfb56d481138c2fd.html

b、 Hadoop 中 MapReduce 部分执行流程

请参见http://www.blogjava.net/shenh062326/archive/2011/01/14/342959.html

c、 Hadoop 在线中文技术文档

请参见http://hadoop.apache.org/common/docs/r0.18.2/cn/

个人意见：

a和 b 说的非常详细，刚入门可以大体了解 Hadoop 的 HDFS 和 MapeReduce 工作框架，等做完实验后再回过头来看这个会更清楚； c 上有实例的说明和代码。

2、安装 JDK 到本地机器

安装目录最好不要有空格（如果有在配置Hadoop 的 JAVA_HOME 时有点麻烦，下面会具体介绍）

3、安装 Cygwin

请参见《Hadoop 开发者入门》第 11 页 —— > 在 Windows 上安装 Hadoop 教程

个人意见：

a、注意选择上面说的需在 Cygwin 中安装的包；

b、上面说到的 http://www.cygwin.cn 好像链接不上了，目前内陆最快的是源有

http://mirrors.163.com/cygwin/ http://mirrors.sohu.com/cygwin/ 会到30 k/s 左右，其他的速度一般只有 3 ～ 5 k/s ；

c、如果没装成功，最好运行 regedit.exe 进入注册表，删除 Cygwin 文件，目录所在位置如图 1 ；

d、环境变量配置仅需把平时我们陪 JDK 的方法配好， Cygwin 仅需把 bin 所在目录加入， usr 下的不用配；

e、安装好 sshd 后，该服务可以在装好的 Cygwin 中输入 net start sshd 命令启动。

4、安装 Hadoop

a、下载 Hadoop 的稳定版本，我选择的是 hadoop-0.18.3.tar.gz （最新版本不太好用），然后解压到任意盘下；

b、配置 Hadoop 用于在单机环境上运行的配置文件在最后，来源http://hi.baidu.com/shirdrn/blog/item/33c762fecf9811375c600892.html

注意事项：

a、在配置完 JAVA_HOME 后，如果路径有空格，运行 $ bin/hadoop namenode -format命令也可能会出错，最好的办法是将Windows 下的 JDK 映射到 Cygwin 中，命令如下：

LN -s /cygdrive/c/Program\ Files/Java/<jre name> /usr/local/<jre name>

其中

/cygdrive/c/Program\ Files/Java/<jre name>表示在Windows 中的 JDK 路径，

/usr/local/<jre name>表示你想映射到的Cygwin 路径。

然后在把JAVA_HOME 配置成 export JAVA_HOME="/usr/local/<jre name>"

b、运行“ $ bin/hadoop dfs -put ./input input”命令时可能会出现让你把hadoop-site.xml中的“ localhost:9000”改成“ hdfs:\\localhost:9000”的问题。未解决，据网上了解说是因为单机运行的问题。

来源http://hi.baidu.com/shirdrn/blog/item/33c762fecf9811375c600892.html

首先进行Hadoop 配置：

1、 conf/hadoop-env.sh 文件中最基本需要指定 JAVA_HOME ，例如我的如下：

export JAVA_HOME="D:\Program Files\Java\jdk1.6.0_07"

如果路径中存在空格，需要使用双引号。

2、只需要修改 conf/hadoop-site.xml 文件即可，默认情况下， hadoop-site.xml 并没有被配置，如果是基于单机运行，就会按照 hadoop-default.xml 中的基本配置选项执行任务。

将hadoop-site.xml 文件修改为如下所示：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
    <name>fs.default.name</name>
    <value>localhost:9000</value>
</property>
<property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
</property>
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
</configuration>

实现过程

1、认证配置

启动cygwin ，同时使用下面的命令启动 ssh ：

$ net start sshd

接着，需要对身份加密认证这一部分进行配置，这也是非常关键的，因为基于分布式的多个Datanode 结点需要向 Namenode 提供任务执行报告信息，如果每次访问 Namenode 结点都需要密码验证的话就麻烦了，当然我要说的就是基于无密码认证的方式的配置，可以参考我的其他文章。

生成RSA 公钥的命令如下：

$ ssh-keygen

上面执行到如下步骤时需要进行设置：

Enter file in which to save the key (/home/SHIYANJUN/.ssh/id_rsa):

直接按回车键即可，按照默认的选项将生成的RSA 公钥保存在 /home/SHIYANJUN/.ssh/id_rsa 文件中，以便结点之间进行通讯认证。

继续执行，又会提示进行输入选择密码短语passphrase ，在如下这里：

Enter passphrase (empty for no passphrase):

直接按回车键，而且一定要这么做，因为空密码短语就会在后面执行过程中免去结点之间通讯进行的认证，直接通过RSA 公钥 ( 事实上，我们使用的是 DSA 认证，当然 RSA 也可以进行认证，继续看后面 ) 认证。

RSA公钥主要是对结点之间的通讯信息加密的。如果 RSA 公钥生成过程如上图，说明正确生成了 RSA 公钥。

接着生成DSA 公钥，使用如下命令：

$ ssh-keygen -t dsa

然后，需要将DSA 公钥加入到公钥授权文件 authorized_keys 中，使用如下命令：

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

到此，就可以进行Hadoop 的运行工作了。

2、 Hadoop 处理的数据文件准备

我使用的是hadoop-0.16.4 版本，直接拷贝到 G:\ 根目录下面，同时，我的 cygwin 直接安装在 G:\Cygwin 里面。

在目录G:\hadoop-0.16.4 中创建一个 input 目录，里面准备几个 TXT 文件，我准备了 7 个，文件中内容就是使用空格分隔的多个英文单词，因为是运行 WordCount 这个例子，后面可以看到我存入了多少内容。

3、运行过程

下面，切换到G:\hadoop-0.16.4 目录下面

$ cd http://www.cnblogs.com/cygdrive/g/hadoop-0.16.4

其中通过cygdrive( 位于 Cygwin 根目录中 ) 可以直接映射到 Windows 下的各个逻辑磁盘分区中。

在执行任务中，使用HDFS ，即 Hadoop 的分布式文件系统，因此这时要做的就是格式化这个文件系统，使用下面命令可以完成：

$ bin/hadoop namenode -format

此时，应该启动Namenode 、 Datanode 、 SecondaryNamenode 、 JobTracer ，使用这个命令启动：

$ bin/start-all.sh

如果你没有配置前面ssh 的无密码认证，或者配置了但是输入了密码短语，那么到这里就会每启动一个进程就提示输入密码，试想，如果有 N 多进程的话，那岂不是要命了。

然后，需要把上面我们在本地的input 目录中准备的文件复制到 HDFS 中的 input 目录中，以便在分布式文件系统管理这些待处理的数据文件，使用下面命令：

$ bin/hadoop dfs -put ./input input

执行上述命令如果没有信息输出就复制成功。

现在，才可以执行Hadoop 自带的 WordCount 列子了，使用下面命令开始提交任务，进入运行：

$ bin/hadoop jar hadoop-0.16.4-examples.jar wordcount input output

最后面两个参数分别为数据输入目录和数据处理完成后的输出目录，这里，不能在你的G:\hadoop-0.16.4 目录中存在 output 这个目录，否则会报错的。

最后查看执行任务后，处理数据的结果，使用的命令行如下所示：

$ bin/hadoop dfs -cat output/part-00000

最后，停止Hadoop 进程，使用如下命令：

$ bin/stop-all.sh

以上就是全部的过程了。

更多信息请查看 java进阶网 http://www.javady.com

分享到：

分布式计算开源框架Hadoop入门实践 | 如何通过屏幕密度(density)自动调整高度

2012-04-08 09:23
浏览 1055
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论