hodoop 伪分布式环境配置 -

xuyuanshuaaa

浏览: 399566 次
性别:
来自: 大连

最近访客更多访客>>

huawei123123123

枼子纷飞

huichengongzi

coolworld

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hodoop 伪分布式环境配置

博客分类：

Hadoop

Hadoop SSH Linux XSL XML

一. 概要
       经过几天的调试，终于在Linux Cent OS 5.5下成功搭建Hadoop测试环境。本次测试在一台服务器上进行伪分布式搭建。Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式，单机上的分布式并不是真正的伪分布式，而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的，两种配置也很相似，唯一不同的地方是伪分布式是在单机器上配置，数据节点和名字节点均是一个机器。虽然Hadoop的安装步骤并不复杂，但是我在安装期间还是遇到了很多琐碎的问题，现将自己搭建Hadoop的详细过程和遇到的问题记录下来。完全分布式就是一个hadoop集群，有n台机器组成，一般组织方式是：一台机器作为master，上面运行    namenode和jobtracker,另外的机器作为slave，上面运行datanode和tasktracker，至于secondaryname，可以运行在master上，也可以运行在另外一台机器上。secondaryname是namenode的一个备份里面同样保存了名字空间，和文件到文件块的map关系。建议运行在另外一台机器上，这样master死掉之后，还可以通过secondaryname所在的机器找回名字空间，和文件到文件块得map关系数据，恢复namenode。

二. 环境搭建
      搭建测试环境所需的软件包括：jdk1.6.0_20、hadoop-0.20.2.tar.gz。测试服务器操作系统Linux Cent OS 5.5。
网上说使用专门的用户hadoop操作，但是这里我是完全使用的root，方便而已。
总体的流程如下：
    1、实现linux的ssh无密码验证配置.
    2、在linux下安装jdk，并配好环境变量
    3、修改linux的机器名，并配置 /etc/hosts
    4、在windows下下载hadoop 0.20.0，并修改hadoop-env.sh，core-site.xml，hdfs-site.xml，mapred-site.xml，masters，slaves文件的配置
    5、把修改好的hadoop整个文件夹传到linux下
    6、把hadoop的bin加入到环境变量
    7、格式化hadoop，启动hadoop
    8、验证是否启动，并执行wordcount
具体如下：

1. SSH无密码验证配置
     Hadoop 需要使用SSH 协议，namenode 将使用SSH 协议启动 namenode和datanode 进程，伪分布式模式数据节点和名称节点均是本身，必须配置 SSH localhost无密码验证。
    用root用户登录，在家目录下执行如下命令：ssh-keygen -t rsa
[root@master ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): & 按回车默认路径 &
Created directory '/root/.ssh'. &创建/root/.ssh目录&
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
c6:7e:57:59:0a:2d:85:49:23:cc:c4:58:ff:db:5b:38 root@master
     通过以上命令将在/root/.ssh/ 目录下生成id_rsa私钥和id_rsa.pub公钥。进入/root/.ssh目录在namenode节点下做如下配置：
[root@master .ssh]# cat id_rsa.pub > authorized_keys
配置完毕，可通过ssh 本机IP 测试是否需要密码登录。
原理：
Hadoop需要使用SSH协议，namenode将使用SSH协议启动namenode和datanode进程，(datanode向namenode传递心跳信息可能也是使用SSH协议，这是我认为的，还没有做深入了解)。许多教程上介绍Hadoop集群配置时只说明了namenode上SSH无密码登录所有datanode，我在配置时发现必须使datanode上也能SSH无密码登录到namenode，Hadoop集群才能正常启动(也许这不是必须的）
以namenode到datanode为例子：Namenode作为客户端，要实现无密码公钥认证，连接到服务端datanode上时，需要在namenode上生成一个密钥对，包括一个公钥和一个私钥，而后将公钥复制到datanode上。当namenode通过ssh连接datanode时，datanode就会生成一个随机数并用namenode的公钥对随机数进行加密，并发送给namenode。namenode收到加密数之后再用私钥进行解密，并将解密数回传给datanode，datanode确认解密数无误之后就允许namenode进行连接了。这就是一个公钥认证过程，其间不需要用户手工输入密码。重要过程是将客户端namenode公钥复制到datanode上

2. JDK安装及Java环境变量的配置
2.1 JDK安装
     root 用户登陆，新建文件夹 /usr/program ,下载 JDK 安装包
jdk-6u13-linux-i586.bin,复制到目录/usr/ program 下，在命令行进入该目录，执行命令“./ jdk-6u20-linux-i586.bin”，命令运行完毕，将在目录下生成文件夹jdk1.6.0_20，安装完毕。
2.2 java环境变量配置
        root 用户登陆，命令行中执行命令“vi /etc/profile”,并加入以下内容，配置环境变量(注意/etc/profile 这个文件很重要，后面 Hadoop 的配置还会用到)。
# set java environment
   export JAVA_HOME=/usr/program/jdk1.6.0_20
   export JRE_HOME=/usr/program/jdk1.6.0_20/jre
   export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
   export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
在vi编辑器增加以上内容后保存退出，并执行以下命令使配置生效
    chmod +x /etc/profile ；增加执行权限
    source /etc/profile ；
配置完毕后，在命令行中输入java -version，如出现下列信息说明java环境安装成功。
java version "1.6.0_20"
Java(TM) SE Runtime Environment (build 1.6.0_20-b02)
Java HotSpot(TM) Server VM (build 16.3-b01, mixed mode)
再有就是修改linux的机器名
最好修改机器名为其ip地址，要不后来hdfs上传put文件的时候可能会出现无法连接的错误。
命令：
hostname ip
重启无效

2. Hadoop配置
   下载 hadoop-0.20.2.tar.gz，将其解压到/usr/local/hadoop 目录下，解压后目录形式是/usr/local/hadoop/hadoop-0.20.2。使用如下命令:
tar zxvf hadoop-0.19.1.tar.gz 进行hadoop压缩文件解压。
2.1   进入/usr/local/hadoop/hadoop-0.20.2/conf，配置Hadoop配置文件
2.1.1 配置hadoop-env.sh文件
添加 # set java environment
             export JAVA_HOME=/usr/program/jdk1.6.0_20
编辑后保存退出。
2.1.2 配置core-site.xml

[root@master conf]# vi core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
   <property>
     <name>fs.default.name</name>
     <value>hdfs://202.173.253.36:9000/</value>
     默认的namenode的端口为8020
   </property>
   <property>
     <name>hadoop.tmp.dir</name>
     <value>/usr/local/hadoop/hadooptmp</value>
   </property>
</configuration>

2.1.3 配置hdfs-site.xml

[root@master conf]# vi  hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
     <name>dfs.name.dir</name>
     <value>/usr/local/hadoop/hdfs/name</value>
  </property>
  <property>
     <name>dfs.data.dir</name>
     <value>/usr/local/hadoop/hdfs/data</value>
  </property>
  <property>
     <name>dfs.replication</name>
     <value>1</value>
  </property>
</configuration>

2.1.4 配置mapred-site.xml

[root@master conf]# vi mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
     <name>mapred.job.tracker</name>
     <value>202.173.253.36:9001</value>
  </property>
  <property>
     <name>mapred.local.dir</name>
     <value>/usr/local/hadoop/mapred/local</value>
  </property>
  <property>
     <name>mapred.system.dir</name>
     <value>/tmp/hadoop/mapred/system</value>
  </property>
</configuration>

1、其实core-site.xml 对应有一个core-default.xml, hdfs-site.xml对应有一个hdfs-default.xml,

mapred-site.xml对应有一个mapred-default.xml。这三个defalult文件里面都有一些默认配置，现在我们修改这三个site文件，目的就覆盖default里面的一些配置，
2、hadoop分布式文件系统的两个重要的目录结构，一个是namenode上名字空间的存放地方，一个是datanode数据块的存放地方，还有一些其他的文件存放地方，这些存放地方都是基于hadoop.tmp.dir目录的，比如namenode的名字空间存放地方就是 ${hadoop.tmp.dir}/dfs/name, datanode数据块的存放地方就是 ${hadoop.tmp.dir}/dfs/data，所以设置好hadoop.tmp.dir目录后，其他的重要目录都是在这个目录下面，这是一个根目录。我设置的是 /usr/local/hadoop/hadooptmp,当然这个目录必须是存在的。
3、fs.default.name,这个是设置namenode位于哪个机器上，端口号是什么hdfs://192.168.133.128:9000，格式一定要这样写，网上很多资料说ip地址写localhost也行，笔者建议最好写ip，因为后期讲到windows下 eclipse连接hadoop 的时候，如果写localhost，就会连接不到。
4、mapred.job.tracker，这个是设置jobtracker位于哪个机器上，端口号是什么，192.168.133.128:9001，格式和上一个不一样，这个也必须这样写，同样localhost和ip的分别和上述一样
5、dfs.replication，这个是设置数据块的复制次数，默认是3，因为笔者这里就一台机器，所以只能存在一份，就改成了1
2.1.5 配置masters文件和slaves文件
[root@master conf]# vi masters
202.173.253.36
[root@master conf]# vi slaves
202.173.253.36
注：因为在伪分布模式下，作为master的namenode与作为slave的datanode是同一台服务器，所以配置文件中的ip是一样的。

2.1.6 编辑主机名
[root@master ~]# vi /etc/hosts
# Do not remove the following line, or various programs
that require network functionality will fail.
127.0.0.1                      localhost
202.173.253.36            master
202.173.253.36            slave
注：因为是在伪分布模式下，所以master与slave是一台机

2.2 Hadoop启动
2.2.1 进入 /usr/local/hadoop/hadoop-0.20.2/bin目录下，格式化namenode
[root@master bin]# hadoop namenode -format
10/07/19 10:46:41 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = master/202.173.253.36
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 0.20.2
STARTUP_MSG:   build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20 -r 911707; compiled by 'chrisdo' on Fri Feb 19 08:07:34 UTC 2010
************************************************************/
Re-format filesystem in /usr/local/hadoop/hdfs/name ? (Y or N) Y
10/07/19 10:46:43 INFO namenode.FSNamesystem: fsOwner=root,root,bin,daemon,sys,adm,disk,wheel
10/07/19 10:46:43 INFO namenode.FSNamesystem: supergroup=supergroup
10/07/19 10:46:43 INFO namenode.FSNamesystem: isPermissionEnabled=true
10/07/19 10:46:43 INFO common.Storage: Image file of size 94 saved in 0 seconds.
10/07/19 10:46:43 INFO common.Storage: Storage directory /usr/local/hadoop/hdfs/name has been successfully formatted.
10/07/19 10:46:43 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at master/202.173.253.36
************************************************************/
2.2.2 启动hadoop所有进程
在/usr/local/hadoop/hadoop-0.20.2/bin 目录下，执行start-all.sh命令
启动完成后，可用jps命令查看hadoop进程是否启动完全。正常情况下应该有如下进程：
10910 NameNode
11431 Jps
11176 SecondaryNameNode
11053 DataNode
11254 JobTracker
11378 TaskTracker
启动之后，在/usr/local/hadoop/hadooptmp 下的dfs文件夹里会生成 data目录，这里面存放的是datanode上的数据块数据，因为笔者用的是单机，所以name 和 data 都在一个机器上，如果是集群的话，namenode所在的机器上只会有name文件夹，而datanode上只会有data文件夹。
搭建过程中，在此环节出现的问题最多，经常出现启动进程不完整的情况，要不是datanode无法正常启动，就是namenode或是TaskTracker启动异常。解决的方式如下：
1.在Linux下关闭防火墙：
1) 重启后生效
开启： chkconfig iptables on
关闭： chkconfig iptables off
2) 即时生效，重启后失效
开启： service iptables start
关闭： service iptables stop
需要说明的是对于Linux下的其它服务都可以用以上命令执行开启和关闭操作。
在开启了防火墙时，做如下设置，开启相关端口，
修改/etc/sysconfig/iptables 文件，添加以下内容：
-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT
-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 22 -j ACCEPT
开始我使用的是service方式，但是总不好用，最后使用了chkconfig重启方式，生效！
2.再次对namenode进行格式化：在/usr/local/hadoop/hadoop-0.20.2/bin 目录下执行hadoop namenode -format命令
3.对服务器进行重启
4.查看datanode或是namenode对应的日志文件，日志文件保存在/usr/local/hadoop/hadoop-0.20.2/logs目录下。仔细查看日志报错的原因，（上次日志报错的信息忘记了）解决方法是进入/usr/local/hadoop/hdfs/name 和usr/local/hadoop/hdfs/data目录下，将目录下的文件全部删除。
5.再次在/bin目录下用start-all.sh命令启动所有进程，通过以上的几个方法应该能解决进程启动不完全的问题了。

2.2.3 查看集群状态
在 bin目录下执行：hadoop dfsadmin -report
[root@master bin]# hadoop dfsadmin -report
Configured Capacity: 304427253760 (283.52 GB)
Present Capacity: 282767941632 (263.35 GB)
DFS Remaining: 282767904768 (263.35 GB)
DFS Used: 36864 (36 KB)
DFS Used%: 0%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
-------------------------------------------------
Datanodes available: 1 (1 total, 0 dead)
Name: 202.173.253.36:50010
Decommission Status : Normal
Configured Capacity: 304427253760 (283.52 GB)
DFS Used: 36864 (36 KB)
Non DFS Used: 21659312128 (20.17 GB)
DFS Remaining: 282767904768(263.35 GB)
DFS Used%: 0%
DFS Remaining%: 92.89%
Last contact: Mon Jul 19 11:07:22 CST 2010

2.3 在WEB页面下查看Hadoop工作情况
启动后可以通过以下两个页面查看节点状况和job状况
http://localhost:50070；

http://localhost:50030。
可以查看任务的执行情况

3. Hadop使用
一个测试例子wordcount
计算输入文本中词语数量的程序。WordCount在Hadoop主目录下的java程序包hadoop-0.20.2-examples.jar 中，执行步骤如下：
在/usr/local/hadoop/hadoop-0.20.2/bin/目录下进行如下操作：
执行 hadoop fs -ls命令，查看当前hdfs分布式文件系统的文件目录结构，刚执行会说no such dictionary，
你要先建一个文件夹,用命令 haoop fs -mkdir testdir ，然后再执行hadoop fs -ls，就会展示/user/root/testdir
当前用户是root，所以hdfs的根目录就是 /user/root

hadoop fs -mkdir okdir(新建目录名称，可任意命名)
离开hodoop的安全模式
bin/hadoop dfsadmin -safemode leave
在这个目录里放入文件：hadoop fs -put /usr/test_in/*.txt okdir（把本地/usr/test_in目录里的所有txt文件copy到 hdfs分布式文件系统的 /user/root/inputdir 目录里面，因为当前目录就是root 所以直接写input 就代表/user/root/inputdir）
在/usr/local/hadoop/hadoop-0.20.2下执行：
[root@master hadoop-0.20.2]# hadoop jar hadoop-0.20.2-examples.jar wordcount okdir output (提交作业，此处需注意okdir与output是一组任务，下次再执行wordcount程序，还要新建目录，不能跟okdir与output重名)

11/05/28 22:02:34 INFO input.FileInputFormat: Total input paths to process : 0
11/05/28 22:02:34 INFO mapred.JobClient: Running job: job_201105282107_0005
11/05/28 22:02:35 INFO mapred.JobClient:  map 0% reduce 0%
11/05/28 22:02:46 INFO mapred.JobClient:  map 0% reduce 100%
11/05/28 22:02:48 INFO mapred.JobClient: Job complete: job_201105282107_0005
11/05/28 22:02:48 INFO mapred.JobClient: Counters: 8
11/05/28 22:02:48 INFO mapred.JobClient:   Job Counters 
11/05/28 22:02:48 INFO mapred.JobClient:     Launched reduce tasks=1
11/05/28 22:02:48 INFO mapred.JobClient:   Map-Reduce Framework
11/05/28 22:02:48 INFO mapred.JobClient:     Reduce input groups=0
11/05/28 22:02:48 INFO mapred.JobClient:     Combine output records=0
11/05/28 22:02:48 INFO mapred.JobClient:     Reduce shuffle bytes=0
11/05/28 22:02:48 INFO mapred.JobClient:     Reduce output records=0
11/05/28 22:02:48 INFO mapred.JobClient:     Spilled Records=0
11/05/28 22:02:48 INFO mapred.JobClient:     Combine input records=0
11/05/28 22:02:48 INFO mapred.JobClient:     Reduce input records=0

执行完毕后，

[root@hadoopName hadoop-0.20.2]# hadoop fs -ls output
Found 2 items
drwxr-xr-x   - root supergroup          0 2011-05-08 05:20 /user/root/output/_logs
-rw-r--r--   1 root supergroup       1688 2011-05-08 05:21 /user/root/output/part-r-00000

可以查看运行结果
# bin/hadoop dfs -cat hellooutput/part-r-00000

a       1
are     1
day     1
fine    1
fridey  1
is      3
name    1
not     1
today   4
you     1
your    1

也可进入web界面刷新查看running job及completed job的显示。

分享到：

linux 主机名hostname解析 | 解析profile文件

2011-05-28 22:03
浏览 5489
评论(1)
分类:非技术
查看更多

1 楼 wxyjuly 2012-01-03

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hodoop 伪分布式环境配置

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hodoop 伪分布式环境配置

评论

发表评论

相关推荐

hadoop常见错误

hbase介绍

Hadoop集群网络性能优化：Hadoop机架感知实现及配置

hadoop排序和google三大论文

hadoop的wordcount程序

并行计算和mapreduce

基于GFS思想的分布式文件系统KFS

Hadoop的实例测试

Hadoop的一些理解及当前的流行应用

Hadoop配置 快速入门

Hadoop学习总结：Map-Reduce入门

最近访客更多访客>>

Hadoop配置快速入门