hadoop集群搭建(二)——集群环境配置

luliangy

浏览: 97848 次
性别:
来自: 杭州

最近访客更多访客>>

loginboot

jack1007

openbsd2

ddxkj

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

hadoop 集群配置

团队力量让我们站在云端！

真的感觉团队的力量太强大了，整个集群配置能够顺利进行，完全是靠大家合作才能完成。我们确实有很多不明白的地方，但是我们的每一个人都敢于探索，敢于去实践，敢于去做各种尝试，最终的结果就是我们克服了各种困难完成了云端的搭建！

好了进入正题，假设每台机器都按照前一篇所属配置好了hadoop环境，那么接下来开始配置集群环境。

集群配置分为以下几个步骤：

1、修改机器的IP地址等信息

2、配置namenode的hosts文件；

3、配置namenode的masters和slaves文件；

4、配置namenode的core-site、mapred-site、hdfs-site文件；

5、远程拷贝（可选操作）上述文件给所有的slaves；

6、在namenode上生成公钥，远程拷贝公钥给所有的slaves，slaves上将公钥添加到授权文件；

7、s laves ssh连接master；

8、d ata结点启动datanode和tasktracker,name结点启动所有的data结点；

一、修改机器IP；

这里我们总共准备了十台机器，依次将机器的IP地址改为192.168.1.2-192.168.1.11

选定11号机器为namenode,10号机器作为secondarynamenode；

二、配置namenode的hosts文件；

sudo gedit /etc/hosts

修改文件如下：

127.0.0.1 localhost

127.0.1.1 ubuntu.ubuntu-domain ubuntu

192.168.1.11 master

192.168.1.7 s7

192.168.1.4 s4

192.168.1.2 s2

192.168.1.3 s3

192.168.1.5 s5

192.168.1.6 s6

192.168.1.8 s8

192.168.1.9 s9

192.168.1.10 s10

# The following lines are desirable for IPv6 capable hosts

::1 ip6-localhost ip6-loopback

fe00::0 ip6-localnet

ff00::0 ip6-mcastprefix

ff02::1 ip6-allnodes

ff02::2 ip6-allrouters

三、配置namenode的masters和slaves文件

cd /usr/local/hadoop

sudo gedit conf/masters

修改如下：

master

sudo gedit conf/slaves

这里配置的masters和slaves文件只是作为一种映射关系，将对应的名称映射到hosts文件中的IP;

四、配置namenode的core-site、mapred-site、hdfs-site文件

sudo gedit conf/core-site.xml

1 <configuration>

2 <property>

3 <name>fs. default .name</name>

4 <value>hdfs:// master :9000</value>

5 </property>

6 <property>

7 <name>dfs.replication</name>

8 <value>1</value>

9 </property>

10 <property>

参数详解：第一个属性表示namenode的主机和端口，第二个属性表示hdfs中文件备份个数。

sudo gedit conf/mapred-site.xml

1 <configuration>

2 <property>

3 <name>mapred.job.tracker</name>

4 <value> master :9001</value>

5 </property>

6 </configuration>

参数详解：JobTracker的主机和端口;

sudo geidt conf/hdfs-site.xml

1 <property>

2 <name> dfs.name.dir </name>

3 <value> /home/hadoop/hdfs/name </value>

4 </property>

6 <property>

7 <name> dfs.data.dir </name>

8 <value> /home/hadoop/hdfs/data </value>

9 </property>

参数详解：第一个属性表示 NameNode 持久存储名字空间及事务日志的本地文件系统路径。

第二个属性表示 DataNode 存放块数据的本地文件系统路径。

五、远程拷贝（可选操作）slaves上的文件给master；

scp /etc/hosts hadoop@s2:/etc/hosts

scp conf/core-site.xml hadoop@s2:/usr/local/hadoop/conf/core-site.xml

scp conf/mapred-site.xml hadoop@s2:/usr/local/hadoop/conf/mapred-site.xml

scp conf/hdfs-site.xml hadoop@s2:/usr/local/hadoop/conf/hdfs-site.xml

data结点上修改master文件同name结点，经过实践我们发现data结点作为slave，slaves文件其实不用修改。

六、在namenode上生成公钥，远程拷贝公钥给所有的slaves，slaves上将公钥添加到授权文件;

1. 生成公钥： ssh-keygen -t dsa -P "" -f ~/.ssh/id_ r sa

2. 远程拷贝： scp ~/.ssh/id_rsa.pub hadoop@master ~/.ssh/

3. data结点上添加到收信任列表： cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorizedkeys

七、 datanode ssh连接namenode

ssh master

八、配置SecondaryNamenode( 号外！ )

修改masters 文件，改为 s10

修改hdfs-site.xml 文件

     <property>
          <name>dfs.http.address</name>
          <value> 192.168.1.11 :50070</value> >
    </property>

九、data结点启动datanode和tasktracker,name结点启动所有的data结点

namenode启动之前做一次 block 负载均衡

sudo gedit conf/hdfs-site.xml

     <property>
                <name>dfs.balance.bandwidthPerSec</name>
                <value>10485760</value>
                <description>
                      Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in

                       term of the number of bytes per second.
                 </description>
     </property>

bin/start-balancer.sh

在新的结点上启动datanode

bin/hadoop-daemon.sh start datanode

启动tasktracker

bin/hadoop-daemon.sh start tasktracker

启动SecondaryNameNode

bin/hadoop-daemon.sh start SecoondaryNameNode

启动namenode

bin/start-dfs.sh

连接时可以在namenode上查看连接情况:

bin/hadoop dfsadmin -report

运行测试和单机版基本步骤一致，参见前文！

好了配置完毕！由于是新手，还有N 多问题没有理解，敬请各位大牛指点！不过此文还会经过修改，敬请期待！

分享到：

hadoop实现简单的倒排索引 | hadoop集群搭建（一）——单机版配置

2012-01-31 20:46
浏览 1841
评论(0)
分类:研发管理
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论