`
290434409
  • 浏览: 27242 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

快速搭建hadoop+hbase分布式集群

阅读更多

hadoop集群部署

1. 准备三台机器,如`10.8.177.23`,`10.8.177.24`,`10.8.177.25`

2. 修改主机名称,配置`hosts`文件(root用户下操作):

# 每台机器执行,我这里hd开头,后边的数字与机器ip的最后一个组一致
hostnamectl set-hostname hd-23 
hostnamectl set-hostname hd-23 --static

# 修改hosts文件,
vi /etc/hosts
#加入路由配置
10.8.177.23 hd-23
10.8.177.24 hd-24
10.8.177.25 hd-25

 

3. 每台机器上创建一个用户,如hadoop:

useradd -d /home/hadoop -m hadoop
# 最好创建一个用户,不要直接使用root进行操作

 4. 设置免密登录(==hadoop用户,下同==)

> 只需要设置master对于其他两台机器进行免密登录即可

# 1、 在Master机器上的主目录中生成ssh公钥
ssh-keygen -t rsa 
# 2、 在其余机器上主目录中创建.ssh目录(执行上边的命令也可以)
# 3、 将Master的公钥发送给其余两台服务器(需要输入免密)
scp id_rsa.pub hadoop@hd-24:/home/hadoop/.ssh/id_rsa.pub.23
scp id_rsa.pub hadoop@hd-25:/home/hadoop/.ssh/id_rsa.pub.23
# 4、 在.shh中创建authorized_keys文件,并授权
touch authorized_keys
chmod 644 authorized_keys
# 5、 将Master的公钥加入到授权文件中
echo id_rsa.pub.23 >> authorized_keys
# 以上,即可从23无密访问24,25,可以使用以下命令测试:
ssh hd-24

 5. 下载jdk、hadoop、hbase、zookeeper

> - jdk(也可以自行下载):`wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u91-b14/jdk-8u91-linux-x64.tar.gz`
> - zookeeper-3.4.8.tar.gz: `wget http://mirrors.hust.edu.cn/apache/zookeeper/zookeeper-3.4.8/zookeeper-3.4.8.tar.gz`
> - hbase-1.2.2-bin.tar.gz:`wget http://mirrors.hust.edu.cn/apache/hbase/1.2.2/hbase-1.2.2-bin.tar.gz`
> - hadoop-2.7.2.tar.gz:`wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz`

 6. 解压以上文件

7. 配置环境变量

vi ~/.bashrc
JAVA_HOME=/home/hadoop/jdk1.8.0_77
JRE_HOME=$JAVA_HOME/jre
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

HADOOP_HOME=/home/hadoop/hadoop-2.7.2
HBASE_HOME=/home/hadoop/hbase-1.2.2
PATH=.:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HBASE_HOME/bin:$HBASE_HOME/sbin
expor JAVA_HOME JRE_HOME CLASSPATH HADOOP_HOME HBASE_HOME
# 配置完成以后进行编译生效
source .bashrc

#发送给其余机器
scp .bashrc hadoop@hd-24:/home/hadoop/

 8. 配置hadoop

hadoop的配置文件位于`hadoop-2.7.2/etc/hadoop`下,需要配置`core-site.xml`,`hdfs-site.xml`,`yran-site.xml`,`mapred-site.xml`,`hadoop-env.sh`,`slaves`

 core-site.xml

<configuration>
 <property>
  <name>fs.defaultFS</name>
  <value>hdfs://hd-23:6000</value>
  <final>true</final>
 </property>

 <property>
  <name>hadoop.tmp.dir</name>
  <value>/home/hadoop/configsets/hadoop_tmp</value>
 </property>

 <property>
  <name>fs.checkpoint.period</name>
  <value>3600</value>
 </property>
 
 <property>
  <name>fs.checkpoint.size</name>
  <value>67108864</value>
 </property>

</configuration>

 hdfs-site.xml 

<configuration>
 <property>
  <name>dfs.namenode.name.dir</name>
  <value>/home/hadoop/configsets/metadata</value>
 </property>
 
 <property>
  <name>dfs.http.address</name>
  <value>hd-23:50070</value>
 </property>

 <property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>hd-23:50090</value>
 </property>

 <property>
  <name>dfs.datanode.data.dir</name>
  <value>/home/hadoop/configsets/data</value>
 </property>

 <property>
  <name>dfs.replication</name>
  <value>2</value>
 </property>
</configuration>

  yarn-site.xml

<configuration>

 <property>
  <name>yarn.resourcemanager.hostname</name>
  <value>hd-23</value>
 </property>

 <property>
  <name>yarn.resourcemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
 </property>

 <property>
  <name>yarn.log.dir</name>
  <value>/home/hadoop/configsets/yarn_log</value>
 </property>
</configuration>

 mapred-site.xml,这个文件如果不存在的话`cp mapred-site.xml.template mapred-site.xml`一个

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
 </property>

 <property>
  <name>mapreduce.cluster.temp.dir</name>
  <value>/home/hadoop/configsets/mr_tmp</value>
  <final>true</final>
 </property>

 <property>
  <name>mapreduce.jobhistory.address</name>
  <value>hd-23:6002</value>
 </property>

 <property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>hd-23:6003</value>
 </property>
</configuration>

 hadoop-env.sh 将JAVA_HOME配置进去

#将下边这句话注释了,不好用,但按理说应该能用,结果就是不好用
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/home/hadoop/jdk1.8.0_77
```

 slaves 文件中加入25,24

hd-24
hd-25

 9. 打包发送至其他机器

jdk、hadoop、hbase、zookeeper都可以采用这种方式配置后,进行发送,zookeeper稍有不同(详见后文)

tar cf hadoop-2.7.2.tar hadoop-2.7.2
scp hadoop-2.7.2.tar hadoop@hd-24:/home/hadoop
scp hadoop-2.7.2.tar hadoop@hd-25:/home/hadoop
ssh hd-24 
tar xf hadoop-2.7.2.tar
exit
ssh hd-25
tar xf hadoop-2.7.2.tar
exit

 10. 格式化名称节点

hadoop namenode -farmat

 11. 启停hadoop集群

# 启动
start-all.sh 

#停止 
stop-all.sh

 12. jsp查看

[hadoop@hd-23 ~]$ jps
12304 QuorumPeerMain
16208 ResourceManager
24322 Jps
15843 NameNode
16042 SecondaryNameNode

[root@hd-24 home]# jps
12082 QuorumPeerMain
15116 Jps
12924 DataNode
13036 NodeManager

[hadoop@hd-25 ~]$ jps
20130 DataNode
20242 NodeManager
19317 QuorumPeerMain
21755 Jps

 13. 浏览器查看

http://hd-23:50070/
http://hd-23:8088/

 

zookeeper集群部署

1. 配置,配置文件位于`/home/hadoop/zookeeper-3.4.8/conf`

 

cp zoo_sample.cfg zoo.cfg
vi zoo.cfg
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/home/hadoop/zookeeper-3.4.8/data
clientPort=2181

# 这里需要注意下server.{id}
server.23=10.8.177.23:2181:3887
server.24=10.8.177.24:2182:3888
server.25=10.8.177.25:2183:3889
 2. 数据目录

 

> zoo.cfg定义了dataDir,需要在每个服务器的创建此目录,并建立myid文件,内部存储zoo.cfg中server.{id}的id数值

 

mkdir /home/hadoop/zookeeper-3.4.8/data
cd /home/hadoop/zookeeper-3.4.8/data
vi myid
23

ssh hd-24
mkdir /home/hadoop/zookeeper-3.4.8/data
cd /home/hadoop/zookeeper-3.4.8/data
vi myid
24
exit

ssh hd-25
mkdir /home/hadoop/zookeeper-3.4.8/data
cd /home/hadoop/zookeeper-3.4.8/data
vi myid
25
exit
 3. 启停

 

 

cd /home/hadoop/zookeeper-3.4.8/bin
./zkServer.sh start 
 

 

HBase部署

1、 配置hbase-site.xml

 

<configuration>
 <property>
  <name>hbase.rootdir</name>
  <value>hdfs://hd-23:6000/hbase</value>
 </property>

 <property>
  <name>hbase.cluster.distributed</name>
  <value>true</value>
 </property>

<property>
  <name>hbase.zookeeper.quorum</name>
  <value>hd-23,hd-24,hd-25</value>
 </property>

 <property>
  <name>hbase.zookeeper.property.dataDir</name>
  <value>/home/hadoop/zookeeper-3.4.8/data</value>
 </property>
</configuration>
 2、配置regionservers

 

 

vi regionservers
hd-23
hd-24
 3、 scp发送至其他机器

 

> 具体方式参见第一章第9节

4、 启停hbase

==启动hbase之前须先启动hdfs==

start-hbase.sh
stop-hbase.sh

 5、 jps查看

[hadoop@hd-23 bin]$ jps
12304 QuorumPeerMain
16208 ResourceManager
24592 Jps
22898 HMaster
15843 NameNode
23139 HRegionServer
16042 SecondaryNameNode

[root@hd-24 home]# jps
14512 HRegionServer
12082 QuorumPeerMain
15276 Jps
12924 DataNode
13036 NodeManager

 6、 浏览器查看

 

http://hd-23:16030/

结语

总结

通过以上步骤快速搭建了hadoop环境,在此期间,只有进行SSH免密登录时需要登录其他两台机器进行添加公钥文件,其余均通过一个SSH客户端窗口搞定(其实免密登录也可以)。linux发行版本为centos7,如果使用centos 6.x的版本,修改主机名称略有不同(`etc/sysconfig/network`,`hosts`,`reboot`)。

 

> - 猜想

 

> 搭建此环境的目的有两点:

  

>  1、 提供一个hadoop测试环境。

 

>  2、 为后续采用docker进行快速部署做预研。通过以上搭建过程可知,除了zookeeper的dataDir目录中myid文件内容不同之外,其余的内容均相同,而myid的内容可以通过读取zoo.cfg文件获取,故如果此时要做多机docker集群的话,只要解决了多机docker容器能互相访问(同个局域网),就可以采用同一个镜像进行快速部署。而使多机docker的容器能够访问,可以采用open vSwitch搭建一个局域网,这个也是下个实验的目标。

 

 

0
2
分享到:
评论
1 楼 gaojingsong 2016-07-26  
想象一下这种场景:我们使用1000台廉价的PC机做Hadoop集群,虽然Hadoop号称高可用,低成本;但是廉价机器谁能保证不出现问题呢,况且世界上本身就没有不出问题的电脑,于是今天坏掉一台机器,明天需要扩充增加一个节点增加容量,但是有一个问题SSH免密码登录的认证的公钥文件在各个电脑上不能共享,如果增加一个节点,新产生的id_rsa.pub  文件在各个PC的authorized_keys文件中不存在,因此各个PC拒绝新节点来访问自己,因为新节点没有报到,此时管理员疯了:要把新节点的id_rsa.pub 文件加入到各个PC的authorized_keys中,管理员的噩梦了

永久链接: http://gaojingsong.iteye.com/blog/2282300
预览文章: 【Hadoop环境搭建之SSH免密码登录高级篇】

相关推荐

    多智能体一致性仿真 简单的多智能体一致性性仿真图,包含状态轨迹图和控制输入图 程序简单,所以便宜,但是有注释,都能看懂,适合初学者

    多智能体一致性仿真 简单的多智能体一致性性仿真图,包含状态轨迹图和控制输入图。 程序简单,所以便宜,但是有注释,都能看懂,适合初学者。

    小程序项目-基于微信小程序的微信小程序租房平台(包括源码,数据库,教程).zip

    Java小程序项目源码,该项目包含完整的前后端代码、数据库脚本和相关工具,简单部署即可运行。功能完善、界面美观、操作简单,具有很高的实际应用价值,非常适合作为Java毕业设计或Java课程设计使用。 所有项目均经过严格调试,确保可运行!下载后即可快速部署和使用。 1 适用场景: 毕业设计 期末大作业 课程设计 2 项目特点: 代码完整:详细代码注释,适合新手学习和使用 功能强大:涵盖常见的核心功能,满足大部分课程设计需求 部署简单:有基础的人,只需按照教程操作,轻松完成本地或服务器部署 高质量代码:经过严格测试,确保无错误,稳定运行 3 技术栈和工具 前端:小程序 后端框架:SSM/SpringBoot 开发环境:IntelliJ IDEA 数据库:MySQL(建议使用 5.7 版本,更稳定) 数据库可视化工具:Navicat 部署环境:Tomcat(推荐 7.x 或 8.x 版本),Maven

    模糊PID控制器的C语言实现.zip

    模糊PID控制器的C语言实现

    电子科技大学图书馆微信小程序_中国电子科技大学.zip

    电子科技大学图书馆微信小程序_中国电子科技大学

    武汉市新版劳动合同.doc

    武汉市新版劳动合同

    用于微信小程序的ProtoBuffer库.zip

    用于微信小程序的ProtoBuffer库

    WINCC 用VBS写MYSQL动作说明

    WINCC 用VBS写MYSQL动作说明

    039智能微电网PSO优化算法,比较全,推荐下载。matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    Stentiford 细化算法Matlab代码.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    含高比例分布式光伏的配电网集群电压协调控制 摘要:代码主要做的是基于网络划分的双层电压控制策略,通过优化光伏变流器的有功和无功输出功率实现光伏发电损失和线路有功损耗最小,在集群划分基础上,研究包含群内

    含高比例分布式光伏的配电网集群电压协调控制 摘要:代码主要做的是基于网络划分的双层电压控制策略,通过优化光伏变流器的有功和无功输出功率实现光伏发电损失和线路有功损耗最小,在集群划分基础上,研究包含群内自治优化和群间分布式协调的双层电压控制策略,集群自治优化控制通过交替更新群内最优解和平衡节点电压实现群内电压的实时快速控制。 长时间尺度的群间分布式协调控制基于交方向乘子法,通过相邻集群的有限边界数据交实现对分布式光伏输出功率的全局优化控制。 复现结果非常良好,结果图展示如下:

    springboot170图书电子商务网站的设计与实现.zip

    springboot170图书电子商务网站的设计与实现,含有完整的源码和报告文档

    客车驾驶员劳动合同.doc

    客车驾驶员劳动合同

    Bernsen 阈值方法的实现。.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    springboot164党员教育和管理系统.zip

    springboot164党员教育和管理系统,含有完整的源码和报告文档

    小区团购-JAVA-基于springboot小区团购管理设计与实现(毕业论文)

    以下是小区团购系统的功能描述,旨在为小区居民提供便捷的团购服务,以便于集中采购、节省开支和提高生活质量。 小区团购系统功能描述 1. 用户角色 管理员 商家 居民 2. 功能描述 管理员功能 用户管理 管理居民和商家的注册、审核、修改和删除。 设置不同用户的权限,确保系统安全性。 团购管理 创建、编辑和删除团购活动,包括商品信息、价格、起订量及截止时间。 审核商家提交的团购活动,确保商品质量和服务可靠性。 订单管理 监控所有团购订单的状态,包括未支付、已支付、配送中和完成等。 支持订单查询、修改和取消处理。 数据统计与分析 生成团购活动的销售报表和参与情况统计,帮助评估活动效果。 分析用户购买行为,以优化后续团购活动。 优惠活动管理 设置和管理促销活动(如满减、折扣、买赠等),吸引更多居民参与团购。 跟踪活动效果,调整策略以提升销售额。 商家功能 商家注册与管理 注册并创建商家账户,填写基本信息(如店铺名称、联系方式、地址等)。 提交商品信息,设置价格和库存,管理团购活动。 团购活动发布 创建新的团购活动,上传商品图片,详细描述和定价。 设置活动开始和结束时间,定义团购

    Multisim仿真TL494BUCK闭环,稳定输出5v,带软启动 电流限制为0.14A电流超过限制电压下降,为电流保护 软启动由4脚控制,示波器可看到输出 需要用Multisim14才能打开

    Multisim仿真TL494BUCK闭环,稳定输出5v,带软启动。 电流限制为0.14A电流超过限制电压下降,为电流保护。 软启动由4脚控制,示波器可看到输出。 需要用Multisim14才能打开。

    【热力学】基于matlab烤箱中烤面包的非稳态传热过程仿真【含Matlab源码 10961期】.zip

    Matlab领域上传的视频是由对应的完整代码运行得来的,完整代码皆可运行,亲测可用,适合小白; 1、从视频里可见完整代码的内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

    springboot161基于springboot的公交线路查询系统.zip

    springboot161基于springboot的公交线路查询系统,含有完整的源码和报告文档

    微信小程序云增强SDK_xpmjs.zip

    微信小程序云增强SDK_xpmjs

    matlab实现飞翼无人机鲁棒控制-飞翼无人机-鲁棒控制-matlab

    内容概要:本文详细介绍了飞翼无人机的鲁棒控制原理及其在Matlab中的实现方法。飞翼无人机因构型特殊而面临诸多不确定性,导致飞行过程复杂。文中首先讨论了飞翼无人机鲁棒控制的概念和意义,重点描述了鲁棒控制‘最坏情况设计’的思想,以确保在各种环境下系统的稳定性。然后阐述了鲁棒控制的具体流程,涉及系统建模、不确定性分析、鲁棒控制器(如H∞、滑模、自适应控制)设计、仿真实验及硬件实验,最后提供了完整的Matlab源码与运行指南,并展示了开环和闭环系统的响应对比结果,证明所设计的鲁棒控制器的有效性。文章末尾对未来的研究方向提出了展望。 适合人群:从事航空航天工程的专业人士,尤其是专注于无人机构型控制领域的研究人员;以及有一定自动化控制理论基础并对Matlab仿真感兴趣的学习者。 使用场景及目标:本篇文章主要面向希望通过理论研究提升无人机控制能力的学者或从业者,帮助他们掌握从建模到验证一套完整的鲁棒控制方法论,并为解决实际工程问题奠定坚实理论基础。此外,对于学生来说,这是一个很好的案例教学材料。 其他说明:提供的仿真代码不仅可用于科研学习也可以作为工业项目中初步设计的一部分参考素材。

Global site tag (gtag.js) - Google Analytics