Hadoop的部署环境是经过虚拟化之后的四台主机,OS是Ubuntu Server10.04。(XenServer5.6兼容的OS并不包括Ubuntu,将Ubuntu转成PV也是一个折腾的过程,另文介绍)。Hadoop的版本号依旧是:0.20.2.安装Java环境如上一讲所示。
主机名及其IP地址对应如下:
Slave&TaskTracker:dm1,IP:192.168.0.17;(datanode)
Slave&TaskTracker:dm2,IP:192.168.0.18;(datanode)
Slave&TaskTracker:dm3,IP:192.168.0.9;(datanode)
Master&JobTracker:dm4,IP:192.168.0.10;(namenode)
Master是Hadoop集群的管理节点,重要的配置工作都在它上面,至于它的功能和作用请参考HadoopAPI
。
具体配置步骤如下:
一
.修改各个节点(dm1-dm4)的HostName,命令如下:
如下图所示例:
二
.在host中添加机器的hostname和IP,用以通讯。Master需要知道所有的slave的信息。对应的slave只需要知道Master和自身的信息即可。
命令如下:
Master(dm4)的hosts配置应该如下图所示:
其它的slave(dm3……)的hosts配置应该如下图所示:
三
.Hadoop核心代码需要配置conf文件夹里面的core-site.xml,hdfs-site.xml,mapread-site.xml,mapred-site.xml,hadoop-env.sh这几个文件。具体各个配置的含义请参考Hadoop帮助文档
。
1.首先编辑各个机器节点(包括master和slave)的core-site.xml文件,命令如下:(Hadoop 文件夹放在home下)
vi /home/hadoop/conf/core-site.xml
core-site.xml文件配置,应如下面代码所示:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://dm4:9000</value>
</property>
</configuration>
2.其次编辑各个机器节点(包括master和slave)的hdfs-site.xml,命令如下:
vi /home/hadoop/conf/hdfs-site.xml
hdfs-site.xml文件配置,应如下面代码所示:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/NameData</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3.再次,编辑各个机器节点(包括master和slave)mapred-site.xml文件,
命令如下:
vi /home/hadoop/conf/mapred-site.xml
mapred-site.xml
文件配置,应如下面代码所示:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.0.10:9001</value>
</property>
</configuration>
4.最后,编辑各个机器节点(包括master和slave) hadoop-env.sh文件,命令如下:
vi /home/hadoop/conf/hadoop-env.sh
向该文件加入几行代码,如下所示:
export HADOOP_HOME=/home/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/conf
export PATH=$PATH:$HADOOP_HOME/bin
四
.配置集群的主从关系。在所有机器节点上,Hadoop的conf文件夹中,都有slaves和masters两个文件。往masters中添加Master(dm4)的IP地址或者hostname。往slaves文件中添加Slave(dm1-dm3)的IP或hostname。所有节点都需要修改。
Masters如下图所示:
slaves如下图所示:
行文至此,Hadoop
的
整体安装和配置
已经完成。Hadoop集群的启动从Master(Namenode)机器开始,它和slave(DataNode)之间通讯使用ssh,我们接下来需要设置ssh无密码公钥认证登入。
五
.SSH非对称密钥的原理请参见此文
和彼文
。首先要在
所有节点
生成密钥对,具体实现步骤如下:
1.
所有节点
生成RSA密钥对,命令如下:
出现如下图所示:
直接回车,密钥对存放为/root/.ssh/id_rsa。在该文的演示中生成/root/viki.pub然后会要求你输入密码,选择空
最后生成如下图:
2.将Master(Namenode)
生成的公钥viki.pub的内容复制到本机的 /root/.ssh/ 的authorized_keys 文件 里。命令如下:
cp viki.pub authorized_keys
然后,将authorized_keys 文件复制到各个slave(DataNode)
机器的
/root/.ssh/ 文件夹,命令如下:
scp /root/.ssh/authorized_keys dm3:/root/.ssh/
最后,在所有机器
执行用户权限命令chmod,命令如下:
chmod 644 authorized_keys
经过以上步骤,ssh配置也已完成。通过以下命令验证:
ssh dm3
exit
ssh dm2
exit
ssh dm1
exit
第一次连接需要密码,输入yes和机器密码就可以。以后即不用再输入。
六
.启动并验证Hadoop集群,如同上讲所述。输入:http://192.168.0.10:50030/jobtracker.jsp
在下所搭建的Hadoop集群截图:
七.参考文献
1.Hadoop
快速入门
http://hadoop.apache.org/common/docs/r0.18.2/cn/quickstart.html
2.通用线程
: OpenSSH
密钥管理
http://www.ibm.com/developerworks/cn/linux/security/openssh/part1/index.html
分享到:
相关推荐
大数据集群 Hadoop HBase Hive Sqoop 集群环境安装配置及使用文档 在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群...
### Hadoop与HBase自学笔记知识点总结 #### 一、Hadoop与HBase简介 - **Hadoop**:是一款能够对大量数据进行分布式处理的软件框架。它通过提供高可靠性和高扩展性的分布式计算能力,使得用户能够在廉价的硬件设备...
下载解压`hbase-1.2.6-bin.tar.gz`,配置环境变量,启动HBase集群,通过Web UI监控集群状态。 4.2 数据操作 通过Java API或HBase Shell创建表,插入数据,执行查询、扫描等操作。 4.3 性能优化 根据业务需求调整...
从零开始hadoop+zookeeper+hbase+hive集群安装搭建,内附详细配置、测试、常见error等图文,按照文档一步一步搭建肯定能成功。(最好用有道云打开笔记)
2. HBase的安装与配置:介绍如何在本地或集群环境中安装和配置HBase。 3. HBase源码解析:深入到HBase的源代码,理解其内部的工作机制,如数据读写流程、Region分裂等。 4. 使用HBase API:展示如何编写Java代码进行...
以上就是HBase自学笔记中的关键知识点总结,涵盖了HBase的基本概念、与其他Hadoop组件的关系、存储机制、架构以及环境搭建等方面。通过这些知识点的学习,可以帮助我们更好地理解和掌握HBase的核心技术和应用场景。
可能涵盖的主题包括Hadoop集群的搭建、HDFS的使用命令、HBase的表创建和数据插入、Hive的SQL语法及查询优化,以及Spark的基本编程模型和应用案例。 深入学习Hadoop生态,你需要理解各个组件之间的交互方式,以及...
1. **Hadoop day01.xmind**:可能包含了Hadoop的安装配置、环境搭建,以及HDFS的基本操作,如上传、下载文件,理解HDFS的文件块和副本策略。 2. **Hadoop day02.xmind**:可能进一步讲解MapReduce的工作原理,包括...
Zookeeper在HBase中扮演协调者的角色,负责管理集群的状态信息,如Master节点选举、Region Server的注册和监控等。 理解并熟练掌握上述概念和命令,将有助于在实践中高效地使用HBase来处理大规模数据。在设计HBase...
在集群环境中部署HBase,你需要根据不同的模式(单机模式、伪分布模式、完全分布模式)进行配置。集群部署通常涉及多台机器,需要配置SSH免密登录以简化操作。此外,HBase的配置文件需要指定HDFS的根目录、开启...
【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第六天(全)" 涵盖了Hadoop生态系统中的重要组件HBase的相关知识。HBase是基于Hadoop的分布式非关系型数据库,特别适合处理大规模数据。在本课程的第六天,赵星老师...
【标题】:“安装笔记:hadoop+hbase+sqoop2+phoenix+kerberos” 【描述】:在本文中,我们将探讨如何在两台云主机(实际环境可能需要三台或更多)上安装Hadoop、HBase、Sqoop2、Phoenix以及Kerberos的详细过程,...
Hadoop集群可以轻松扩展到PB级别的数据存储和处理能力,这使得Hadoop非常适合在需要处理大量数据的场合中使用。但是,Hadoop的可扩展性并不意味着它适合所有场景,由于其架构特点,它更适合于批处理,而非实时处理。...
手把手教你搭建分布式Hadoop家族集群视频教程(视频+讲义+笔记+配置),内容包括 Hadoop,SQOOP,Hive,Hbase的安装配置及集群搭建。内容包括但不限于: 01_回顾集群架构及配置集群时间同步 02_配置主节点与从节点...
【标题】:“hadoop,hive,hbase学习资料”是一份综合性的学习资源,涵盖了大数据处理领域中的三个核心组件——Hadoop、Hive和Hbase。这些工具在大数据处理和分析中发挥着至关重要的作用。 【描述】:描述指出这份...
HBase的安装通常与Hadoop环境一起进行,包括以下几个步骤: 1. 安装Java:HBase依赖Java运行环境,确保JDK已正确安装。 2. 下载HBase:从Apache官网获取最新稳定版HBase。 3. 解压并配置环境变量:将HBase解压到合适...
- 在搭建Hadoop集群时,需要确保所有的节点都安装了相同的JDK版本。 - 定期备份重要的配置文件和日志文件,以防数据丢失。 - 对于大数据处理任务,合理调整MapReduce作业的参数,以提高处理效率。 #### 八、附录 *...