`
亦梦亦真
  • 浏览: 229623 次
  • 性别: Icon_minigender_1
  • 来自: 秦皇岛
社区版块
存档分类
最新评论

(转)HBase入门笔记-- 完全分布模式Hadoop集群安装配置

 
阅读更多

Hadoop的部署环境是经过虚拟化之后的四台主机,OS是Ubuntu Server10.04。(XenServer5.6兼容的OS并不包括Ubuntu,将Ubuntu转成PV也是一个折腾的过程,另文介绍)。Hadoop的版本号依旧是:0.20.2.安装Java环境如上一讲所示。

           主机名及其IP地址对应如下:

          Slave&TaskTracker:dm1,IP:192.168.0.17;(datanode)

           Slave&TaskTracker:dm2,IP:192.168.0.18;(datanode)

           Slave&TaskTracker:dm3,IP:192.168.0.9;(datanode)

           Master&JobTracker:dm4,IP:192.168.0.10;(namenode)

        Master是Hadoop集群的管理节点,重要的配置工作都在它上面,至于它的功能和作用请参考HadoopAPI

    具体配置步骤如下:

   .修改各个节点(dm1-dm4)的HostName,命令如下:

Vi /etc/hostname

 如下图所示例:

   .在host中添加机器的hostname和IP,用以通讯。Master需要知道所有的slave的信息。对应的slave只需要知道Master和自身的信息即可。

  命令如下:

 vi /etc/hosts

Master(dm4)的hosts配置应该如下图所示:

 其它的slave(dm3……)的hosts配置应该如下图所示:

     .Hadoop核心代码需要配置conf文件夹里面的core-site.xml,hdfs-site.xml,mapread-site.xml,mapred-site.xml,hadoop-env.sh这几个文件。具体各个配置的含义请参考Hadoop帮助文档

    1.首先编辑各个机器节点(包括master和slave)的core-site.xml文件,命令如下:(Hadoop 文件夹放在home下)

vi /home/hadoop/conf/core-site.xml

core-site.xml文件配置,应如下面代码所示:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
    <name>fs.default.name</name>
    <value>hdfs://dm4:9000</value>
 </property>
</configuration>

    2.其次编辑各个机器节点(包括master和slave)的hdfs-site.xml,命令如下:

vi /home/hadoop/conf/hdfs-site.xml

     hdfs-site.xml文件配置,应如下面代码所示:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
 <property>
 <name>dfs.name.dir</name>
 <value>/home/hadoop/NameData</value>
 </property>
 <property>
 <name>dfs.permissions</name>
 <value>false</value>
 </property>

 <property>
 <name>dfs.replication</name>
 <value>1</value>
 </property>
</configuration>

   3.再次,编辑各个机器节点(包括master和slave)mapred-site.xml文件, 命令如下:

vi /home/hadoop/conf/mapred-site.xml

  mapred-site.xml 文件配置,应如下面代码所示:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.0.10:9001</value>
</property>
</configuration>

      4.最后,编辑各个机器节点(包括master和slave) hadoop-env.sh文件,命令如下:

vi  /home/hadoop/conf/hadoop-env.sh

   向该文件加入几行代码,如下所示:

 

export HADOOP_HOME=/home/hadoop
export   HADOOP_CONF_DIR=$HADOOP_HOME/conf 
export PATH=$PATH:$HADOOP_HOME/bin 

   .配置集群的主从关系。在所有机器节点上,Hadoop的conf文件夹中,都有slaves和masters两个文件。往masters中添加Master(dm4)的IP地址或者hostname。往slaves文件中添加Slave(dm1-dm3)的IP或hostname。所有节点都需要修改。

 

   Masters如下图所示:

    slaves如下图所示:

  行文至此,Hadoop 整体安装和配置 已经完成。Hadoop集群的启动从Master(Namenode)机器开始,它和slave(DataNode)之间通讯使用ssh,我们接下来需要设置ssh无密码公钥认证登入。

     .SSH非对称密钥的原理请参见此文彼文 。首先要在 所有节点 生成密钥对,具体实现步骤如下:

    1. 所有节点 生成RSA密钥对,命令如下:

 ssh-keygen -t rsa

   出现如下图所示:

直接回车,密钥对存放为/root/.ssh/id_rsa。在该文的演示中生成/root/viki.pub然后会要求你输入密码,选择空

最后生成如下图:

       2.将Master(Namenode) 生成的公钥viki.pub的内容复制到本机的 /root/.ssh/ 的authorized_keys 文件 里。命令如下:

cp viki.pub authorized_keys

     然后,将authorized_keys 文件复制到各个slave(DataNode) 机器的  /root/.ssh/ 文件夹,命令如下:

scp  /root/.ssh/authorized_keys dm3:/root/.ssh/

     最后,在所有机器 执行用户权限命令chmod,命令如下:

 

chmod 644 authorized_keys 

    经过以上步骤,ssh配置也已完成。通过以下命令验证:

 

ssh dm3
exit
ssh dm2
exit
ssh dm1
exit

 第一次连接需要密码,输入yes和机器密码就可以。以后即不用再输入。

 

  .启动并验证Hadoop集群,如同上讲所述。输入:http://192.168.0.10:50030/jobtracker.jsp

 在下所搭建的Hadoop集群截图:

 

七.参考文献 

 

  1.Hadoop 快速入门  http://hadoop.apache.org/common/docs/r0.18.2/cn/quickstart.html

  2.通用线程 : OpenSSH 密钥管理

 

     http://www.ibm.com/developerworks/cn/linux/security/openssh/part1/index.html

分享到:
评论

相关推荐

    Hadoop hbase hive sqoop集群环境安装配置及使用文档

    大数据集群 Hadoop HBase Hive Sqoop 集群环境安装配置及使用文档 在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群...

    Hadoop与HBase自学笔记

    ### Hadoop与HBase自学笔记知识点总结 #### 一、Hadoop与HBase简介 - **Hadoop**:是一款能够对大量数据进行分布式处理的软件框架。它通过提供高可靠性和高扩展性的分布式计算能力,使得用户能够在廉价的硬件设备...

    hbase-1.2.6-bin+src.tar.rar

    下载解压`hbase-1.2.6-bin.tar.gz`,配置环境变量,启动HBase集群,通过Web UI监控集群状态。 4.2 数据操作 通过Java API或HBase Shell创建表,插入数据,执行查询、扫描等操作。 4.3 性能优化 根据业务需求调整...

    hadoop+zookeeper+hbase+hive集群安装配置

    从零开始hadoop+zookeeper+hbase+hive集群安装搭建,内附详细配置、测试、常见error等图文,按照文档一步一步搭建肯定能成功。(最好用有道云打开笔记)

    Hadoop之HBase学习笔记

    2. HBase的安装与配置:介绍如何在本地或集群环境中安装和配置HBase。 3. HBase源码解析:深入到HBase的源代码,理解其内部的工作机制,如数据读写流程、Region分裂等。 4. 使用HBase API:展示如何编写Java代码进行...

    HBase自学笔记

    以上就是HBase自学笔记中的关键知识点总结,涵盖了HBase的基本概念、与其他Hadoop组件的关系、存储机制、架构以及环境搭建等方面。通过这些知识点的学习,可以帮助我们更好地理解和掌握HBase的核心技术和应用场景。

    Hadoop学习笔记

    可能涵盖的主题包括Hadoop集群的搭建、HDFS的使用命令、HBase的表创建和数据插入、Hive的SQL语法及查询优化,以及Spark的基本编程模型和应用案例。 深入学习Hadoop生态,你需要理解各个组件之间的交互方式,以及...

    Hadoop的xmind的入门笔记

    1. **Hadoop day01.xmind**:可能包含了Hadoop的安装配置、环境搭建,以及HDFS的基本操作,如上传、下载文件,理解HDFS的文件块和副本策略。 2. **Hadoop day02.xmind**:可能进一步讲解MapReduce的工作原理,包括...

    hbase学习笔记

    Zookeeper在HBase中扮演协调者的角色,负责管理集群的状态信息,如Master节点选举、Region Server的注册和监控等。 理解并熟练掌握上述概念和命令,将有助于在实践中高效地使用HBase来处理大规模数据。在设计HBase...

    hbase学习笔记.doc

    在集群环境中部署HBase,你需要根据不同的模式(单机模式、伪分布模式、完全分布模式)进行配置。集群部署通常涉及多台机器,需要配置SSH免密登录以简化操作。此外,HBase的配置文件需要指定HDFS的根目录、开启...

    传智黑马赵星老师hadoop七天课程资料笔记-第六天(全)

    【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第六天(全)" 涵盖了Hadoop生态系统中的重要组件HBase的相关知识。HBase是基于Hadoop的分布式非关系型数据库,特别适合处理大规模数据。在本课程的第六天,赵星老师...

    安装笔记:hadoop+hbase+sqoop2+phoenix+kerberos

    【标题】:“安装笔记:hadoop+hbase+sqoop2+phoenix+kerberos” 【描述】:在本文中,我们将探讨如何在两台云主机(实际环境可能需要三台或更多)上安装Hadoop、HBase、Sqoop2、Phoenix以及Kerberos的详细过程,...

    Hadoop学习笔记.pdf

    Hadoop集群可以轻松扩展到PB级别的数据存储和处理能力,这使得Hadoop非常适合在需要处理大量数据的场合中使用。但是,Hadoop的可扩展性并不意味着它适合所有场景,由于其架构特点,它更适合于批处理,而非实时处理。...

    手把手教你搭建分布式Hadoop集群视频教程(视频+讲义+笔记+软件+配置)

    手把手教你搭建分布式Hadoop家族集群视频教程(视频+讲义+笔记+配置),内容包括 Hadoop,SQOOP,Hive,Hbase的安装配置及集群搭建。内容包括但不限于: 01_回顾集群架构及配置集群时间同步 02_配置主节点与从节点...

    hadoop,hive,hbase学习资料

    【标题】:“hadoop,hive,hbase学习资料”是一份综合性的学习资源,涵盖了大数据处理领域中的三个核心组件——Hadoop、Hive和Hbase。这些工具在大数据处理和分析中发挥着至关重要的作用。 【描述】:描述指出这份...

    Hbase课程资料笔记,介绍、原理、入门实操.zip

    HBase的安装通常与Hadoop环境一起进行,包括以下几个步骤: 1. 安装Java:HBase依赖Java运行环境,确保JDK已正确安装。 2. 下载HBase:从Apache官网获取最新稳定版HBase。 3. 解压并配置环境变量:将HBase解压到合适...

    hadoop 笔记

    - 在搭建Hadoop集群时,需要确保所有的节点都安装了相同的JDK版本。 - 定期备份重要的配置文件和日志文件,以防数据丢失。 - 对于大数据处理任务,合理调整MapReduce作业的参数,以提高处理效率。 #### 八、附录 *...

Global site tag (gtag.js) - Google Analytics