一 。完全安装hadoop集群在伪分布式基础上修改几个配置文件即可,
现在假定安装两台机器的集群,一台master,一台slaves
1.修改两台机器的/etc/hosts文件
在文件中添加机器的hostname和IP,用以通讯。Master需要知道所有的slave的信息。对应的slave只需要知道Master和自身的信息即可。
#vim /etc/hosts
在后面添加:
masterIP masterHostname
slavesIP slavesHostname
2.Hadoop核心代码需要配置conf文件夹里面的core-site.xml,hdfs-site.xml,mapread-site.xml,mapred-site.xml,hadoop-env.sh这几个文件。具体各个配置的含义请参考Hadoop帮助文档 。
2.1.首先编辑各个机器节点(包括master和slave)的core-site.xml文件,命令如下:(Hadoop 文件夹放在home下)
#vim HADOOP_HOME/conf/core.xml core-site.xml文件配置,应如下面代码所示:<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://masterHostname:9000</value>#此处要用nasterHostname,不然在启动hive的时候会出错
</property>
</configuration>
2.2 其次编辑各个机器节点(包括master和slave)的hdfs-site.xml,命令如下:
vim HADOOP_HOME/conf/hdfs-site.xml<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
2.3再次,编辑各个机器节点(包括master和slave)mapred-site.xml文件,命令如下:
vim HADOOP_HOME/conf/mapred-site.xml<configuration>
<property>
<name>mapred.job.tracker</name>
<value>masterHostname:9001</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>3</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.map.child.java.opts</name>
<value>-Xmx200m</value>
</property>
</configuration>2.4最后,编辑各个机器节点(包括master和slave) hadoop-env.sh文件,命令如下:
vim HADOOP_HOME/conf/hadoop-env.sh在文件中加入:
export JAVA_HOME=/usr/lib/jvm/java-6-sun
export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HBASE_HOME/lib/zookeeper-3.3.3- cdh3u2.jar:$HBASE_HOME/hbase-0.90.4-cdh3u2.jar:$HADOOP_HOME/hadoop- hbase-streaming.jar3.配置集群的主从关系。在所有机器节点上,Hadoop的conf文件夹中,都有slaves和masters 两个文件。往masters中添加 Master(master)的IP地址或者hostname。往slaves文件中添加Slaves的IP或hostname。所有节点都需 要修改。
4.配置集群内机器的ssh连接,也基本和伪分布式一样,只不过此处要把master上生成的公钥拷贝到slave机器上,把它也写入slave机器上的authorized_keys文件即可。
到此分布式hadoop集群配置完成。接着就可以启动集群了。只要在master机器上输入命令
HADOOP_HOME/bin/hadoop namenode -formatHADOOP_HOME/bin/start-all.sh
二。hbase集群安装
1.编辑所有机器上的hbase-site文件,
vim HBASE_HOME/conf/hbase-site.xml其中首先需要注意hdfs://master:9000/hbase这里,必须与 hadoop集群中的core-site.xml文件配置保存一致,再者hbase该项不识别机器IP,只能用机器的 hostname,<property>
<name>hbase.cluster.distributed</name>
<value>true</value>
</property>
<property>
<name>hbase.rootdir</name>
<value>hdfs://master:9000/hbase</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>hbse.master</name>
<value>master:6000</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>master</value>#此处必须是奇数个
</property>
2.hbase-env.sh配置跟伪分布式的一样
3. 编辑所有机器,修改HBASE_NAME/conf 文件夹下的regionservers文
件。添加slaves的IP即可。
行文至此,HBase集群的配置已然完成。以下便是启动和测试。
4.启动.测试HBase数据库。
在master启动HBase数据库(Hadoop集群必须已经启动)。 启动命令:
HBASE_HOME/bin/start-hbase.sh
相关推荐
jdk1.8.0_131、apache-zookeeper-3.8.0、hadoop-3.3.2、hbase-2.4.12 mysql5.7.38、mysql jdbc驱动mysql-connector-java-8.0.8-dmr-bin.jar、 apache-hive-3.1.3 2.本文软件均安装在自建的目录/export/server/下 ...
【标题】"毕业设计:基于hadoop+spark完全分布式平台的薪资水平预测系统"揭示了这个项目的核心技术栈,即Hadoop和Spark,以及它的应用领域——薪资水平预测。这是一套利用大数据处理技术构建的分布式系统,旨在通过...
HBase 完全分布式集群搭建 HBase 是一个基于 Hadoop 的分布式 Nosql 数据库,可以提供高性能、可靠的数据存储和查询服务。为了搭建一个完全分布式的 HBase 集群,我们需要了解 HBase 的架构、组件和配置。 一、...
此文以命令行+截图的形式详细的记录了Hadoop-2.6.4+Zookeeper-3.4.9+Hbase-1.2.4分布式开发平台的环境配置过程,希望能对大家有所帮助。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:... 一、 环境说明 主机名 Zookeeper ...(QuorumPeerMain) ...Controller
Hadoop 2.6.0+Hbase1.12+mahout0.9 集群搭建,自己写的,可以根据实际情况搭建伪分布式或者完全分布式。
Hadoop和HBase是大数据领域中两个非常重要的开源分布式存储与处理系统,通常被广泛应用于大规模数据集的存储和处理。Hadoop3.x是Hadoop项目的一个主要版本,它对Hadoop进行了许多重要的改进和优化,包括对资源管理、...
HBase完全分布式安装和部署指南 HBase是一种开源的、分布式的、面向列的NoSQL数据库,基于Hadoop和HDFS构建。它提供了高性能、可扩展性强、支持大规模数据存储和处理的能力。本文将详细介绍HBase的安装和部署过程,...
本文档详细介绍了HBase完全分布式集群的搭建过程,包括Hadoop集群的基础构建、JDK的安装、HBase的配置以及集群的启动和验证。通过遵循这些步骤,您可以轻松地在自己的环境中部署一个功能齐全的HBase集群。希望本指南...
【Hadoop 安装部署完全分布式】 在搭建Hadoop完全分布式集群时,我们需要遵循一系列步骤,确保所有组件正确配置并协同工作。以下是基于三台机器的集群安装部署过程的详细说明: 1. **所需软件及版本** - Hadoop: ...
HBase是一个分布式、面向列的开源数据库,它运行在Hadoop的文件系统(HDFS)之上,利用Hadoop的MapReduce来处理HBase中的大数据,同时也使用Apache ZooKeeper作为分布式协同服务。HBase特别适合于需要快速读写访问...
在hbase-site.xml中,你可以设置HBase的集群模式(如单机、伪分布式或完全分布式),以及HDFS的地址等参数。如果是在Windows上进行本地测试,通常会设置为伪分布式模式。 在配置完成后,可以启动Hadoop的NameNode、...
- 部署Hadoop有三种模式:本地单机模式、伪分布式模式和完全分布式模式。本地模式只用于开发和测试,不涉及分布式;伪分布式模式在一个节点上模拟分布式环境;分布式模式则是在多台机器上运行,适合生产环境。 - ...
### 基于VM+CentOS+hadoop2.7搭建Hadoop完全分布式集群的知识点解析 #### 一、概述 本文旨在详细介绍如何使用VMware Workstation(简称VM)结合CentOS 6.5操作系统来搭建Hadoop 2.7的完全分布式集群。此文档是根据...
《Hadoop+实战》这本书将深入讲解Hadoop的安装、配置和管理,包括单机模式、伪分布式模式和完全分布式模式的搭建。读者将学习如何配置Hadoop环境,以及如何处理常见的系统问题。此外,书中还会涉及YARN(Yet Another...
通常,Hadoop的版本发布会包括对HBase和Hive的兼容性测试报告,但这并不意味着所有早期版本的HBase和Hive都能与新版Hadoop完全兼容。相反,有时候新版本的Hadoop可能需要与特定版本的HBase和Hive一起使用才能正常...
资源名称:hadoop2完全分布式及整合hbase0.96安装文档 内容简介: 首先说一下这个安装过程需要注意的地方一、使用新建用户可能会遇到的问题(1)权限问题:对于新手经常使用root,刚开始可以使用,...