我使用的是ubuntu10.04.3版本,Hadoop与HBase使用的是Cloudera公司的hadoop0.20.2-cdh3u1与hbase0.90.3-cdh3u1版本。
1.集群规划:
使用3个虚拟机来构建集群,以后可以考虑做增加节点的实验。
机器名,IP分别为:
myCloud01,10.63.0.121, hadoop namenode,datanode / hbase HMaster
myCloud02,10.63.0.122, hadoop datanode / hbase HRegionServer
myCloud03,10.6.30.123, hadoop daganode / hbase HRegionServer
myCloud01做为master,slave与JobTracker,myCloud02与myCloud03做为slave与TaskTracker。
查看机器名字:$hostname
修改ubuntun机器的hostname,直接修改/etc /hostname文件
2.安装Hadoop与HBase之前的准备:
1) 创建非root用户hadoop
由于Cloudera公司的Hadoop只能在非root用户下启动,因此,我们建立一个非root用户hadoop,密码也为hadoop。
2)安装jdk
由于Hadoop要使用到jdk,因此在安装Hadoop之前必须安装jdk。我下载的是jdk-6u16-dlj-linux-i586.bin。首先赋予该文件执行权限:
$chmod a+x jdk-6u16-dlj-linux-i586.bin
然后安装jdk:
$./jdk-6u16-dlj-linux-i586.bin
3)解压hadoop0.20.2-cdh3u1,hbase0.90.3-cdh3u1
在myCloud01,myCloud02,myCloud03上创建cdh3目录
$mkdir /home/hadoop/cdh3
在myCloud01上解压hadoop0.20.2-cdh3u1,hbase0.90.3-cdh3u1,zookeeper-3.3.3-cdh3u1
$tar zxvf hadoop0.20.2-cdh3u1.tar.gz -C /home/hadoop/cdh3
$tar zxvf hbase0.90.3-cdh3u1.tar.gz -C /home/hadoop/cdh3
$tar zxvf zookeeper-3.3.3-cdh3u1.tar.gz -C /home/hadoop/cdh3
在myCloud01上修改/etc/profile
$sudo vim /etc/profile
添加代码
在myCloud02,myCloud03上修改/etc/profile
$sudo vim /etc/profile
添加代码
4)设置ssh免密码登录
用hadoop用户登录myCloud01,myCloud02,myCloud03,在/home/hadoop/下建立.ssh目录
$ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
在~/.ssh/会生成两个文件:id_rsa和id_rsa.pub
$cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
将authorized_keys拷贝到myCould02和myCloud03
$ scp /home/hadoop/.ssh/authorized_keys hadoop@10.63.0.122:/home/hadoop/.ssh/
5)修改hosts文件
$sudo vim /etc/hosts
修改所有机器的/etc/hosts文件为:
然后在myCloud01上用ssh登陆myCloud02,myCloud03,第一次登录需要确认,以后就不需要了。
$ssh myCloud02
$ssh myCloud03
3.安装Hadoop
1)在myCloud01上修改Hadoop环境变量
在/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/hadoop-env.sh中添加
2)在/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/core-site.xml中添加
3)在/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/hdfs-site.xml中添加
4)在/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/mapred-site.xml中添加
5)将/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/masters修改为
6)将/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/slaves修改为
7)拷贝myCloud01的Hadoop到myCloud02与myCloud03
$ scp -r /home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/hadoop@10.63.0.122:/home/hadoop/cdh3/
8)格式化Hadoop
在myCloud01上使用下面的命令:
$hadoop namenode -format
启动Hadoop:
$start-all.sh
使用$jps命令查看,如果namenode,secondarynode,datanode,jobtracker,tasktracker都启动起来表明Hadoop启动成功。然后打开http//myCloud01:50070就可以观察datanode,打开http://myCloud01:50030就可以观察JobTracker。
4.安装HBase
1)在myCloud01上修改/home/hadoop/cdh3/hbase-0.90.3-cdh3u1/conf/hbase-env.sh添加
2) 在myCloud01上修改/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/hadoop-env.sh添加
2)在myCloud01上修改/home/hadoop/cdh3/hbase-0.90.3-cdh3u1/conf/hbase-site.xml添加
3)在myCloud01上/home/hadoop/cdh3/hbase-0.90.3-cdh3u1/conf/regionservers添加
4)将myCloud01上得hbase拷贝到myCloud02与myCloud03上
$ scp -r /home/hadoop/cdh3/hbase-0.90.3-cdh3u1/ hadoop@10.63.0.122:/home/hadoop/cdh3/
5) 在Hadoop启动的情况下,使用$start-hbase.sh命令,用$jps查看,如果发现HMaster进程,则表明已经HBase已经启动。可以打开http://myCloud01查看HBase的详细信息。
1.集群规划:
使用3个虚拟机来构建集群,以后可以考虑做增加节点的实验。
机器名,IP分别为:
myCloud01,10.63.0.121, hadoop namenode,datanode / hbase HMaster
myCloud02,10.63.0.122, hadoop datanode / hbase HRegionServer
myCloud03,10.6.30.123, hadoop daganode / hbase HRegionServer
myCloud01做为master,slave与JobTracker,myCloud02与myCloud03做为slave与TaskTracker。
查看机器名字:$hostname
修改ubuntun机器的hostname,直接修改/etc /hostname文件
2.安装Hadoop与HBase之前的准备:
1) 创建非root用户hadoop
由于Cloudera公司的Hadoop只能在非root用户下启动,因此,我们建立一个非root用户hadoop,密码也为hadoop。
2)安装jdk
由于Hadoop要使用到jdk,因此在安装Hadoop之前必须安装jdk。我下载的是jdk-6u16-dlj-linux-i586.bin。首先赋予该文件执行权限:
$chmod a+x jdk-6u16-dlj-linux-i586.bin
然后安装jdk:
$./jdk-6u16-dlj-linux-i586.bin
3)解压hadoop0.20.2-cdh3u1,hbase0.90.3-cdh3u1
在myCloud01,myCloud02,myCloud03上创建cdh3目录
$mkdir /home/hadoop/cdh3
在myCloud01上解压hadoop0.20.2-cdh3u1,hbase0.90.3-cdh3u1,zookeeper-3.3.3-cdh3u1
$tar zxvf hadoop0.20.2-cdh3u1.tar.gz -C /home/hadoop/cdh3
$tar zxvf hbase0.90.3-cdh3u1.tar.gz -C /home/hadoop/cdh3
$tar zxvf zookeeper-3.3.3-cdh3u1.tar.gz -C /home/hadoop/cdh3
在myCloud01上修改/etc/profile
$sudo vim /etc/profile
添加代码
JAVA_HOME=/home/hadoop/cdh3/jdk1.6.0_16 JRE_HOME=$JAVA_HOME/jre HADOOP_HOME=/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1 HBASE_HOME=/home/hadoop/cdh3/hbase-0.90.3-cdh3u1 ZOOKEEPER_HOME=/home/hadoop/cdh3/zookeeper-3.3.3-cdh3u1 CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$CLASSPATH PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HBASE_HOME/bin:$ZOOKEEPER_HOME/bin:$ZOOKEEPER_HOME/conf:$PATH export JAVA_HOME JRE_HOME CLASSPATH HADOOP_HOME HBASE_HOME ZOOKEEPER_HOME PATH
在myCloud02,myCloud03上修改/etc/profile
$sudo vim /etc/profile
添加代码
JAVA_HOME=/home/hadoop/cdh3/jdk1.6.0_16 JRE_HOME=$JAVA_HOME/jre HADOOP_HOME=/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1 HBASE_HOME=/home/hadoop/cdh3/hbase-0.90.3-cdh3u1 CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar$CLASSPATH PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HBASE_HOME/bin:$PATH export JAVA_HOME JRE_HOME CLASSPATH HADOOP_HOME HBASE_HOME PATH
4)设置ssh免密码登录
用hadoop用户登录myCloud01,myCloud02,myCloud03,在/home/hadoop/下建立.ssh目录
$ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
在~/.ssh/会生成两个文件:id_rsa和id_rsa.pub
$cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
将authorized_keys拷贝到myCould02和myCloud03
$ scp /home/hadoop/.ssh/authorized_keys hadoop@10.63.0.122:/home/hadoop/.ssh/
5)修改hosts文件
$sudo vim /etc/hosts
修改所有机器的/etc/hosts文件为:
127.0.0.1 loaclhost 10.63.0.121 myCloud01 10.63.0.122 myCloud02 10.63.0.123 myCloud03
然后在myCloud01上用ssh登陆myCloud02,myCloud03,第一次登录需要确认,以后就不需要了。
$ssh myCloud02
$ssh myCloud03
3.安装Hadoop
1)在myCloud01上修改Hadoop环境变量
在/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/hadoop-env.sh中添加
export JAVA_HOME=/home/hadoop/cdh3/jdk1.6.0_16
2)在/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/core-site.xml中添加
<property> <name>fs.default.name</name> <value>hdfs://myCloud01:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/data/tmp</value> </property>
3)在/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/hdfs-site.xml中添加
<property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property> <property> <name>dfs.name.dir</name> <value>/data/name</value> </property> <property> <name>dfs.data.dir</name> <value>/data/data</value> </property>
4)在/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/mapred-site.xml中添加
<property> <name>mapred.job.tracker</name> <value>myCloud01:9001</value> </property>
5)将/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/masters修改为
myCloud01
6)将/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/slaves修改为
myCloud01 myCloud02 myCloud03
7)拷贝myCloud01的Hadoop到myCloud02与myCloud03
$ scp -r /home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/hadoop@10.63.0.122:/home/hadoop/cdh3/
8)格式化Hadoop
在myCloud01上使用下面的命令:
$hadoop namenode -format
启动Hadoop:
$start-all.sh
使用$jps命令查看,如果namenode,secondarynode,datanode,jobtracker,tasktracker都启动起来表明Hadoop启动成功。然后打开http//myCloud01:50070就可以观察datanode,打开http://myCloud01:50030就可以观察JobTracker。
4.安装HBase
1)在myCloud01上修改/home/hadoop/cdh3/hbase-0.90.3-cdh3u1/conf/hbase-env.sh添加
export JAVA_HOME=/home/hadoop/cdh3/jdk1.6.0_16 export HBASE_CLASSPATH=/home/hadoop/cdh3/hbase-0.90.3/conf
2) 在myCloud01上修改/home/hadoop/cdh3/hadoop-0.20.2-cdh3u1/conf/hadoop-env.sh添加
export HBASE_HOME=/home/hadoop/cdh3/hbase-0.90.3-cdh3u1 export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HBASE_HOME/hbase-0.90.3-cdh3u1.jar:$HBASE/hbase-0.90.3-cdh3u1-tests.jar:$HBASE_HOME/lib/zookeeper-3.3.3-cdh3u1.jar
2)在myCloud01上修改/home/hadoop/cdh3/hbase-0.90.3-cdh3u1/conf/hbase-site.xml添加
<property> <name>hbase.rootdir</name> <value>hdfs://myCloud01:9000/hbase</value> </property> <property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.master.port</name> <value>6000</value> </property> <property> <name>hbase.zookeeper.quorum</name> <value>myCloud01</value> </property>
3)在myCloud01上/home/hadoop/cdh3/hbase-0.90.3-cdh3u1/conf/regionservers添加
myCloud01 myCloud02 myCloud03
4)将myCloud01上得hbase拷贝到myCloud02与myCloud03上
$ scp -r /home/hadoop/cdh3/hbase-0.90.3-cdh3u1/ hadoop@10.63.0.122:/home/hadoop/cdh3/
5) 在Hadoop启动的情况下,使用$start-hbase.sh命令,用$jps查看,如果发现HMaster进程,则表明已经HBase已经启动。可以打开http://myCloud01查看HBase的详细信息。
发表评论
-
Git Wiki
2014-01-10 10:24 1750Create Git repository on server ... -
Git -版本控制工具
2012-04-13 17:19 1176参考资料:http://progit.org/book/zh/ ... -
VNC Viewer 10061, connection refused
2012-02-17 10:13 3163在Windows系统下用VNC Viewer去连接Linux系 ... -
ubuntu下安装VMtools(zz)
2011-12-13 15:13 1615安装vmtools的终端命令如下(网上搜的) 1 ... -
ubuntu下安装MySQL
2011-10-24 12:30 1952ubuntu下安装MySQL,我用的是在线安装的方式,省去了很 ... -
安装Hive
2011-10-20 17:08 6584从http://archive.cloudera.com/cd ... -
安装Hadoop和HBase中遇到的错误
2011-09-28 23:26 24711.Hadoop格式化HDFS报错 java.net.Unkn ... -
ubuntu时间不对
2011-09-26 22:33 10737我在虚拟机上安装了ubuntu10.04.3,一直采用的是默认 ... -
修改了/var权限
2011-09-26 12:46 1206使用 sudo chown -R /var 修改了/var的所 ... -
linux下安装jdk
2011-09-24 13:43 1010第一次下载的是.rpm.bin版本,安装的时候总是显示依赖性检 ... -
Xshell连接ubuntu
2011-09-23 16:45 1771xshell中修改编码为UTF-8的方法:[文件]–>[ ... -
虚拟机不能ping通宿主机
2011-09-23 12:44 1235宿主机可以ping通虚拟机,虚拟机不能ping通宿主机,可能是 ... -
配置ubuntu系统IP
2010-12-29 14:58 1296在虚拟机上安装了Ubun ...
相关推荐
本文档详细记录了 Hadoop 和 HBase 的部署过程,涵盖了系统环境描述、软件安装前环境配置、Hadoop 和 HBase 的安装和配置、hosts 文件设定等关键步骤。 1. 系统环境描述 在部署 Hadoop 和 HBase 之前,需要了解...
在大数据领域中,Hadoop、HBase和Hive是重要的组件,它们通常需要协同工作以实现数据存储、管理和分析。随着各个软件的版本不断更新,确保不同组件之间的兼容性成为了一个挑战。本文将介绍Hadoop、HBase、Hive以及...
在Windows系统中安装和配置Hadoop和Hbase,是为了建立起一个适合单机测试和开发的本地大数据环境。Hadoop是一个由Apache基金会开发的开源框架,用于存储和处理大规模数据,它通过可靠的分布式存储(HDFS)和分布式...
在大数据处理领域,Hadoop、HBase和Zookeeper是三个至关重要的组件,它们共同构建了一个高效、可扩展的数据处理和存储环境。以下是关于这些技术及其集群配置的详细知识。 首先,Hadoop是一个开源的分布式计算框架,...
在大数据处理领域,Hadoop和HBase是两个重要的开源组件,它们分别扮演着分布式存储和实时数据访问的角色。Hadoop提供了强大的数据处理能力,而HBase则是一个基于Hadoop的分布式列式数据库,适合处理大规模的半结构化...
- **安装Java**:Hadoop和HBase依赖Java运行环境,通常需要JDK 8或以上版本。 - **设置相关变量**:配置环境变量`JAVA_HOME`,确保Java可被系统识别。 - **安装Hadoop**:下载Hadoop源码或二进制包,解压后配置...
### Hadoop和Hbase安装使用教程 #### 一、准备工作 在正式开始Hadoop和HBase的安装之前,我们需要做一些准备工作。这些准备包括了安装必要的软件环境,例如虚拟机环境和SSH客户端,以及对虚拟机的基本配置。 ####...
在本文档中,我们详细地介绍了Hadoop+Hbase+Spark+Hive的搭建过程,包括环境准备、主机设置、防火墙设置、环境变量设置、Hadoop安装、Hbase安装、Spark安装和Hive安装。本文档旨在指导读者从零开始搭建Hadoop+Hbase+...
### Hadoop和HBase安装操作手册 #### 一、引言 随着大数据技术的发展,Hadoop和HBase作为处理大规模数据的关键技术框架,受到了越来越多的关注。本文档旨在为初次接触这些技术的学习者提供一份详尽的操作指南,...
本文档旨在指导用户如何在单节点上安装并配置Hadoop与Hbase,从而实现数据的分布式存储和处理。通过本教程的学习,读者将能够理解并掌握Hadoop与Hbase的基本操作流程。 #### 二、运行环境要求 ##### 2.1 支持的平台...
总的来说,搭建Hadoop、HBase、Spark和Hive集群涉及多个步骤,包括安装、配置、启动以及验证。整个过程需要对大数据处理原理有深入理解,并熟悉Linux系统的操作。完成后,这个集群可以处理大量数据,支持实时查询和...
基于 hadoop和hbase的电商交易记录的简单分析项目源码+文档说明.zip基于 hadoop和hbase的电商交易记录的简单分析项目源码+文档说明.zip基于 hadoop和hbase的电商交易记录的简单分析项目源码+文档说明.zip基于 hadoop...
2. HBase:HBase是一个基于Hadoop的分布式数据库,用于存储和处理大规模数据。 3. ZooKeeper:ZooKeeper是一个分布式协调服务,用于管理Hadoop和HBase集群。 二、机器集群结构分布 在本文中,我们将使用8台曙光...
hadoop,hbase,zookeeper安装笔记hadoop,hbase,zookeeper安装笔记hadoop,hbase,zookeeper安装笔记
Hadoop 和 HBase 常用 shell 命令 在大数据处理中,Hadoop 和 HBase 是两个非常重要的组件。Hadoop 是一个分布式计算框架,用于处理大规模数据,而 HBase 是一个基于 Hadoop 的分布式数据库,用于存储和处理大规模...
在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群环境搭建、HBase 集群环境搭建、Hive 集群环境搭建和 Sqoop 集成...