`

CentOS 安装 hadoop hbase 使用 cloudera 版本。(一)

 
阅读更多

使用Virtualbox安装系统和 hadoop ,hbase

 

参考安装:

cloudera 的hadoop 只支持 64bit的版本.而要用虚拟机安装 64bit 的要满足 4个条件.

 

 

1, 64bit的cpu


3, 64bit的操作系统


3, 64bit的VirtualBox


4, 必须允许硬件虚拟化(需要到 bios 里面打开virtualization的一项)

 

Debian 64bit install VirtualBox.

 

#修改apt source 权限。

sudo chmod +w /etc/apt/sources.list

添加一行。

 

sudo vi /etc/apt/sources.list

 

 

#virtual box.

deb http://download.virtualbox.org/virtualbox/debian squeeze contrib non-free

#再把权限修改回去。

sudo chmod -w /etc/apt/sources.list

 

 

#添加key

wget -q http://download.virtualbox.org/virtualbox/debian/oracle_vbox.asc -O- | sudo apt-key add -

sudo apt-get install virtualbox-4.1 

 

创建一个许虚拟机。然后安装 64bit的 CentOS 系统。

 

 安装过程略。可参考前面的文章:

 

http://toeo.iteye.com/admin/blogs/1233372

 

只不过这里是安装 64bit的CentOS .

 

http://mirrors.163.com/centos/6.0/isos/x86_64/CentOS-6.0-x86_64-minimal.iso

 

安装系统。

 




 

然后就可以安装 64bit 的CentOS了.

 

 

 

https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation

 

首先安装源.

 

wget http://archive.cloudera.com/redhat/6/x86_64/cdh/cdh3-repository-1.0-1.noarch.rpm


rpm -ivh cdh3-repository-1.0-1.noarch.rpm

 

cd /etc/yum.repos.d/

 

wget http://archive.cloudera.com/redhat/6/x86_64/cdh/cloudera-cdh3.repo


yum search hadoop

yum install hadoop

然后就可以安装了。



 
总共大小 45MB。


安装 hbase。

 sudo yum install hadoop-hbase


 

配置启动 hadoop


要启动hadoop hbase 这样还不行。


yum install rsync

使用 cloudera 的hadoop 安装的完成 ,其实 hadoop的目录是在 /usr/lib/hadoop/

修改配置文件:

conf/core-site.xml:

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

conf/hdfs-site.xml:

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

conf/mapred-site.xml:

<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>localhost:9001</value>
  </property>
</configuration>

说明下。 rpm 安装包安装之后 将会创建一个 hdfs的用户。并且将用户的根目录设置在 /usr/lib/hadoop/下。
但是这个目录可以访问但不能创建文件夹。所以要用户root 创建一个 .ssh的文件夹。并将所有着给hdfs。

配置ssh

#root 操作
mkdir /usr/lib/hadoop/.ssh
#修改所有者。
chown hdfs:hdfs /usr/lib/hadoop/.ssh -R

#切换用户
su hdfs

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

#测试
ssh localhost
#如果可以登录说明配置好了。



 


同时安装包修改了主机名。也要修改 hosts文件
添加一个 127.0.0.1 的别名 bogon 
vi /etc/hosts


 

然后就可以测试是否可以启动。停止了。

su hdfs

cd /usr/lib/hadoop/bin
#启动
sh start-all.sh
#停止
sh stop-all.sh

如果没有报错误。就说明都配置对了。并且可以正常启动关闭。



 
在启动前一点要格式化 namenode

hadoop namenode -format



 

#然后启动 hadoop。

sh start-all.sh

创建一个文件夹测试下。没有包错就说明成功了。




 
然后就可以运行下 官方的测试了。


官方的例子是统计一个文章里面的字符出现的频率。(很经典的例子)

这里直接把Hadoop 目录下的 README.txt 拷贝到文件系统上。

#上传到hadoop的文件系统.
hadoop fs -put /usr/lib/hadoop/README.txt /tmp/input 
#执行example 例子。
hadoop jar hadoop-examples.jar wordcount /tmp/input /output

运行结果如下:



 


 
运行结果。如下:显示每个单词出现的次数。


 

配置启动 Hbase


同样的道理。还使用 hdfs的用户启动 hbase。

[参考]



首先要修改 配置文件hbase-site.xml。目录在/usr/lib/hbase/conf/。 

vi /usr/lib/hbase/conf/hbase-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>hbase.rootdir</name>
    <value>hdfs://localhost:9000/hbase</value>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

修改配置文件。hbase的根目录指向 hadoop的 hdfs 文件系统。


 



启动 hbase。使用 hdfs 用户

这里要注意下。发现没有 hbase 用户。所以用的 hdfs 用户。

需要修改下 /var/log/hbase/ 这个文件夹的权限。否则在启动的时候会报文件没有创建。

#root 用户修改

chmod 777 /var/log/hbase/

修改hbase-env.sh 文件。在里面设置JAVA_HOME,需要重新设置下。

vi /usr/lib/hbase/conf/hbase-env.sh

java 默认安装 在 /usr/java/default/ 目录下。



 



#使用hdfs 用户启动 hbase。
su hdfs

sh /usr/lib/hbase/bin/start-hbase.sh

正常启动。



 

进入 hbase 命令行。

hbase shell

这个时候可以进入 shell 但是报错:



 

ERROR: org.apache.hadoop.hbase.ZooKeeperConnectionException: HBase is able to connect to
ZooKeeper but the connection closes immediately. This could be a sign that the server has too many
connections (30 is the default).

需要修改 limits.conf

vi /etc/security/limits.conf

在最后添加两行:

hdfs  -       nofile  32768
hbase  -       nofile  32768



 

重启下 hbase 就可以创建表查询表了。。




 

都没有报错。


hbase(main):003:0> create 'test', 'cf'
0 row(s) in 1.2200 seconds
hbase(main):003:0> list 'table'
test
1 row(s) in 0.0550 seconds
hbase(main):004:0> put 'test', 'row1', 'cf:a', 'value1'
0 row(s) in 0.0560 seconds
hbase(main):005:0> put 'test', 'row2', 'cf:b', 'value2'
0 row(s) in 0.0370 seconds

其他的就自己去练习吧。

可以用root 在 hdfs的主目录 创建 两个 启动停止的脚本:

--start_hadoop_hbase.sh

sh /usr/lib/hadoop-0.20/bin/start-all.sh
sh /usr/lib/hbase/bin/start-hbase.sh

--stop_hadoop_hbase.sh

sh /usr/lib/hadoop-0.20/bin/stop-all.sh
sh /usr/lib/hbase/bin/stop-hbase.sh
 

总结:

在linux的服务器一般 用的都是 redhat 或 centos。没有使用 apache的 hadoop 而是用的 cloudera 的版本。

cloudera 的版本很简单。也很方便。比自己配置问题少很多。并且有专门的公司维护这个。yum 安装更新也很方便。

 

这次是 安装使用 hadoop 遇到问题比较少的一次。。接下来要研究 集群。和使用 java 联系 hadoop hbase。

同样也是在 虚拟机上面。但是虚拟机比真实的要慢很多。

持续更新中。

  • 大小: 51.5 KB
  • 大小: 84.9 KB
  • 大小: 30 KB
  • 大小: 68.7 KB
  • 大小: 31.7 KB
  • 大小: 65.7 KB
  • 大小: 58.4 KB
  • 大小: 119.8 KB
  • 大小: 57.1 KB
  • 大小: 135.4 KB
  • 大小: 44.9 KB
  • 大小: 35.6 KB
  • 大小: 67.5 KB
  • 大小: 85.7 KB
  • 大小: 26.9 KB
  • 大小: 100.5 KB
  • 大小: 67.6 KB
  • 大小: 66.6 KB
4
0
分享到:
评论
2 楼 di1984HIT 2014-06-20  
写得很嗯好啊。
1 楼 xiaoyao3857 2012-10-16  
想法正是我想的,只是还没开始实现

相关推荐

    Centos7 安装Cloudera.pdf

    本文适用于安装最新版本的Cloudera Manger,在1.2 节中请选择最近版本的 Cloudera manager相关rpm安装包下载,并在后面的步骤中使用对应的rpm安装。否则在3.3节中安装 cm服务到40%时会卡住不动并联网重新下载最新...

    cloudera hadoop cdh4.3版本安装

    在本文中,我们将深入探讨如何在CentOS 6.2环境下安装Cloudera's Hadoop Distribution (CDH) 4.3版本。CDH是Cloudera公司提供的一款开源大数据处理平台,它集成了Hadoop生态系统中的多个组件,如Hadoop、Zookeeper和...

    安装hadoopCDH5安装服务步骤.doc

    CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的一个全面、经过优化且企业级的Hadoop发行版,包含了多个相关项目,如Hive、HBase、Impala和Spark等。CDH5是该发行版的一个版本,它提供了...

    centos6.5-hadoop-2.6.0-cdh5.9.0-nativelib

    Hadoop是一个开源分布式计算框架,CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的一个商业化Hadoop发行版,它包含了多个相关的开源项目,如HDFS、MapReduce、YARN等。 描述中提到,...

    cloudera-manager-centos7-cm5.10.0_x86_64.tar.gz

    总结,Cloudera Manager 5.10.0在CentOS7上的安装和配置是一个关键的步骤,它能有效地管理和优化CDH集群,确保大数据处理的高效和稳定。通过本文的详细步骤,相信读者已经掌握了这一过程,并能够熟练应用到实际环境...

    hadoop cdh5 centos 64位系统本地库编译文件

    CDH5是Cloudera公司提供的一个企业级Hadoop发行版,它包含了多个大数据处理相关的开源项目,如HDFS、MapReduce、YARN、HBase等。在CentOS这样的Linux环境下,为了确保Hadoop组件能够高效、稳定地运行,通常需要编译...

    基于cloudera搭建hadoop集群

    一. Cloudera Manager 4 二. 下载地址 4 三. 安装环境 4 四. 机器设置 5 1. 网络配置 5 2. 修改主机名(hostname) 6 3. 关闭selinux 6 4. 子节点互通配置 6 5. 用户sudo功能设置 7 6. 挂载硬盘 7 7. 配置yum源 9 8. ...

    centos 7.9下RPM包部署CDH6.2.0安装(多次安装,绝对无坑)

    CDH(Cloudera Distribution Including Apache Hadoop)是 Cloudera 提供的一个全面的大数据处理平台,包含 Hadoop、Hive 等组件,用于大数据管理和分析。 **一、安装环境准备** 在开始安装之前,确保系统环境满足...

    hadoop-2.5.0-cdh5.3.1centos6.4本地库

    在CDH(Cloudera Distribution Including Apache Hadoop)5.3.1版本中,这是对Hadoop的一个企业级封装,它包含了各种Hadoop相关组件和服务,如HBase、Hive、Spark等,以及针对不同硬件和操作系统的优化。CDH的目标是...

    Linux上CentOS 7 安装CDH 5.12.1进行集群搭建

    CDH(Cloudera Distributed Hadoop)是由Cloudera公司提供的一个全面的大数据管理平台,包含了多种开源大数据处理项目,如Hadoop、HBase、Spark等。CDH 5.12.1版本提供了对企业级大数据环境的管理和监控功能,包括...

    centos7安装CDH5.X.X

    CDH(Cloudera Distribution Including Apache Hadoop)是由Cloudera公司提供的一个开源大数据平台,它包含了多个Apache Hadoop生态系统组件,如HDFS、MapReduce、YARN、HBase等。下面是一步步的安装流程: ### 一...

    Cloudera Custom Training: Hands-On Exercises

    本次Cloudera定制培训手册提供的是一系列的实践练习,覆盖了Hadoop、Spark、HBase、Impala等多种技术栈,并以动手实操的方式加深理解。 ### Hadoop操作练习 - **查询Hadoop数据**:使用Apache Impala进行Hadoop数据...

    hadoop-2.6.0-cdh5.14.0-with-centos6.9.tar.gz

    这个压缩包“hadoop-2.6.0-cdh5.14.0-with-centos6.9.tar.gz”是针对CDH(Cloudera Distribution Including Apache Hadoop)版本5.14.0的Hadoop 2.6.0安装包,特别优化以适应CentOS 6.9操作系统。在大数据领域,...

    cloudera 5.12.zip

    这个版本的Cloudera Manager和CDH(Cloudera Distribution Including Apache Hadoop)组合在一起,为用户提供了数据存储、处理和分析的一站式服务。下面我们将详细探讨Cloudera 5.12的核心特点、安装过程以及它所...

    CentOS-6.8安装CDH-5.11.1教程.docx

    Cloudera Manager(CM)是CDH的核心组成部分,它是一个强大的管理工具,用于在集群中安装、配置、监控和管理Hadoop相关服务。CM简化了Hadoop集群的运维工作,通过Web界面,管理员可以轻松地执行任务,如添加或删除...

    hadoop笔记2.pdf

    例如,在安装和配置Hadoop集群时,需要使用Linux命令进行环境设置,以及编写shell脚本来自动化管理任务。 在搭建Hadoop大数据平台时,通常会用到CentOS这个稳定的操作系统。在新建CentOS7虚拟机时,需要注意配置根...

    Centos7.6自动化安装CDH6.2.0脚本.docx

    CDH是一款开源的大数据平台,包含了Hadoop、HBase、Spark等组件,提供了一整套大数据处理解决方案。此脚本针对CentOS 7.6操作系统,旨在简化CDH6.2.0的部署过程。 1. **脚本使用说明** - 在开始安装前,务必确保你...

    Hadoop学习文档.pdf

    1. CDH基于Centos和Ubuntu的安装:解释CDH(Cloudera's Distribution Including Apache Hadoop)的安装方法,以及如何在不同的Linux发行版上进行安装。 2. TDH(Tencent Distributed Hadoop)发行版本:介绍腾讯提供...

    cloudera CDH4 installation guide 4.0(pdf)

    CDH4(Cloudera's Distribution Including Apache Hadoop)是Cloudera公司提供的一款基于Apache Hadoop的发行版,它集成了众多大数据处理组件,如HDFS、MapReduce、Hive、Pig、HBase等,为企业级大数据分析提供了...

    CHD3安装部署手册

    CDH3是Cloudera在Hadoop 0.20.x基础上构建的一个稳定版本,它集成了当时最新的Hadoop生态系统组件,如HBase、Pig、Hive、Oozie等。CDH3的目标是提供企业级的数据存储和处理能力,包括高可用性、安全性以及性能优化。...

Global site tag (gtag.js) - Google Analytics