官方doc
https://wiki.cloudera.com/display/DOC/HBase+Installation
首先升级yum:
在 /etc/yum.repos.d/ 下创建cloudera-cdh3.repo 然后把
[cloudera-cdh3]
name=Cloudera's Distribution for Hadoop, Version 3
mirrorlist=http://archive.cloudera.com/redhat/cdh/3/mirrors
gpgkey = http://archive.cloudera.com/redhat/cdh/RPM-GPG-KEY-cloudera
gpgcheck = 0
追加到cloudera-cdh3.repo 里。
然后执行:
yum update yum
参照:
https://wiki.cloudera.com/display/DOC/CDH3+Installation
安装hadoop:
更新好yum 就能通过yum 下载hadoop 了 很方便。
在集群中每个节点都下载hadoop
yum install hadoop-0.2X
然后创建hadoop用户(这里注意,下载了cloudera 的hadoop 后,会自动创建一个hadoop组和两个用户:mapred、hdfs 。 用户本人没用)
所以创建用户时必须加上 -g hadoop (吧hadoop 用户也加入hadoop组)
修改hadoop集群配置文件:
vi /etc/hadoop/conf/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value> <!--hdfs 备份最好多做些,防止数据丢失-->
</property>
<property>
<name>dfs.name.dir</name>
<value>/data/namenode</value>
</property>
<property>
<!-- specify this so that running 'hadoop namenode -format' formats the right dir -->
<name>dfs.data.dir</name>
<value>/data/datanode</value>
</property>
</configuration>
vi /etc/hadoop/conf/mapred-site.xml (因为hbase和mapreduce 没关系,所以这个配置文件没做详细修改)
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hbase150:9001</value>
</property>
<!--add fair schedualer -->
<property>
<name>mapred.jobtracker.taskScheduler</name>
<value>org.apache.hadoop.mapred.FairScheduler</value>
</property>
<property>
<name>mapred.fairscheduler.allocation.file</name>
<value>/etc/hadoop/conf/pools.xml</value>
</property>
<!-- Enable Hue plugins -->
<property>
<name>mapred.jobtracker.plugins</name>
<value>org.apache.hadoop.thriftfs.ThriftJobTrackerPlugin</value>
<description>Comma-separated list of jobtracker plug-ins to be activated.
</description>
</property>
<property>
<name>jobtracker.thrift.address</name>
<value>0.0.0.0:9290</value>
</property>
</configuration>
vi /etc/hadoop/conf/core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hbase150:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/tmp</value>
</property>
</configuration>
各节点之间的hadoop用户ssh无密码登陆以及其它细节这里就不说了,网上多的是,配置文件贴出来是希望分享下,或者接受大家 宝贵耳朵建议。
启动hdfs(不用启动mapreduce。):
执行 /usr/lib/hadoop/bin/start-dfs.sh
注意:启动会遇到用户权限问题。因为cloudera 吧hdfs相关的目录权限设置的是hdfs用户(mapreduce 也是) 所以这里就需要用root 把相关目录给hadoop: chown -R hadoop [目录名]
还有启动之前需要对namenode 进行format 这里会问是否真的要format [Y/N] 千万别输入小写的y 要输入大写.. 因为这个我郁闷了好久..
还有namenode 的safemode leave 的时候,出现没有权限的报错,提示大概是:需要更高权限的用户。 而我的用户是hadoop 对hdfs来说是最高权限的用户啊。郁闷了很久后 发现时namenode 没启动起来导致的。。。
hdfs成功启动后,安装zookeeper (hbase需要zookeeper)
hbase自带有zookeeper 我这里是自己安装zookeeper。
参照
https://wiki.cloudera.com/display/DOC/ZooKeeper+Installation
即可搭建起zookeeper集群
遇到的问题类似 ,同样是因为用cloudera 的zookeeper时会有目录所属用户问题。 把相关目录全chown 给hadoop就行。
还遇到个棘手的问题就是:参照上篇博客:
http://cloudera.iteye.com/blog/902949
还有,这里我没有用cloudera 的命令:
/etc/init.d/hadoop-zookeeper start
因为cloudera 的这个启动文件会自动su 到zookeeper 用户,而我全是用hadoop用户操作的。
所以我是用:
/usr/lib/zookeeper/bin/zkServer.sh start
启动的。
可用
/usr/lib/zookeeper/bin/zkServer.sh status
查看状态
用
/usr/lib/zookeeper/bin/zkServer.sh stop
停止。
zookeeper集群安装完毕后即可安装hbase
安装hbase:
参照:
https://wiki.cloudera.com/display/DOC/HBase+Installation
我也没用cloudera 的启动,原因同上。
我用:
/usr/lib/hbase/bin/start-hbase.sh
启动。这里注意了,需要修改start-hbase.sh的源码。因为hbase会自动启动zookeeper 所以注释掉源码中的zookeeper启动的那行。
stop-hbase.sh亦是。
另外 这种启动方式还需要在master中配置/etc/hbase/conf/regionservers
这样只需在master 中执行启动hbase 的命令即可,不用再slaves 中逐一启动regionserver了。
最后,想说下,最好把日志log 都统一管理起来。我吧日志都放到/data/log 下了。 (/data目录是我专门用来放hadoop hbase 的东西的,namenode 和datanode 也全都在/data目录下。)
分享到:
相关推荐
总结,Cloudera Manager 5.10.0在CentOS7上的安装和配置是一个关键的步骤,它能有效地管理和优化CDH集群,确保大数据处理的高效和稳定。通过本文的详细步骤,相信读者已经掌握了这一过程,并能够熟练应用到实际环境...
一. Cloudera Manager 4 二. 下载地址 4 三....四. 机器设置 5 1. 网络配置 5 2. 修改主机名(hostname) 6 3. 关闭selinux 6 4. 子节点互通配置 6 ...5. 启动service cloudera-scm-agent start 失败 42
Centos7 安装Cloudera。本文适用于安装最新版本的Cloudera Manger,在1.2 节中请选择最近版本的 Cloudera manager相关rpm安装包下载,并在后面的步骤中使用对应的rpm安装。否则在3.3节中安装 cm服务到40%时会卡住不...
CDH(Cloudera Distributed Hadoop)是由Cloudera公司提供的一个全面的大数据管理平台,包含了多种开源大数据处理项目,如Hadoop、HBase、Spark等。CDH 5.12.1版本提供了对企业级大数据环境的管理和监控功能,包括...
本次Cloudera定制培训手册提供的是一系列的实践练习,覆盖了Hadoop、Spark、HBase、Impala等多种技术栈,并以动手实操的方式加深理解。 ### Hadoop操作练习 - **查询Hadoop数据**:使用Apache Impala进行Hadoop数据...
在构建大数据处理环境时,CM_CDH(Cloudera Manager + CDH)是一个常见的选择,它提供了一套全面的数据管理平台,集成了多种大数据服务,包括HDFS、Hadoop、HBase、Spark、Oozie、Sqoop、MapReduce(MR)、Zookeeper...
5. **易于管理**:通过Cloudera Manager,管理员可以轻松监控集群状态、部署和服务配置,简化了运维工作。 6. **全面的分析工具**:集成了多种数据分析工具,如Impala、Hive、Pig、HBase等,满足不同场景下的需求。...
1. **软件环境**:在开始搭建之前,确保所有的服务器运行在兼容的操作系统上,通常推荐使用Red Hat Enterprise Linux或者CentOS。CDH5.13.1要求操作系统版本为6或7,并且需要Java环境,通常是JDK 1.7或更高。 2. **...
5. **启动 CM 服务**:启动 CM 服务器和数据库服务,如 `systemctl start cm-agent` 和 `systemctl start cloudera-scm-server-db`。 6. **配置 CM**:通过浏览器访问 CM 的 Web 界面,完成初始配置,包括添加集群...
5. 主机名配置也是关键步骤,集群中所有主机的主机名不能包含下划线“_”,因为Cloudera Manager不识别这样的主机名。 6. 安装路径推荐使用/opt目录,这样可以保证安装结构的统一性。 7. 操作系统依赖项,如Red Hat...
2. **CentOS**:CentOS是一个基于Red Hat Enterprise Linux的开源操作系统,因其稳定性而被广泛用于生产环境,包括大数据集群的搭建。 3. **64位系统**:在64位系统中,可以处理更大的内存和数据量,对于处理大数据...
CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的一个开源大数据平台,包含了Hadoop生态系统中的多个组件,如HDFS、MapReduce、YARN、HBase、Hive等。 1. **基础环境**: - 在开始搭建...
CDH(Cloudera Distribution Including Apache Hadoop)是由Cloudera公司提供的一个开源大数据平台,它包含了多个Apache Hadoop生态系统组件,如HDFS、MapReduce、YARN、HBase等。下面是一步步的安装流程: ### 一...
《Cloudera Enterprise 5.x 部署详解》 Cloudera Enterprise 5.x 是一个全面的企业级大数据处理平台,提供了数据管理、分析和安全的一体化解决方案。本文将详细阐述其部署过程,主要涉及四个核心步骤:集群服务器...
在本文中,我们将深入探讨如何在CentOS 6.2环境下安装Cloudera's Hadoop Distribution (CDH) 4.3版本。CDH是Cloudera公司提供的一款开源大数据处理平台,它集成了Hadoop生态系统中的多个组件,如Hadoop、Zookeeper和...
### Cloudera Impalad分布式集群部署详解 #### 一、概述 Cloudera Impala 是一款用于查询存储在 ...通过遵循这些步骤,可以顺利地完成 Cloudera Impala 集群的搭建,并为其后续的数据分析和处理任务提供强大的支持。
本文档旨在提供一个详细的指南,帮助读者理解如何在CentOS 6环境下快速搭建Cloudera Data Hub (CDH) 5.x集群。此教程涵盖了从准备环境到最终成功部署的所有关键步骤,特别适用于那些希望通过本地安装方式来构建大...
自动化安装脚本在IT运维领域中是提高效率的重要工具,特别是在大规模集群环境中,例如安装Cloudera Data Hub (CDH)。CDH是一款开源的大数据平台,包含了Hadoop、HBase、Spark等组件,提供了一整套大数据处理解决方案...
【CDH介绍】 CDH(Cloudera's Distribution, including Apache Hadoop)是由Cloudera...Cloudera Manager的使用大大降低了管理和维护大数据集群的复杂性,使得企业能够更专注于数据处理和分析,而不是基础架构的运维。
4. **集群配置与启动**:通过Cloudera Manager Web界面配置并启动CDH集群,包括HDFS、YARN、HBase、Hive等组件。 5. **验证集群状态**:通过Cloudera Manager Web界面检查集群状态,确保所有服务正常运行。 #### 四...