`

Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建

 
阅读更多

OS: CentOS 6.4 x86_64
Servers:
hadoop-master: 172.17.20.230 内存10G
- namenode

hadoop- secondarynamenode: 172.17.20.234 内存10G
- secondarybackupnamenode,jobtracker

hadoop-node-1: 172.17.20.231 内存10G
- datanode,tasktracker

hadoop-node-2: 172.17.20.232 内存10G
- datanode,tasktracker

hadoop-node-3: 172.17.20.233 内存10G
- datanode,tasktracker

对以上角色做一些简单的介绍:
namenode - 整个HDFS的命名空间管理服务
secondarynamenode - 可以看做是namenode的冗余服务
jobtracker - 并行计算的job管理服务
datanode - HDFS的节点服务
tasktracker - 并行计算的job执行服务

本文定义的规范,避免在配置多台服务器上产生理解上的混乱:
所有直接以 $ 开头,没有跟随主机名的命令,都代表需要在所有的服务器上执行,除非后面有单独的//开头或在标题说明。

1. 选择最好的安装包
为了更方便和更规范的部署Hadoop集群,我们采用Cloudera的集成包。
因为Cloudera对Hadoop相关的系统做了很多优化,避免了很多因各个系统间版本不符产生的很多Bug。
这也是很多资深Hadoop管理员所推荐的。
https://ccp.cloudera.com/display/DOC/Documentation/

2. 安装Java环境
由于整个Hadoop项目主要是通过Java开发完成的,因此需要JVM的支持。
登陆www.oracle.com(需要创建一个ID),从以下地址下载一个64位的JDK,如jdk-7u45-linux-x64.rpm

http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

$ sudo rpm -ivh jdk-7u45-linux-x64.rpm
$ sudo vim /etc/profile

1 export JAVA_HOME=/usr/java/jdk1.7.0_45
2 export JRE_HOME=$JAVA_HOME/jre
3 export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
4 export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

$ source /etc/profile

3. 配置Hadoop安装源
$ sudo rpm --import http://archive.cloudera.com/cdh4/redhat/5/x86_64/cdh/RPM-GPG-KEY-cloudera
$ cd /etc/yum.repos.d/
$ sudo wget http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/cloudera-cdh4.repo

4. 安装Hadoop相关套件,选择MRv1的框架支持
$ sudo yum install hadoop-hdfs-namenode //仅在hadoop-master上安装

 

$ sudo yum install hadoop-hdfs-secondarynamenode //仅在hadoop-secondary上安装
$ sudo yum install hadoop-0.20-mapreduce-jobtracker //仅在hadoop-secondary上安装

 

$ sudo yum install hadoop-hdfs-datanode //仅在hadoop-node上安装
$ sudo yum install hadoop-0.20-mapreduce-tasktracker //仅在hadoop-node上安装

 

$ sudo yum install hadoop-client   //有有节点上安装

 

5. 创建Hadoop配置文件
$ sudo cp -r /etc/hadoop/conf.dist /etc/hadoop/conf.my_cluster

6. 激活新的配置文件
$ sudo alternatives --verbose --install /etc/hadoop/conf hadoop-conf /etc/hadoop/conf.my_cluster 50
$ sudo alternatives --set hadoop-conf /etc/hadoop/conf.my_cluster
$ cd /etc/hadoop/conf

7. 添加hosts记录并修改对应的主机名
$ sudo vim /etc/hosts

1 127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
2 ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
3  
4 172.17.20.230 hadoop-master
5 172.17.20.234 hadoop-secondary
6 172.17.20.231 hadoop-node-1
   

8. 安装LZO支持
$ cd /etc/yum.repos.d
$ sudo wget http://archive.cloudera.com/gplextras/redhat/6/x86_64/gplextras/cloudera-gplextras4.repo
$ sudo yum install hadoop-lzo-cdh4

9. 配置hadoop/conf下的文件
$ sudo vim /etc/hadoop/conf/masters

1 hadoop-master

$ sudo vim /etc/hadoop/conf/slaves

1 hadoop-node-1
2 hadoop-node-2
3 hadoop-node-3
分享到:
评论

相关推荐

    hadoop-cdh4-0.3.zip

    1. **Hadoop CDH4**: CDH4是Cloudera公司的Hadoop发行版,包含了一系列经过测试和集成的Hadoop生态组件,如HDFS、MapReduce、YARN、HBase、Hive等,提供了企业级的稳定性和安全性。 2. **Presto**: Presto是一个高...

    Hadoop集群环境搭建

    Hadoop集群环境搭建是大数据处理的核心组件之一,本文将详细介绍Hadoop集群环境的搭建过程,包括集群规划、前置条件、免密登录、集群搭建、提交服务到集群等几个方面。 集群规划 在搭建Hadoop集群环境时,需要首先...

    CM5和CDH5 搭建Hadoop 集群

    在本篇中,我们将探讨如何使用CM5和CDH5搭建Hadoop集群,包括安装过程、可能遇到的问题以及解决方案。CM5(Cloudera Manager 5)是Cloudera公司提供的一个管理工具,用于简化Hadoop集群的部署、管理和监控。而CDH5...

    hadoop之cdh

    ### Hadoop之CDH:基于Cloudera的HA部署指南 #### 关于本指南 本文档旨在提供关于如何在Cloudera Distribution Including Hadoop (CDH)上配置高可用性的详细指南。CDH是由Cloudera公司提供的一个企业级Hadoop发行...

    hadoop集群+CDH集群8个核心配置文件

    1. **hdfs-site.xml**:这是Hadoop分布式文件系统(HDFS)的配置文件。它定义了HDFS的各种参数,如数据块大小、副本数量、命名节点(NameNode)和数据节点(DataNode)的相关设置。例如,`dfs.replication`决定了...

    hadoop-2.6.0-cdh5.7.0版本.zip

    4. **CDH**: CDH是Cloudera对Hadoop生态的商业发行版,它包含了经过测试和优化的Hadoop组件,包括HDFS、MapReduce、YARN等,同时也包含了其他如Hive(SQL查询工具)、Pig(数据流编程工具)、Oozie(工作流调度器)...

    hadoop cdh版本伪分布式集群搭建图文教程

    ### hadoop cdh版本伪分布式集群搭建图文教程详解 #### 一、引言 随着大数据技术的发展,Hadoop已成为处理大规模数据集的核心工具之一。CDH(Cloudera Distribution Including Apache Hadoop)作为Hadoop的一个发行...

    Hadoop CDH5.5.0 配置(Hdfs/Yarn HA)

    在大数据处理领域,Hadoop是不可或缺的开源框架,而Cloudera Distribution Including Apache Hadoop (CDH) 是...通过CDH提供的工具和文档,你可以有效地完成这项工作,同时不断学习和掌握Hadoop集群管理的最佳实践。

    Ubuntu 14.04 LTS下通过Cloudera CDH 5.4.8搭建Hadoop集群.pdf

    ### 在Ubuntu 14.04 LTS下通过Cloudera CDH 5.4.8搭建Hadoop集群 #### 1. 前期准备工作 ##### 1.1 集群规划 为了构建一个高效的Hadoop集群,首先需要对硬件资源进行合理规划。根据文档中的描述,该集群共有8台...

    hadoop集群维护手册.pdf

    在使用 start-balancer.sh 命令时,如果在 hdfs-site.xml 文件中没有配置 dfs.balance.bandwidthPerSec 参数,那么集群将使用默认的 1M/S 速度来平衡数据。 四、Hadoop 版本升级 Hadoop 版本升级需要注意以下几点...

    Hadoop(CDH)分布式环境搭建(简单易懂,绝对有效)1

    【Hadoop(CDH)分布式环境搭建】是大数据处理中的一项基础任务,主要目的是在多台机器上构建一个能够高效处理大规模数据的系统。CDH(Cloudera Distribution Including Apache Hadoop)是由Cloudera公司提供的一个...

    Hadoop集群

    一个Hadoop集群会同时部署HDFS集群和MapReduce集群。 MapReduce是一种编程模型,用于大规模数据集(大数据)的并行运算。MapReduce集群的核心组件包括JobTracker和TaskTracker,JobTracker负责调度作业并监控...

    Hadoop CDH5.7.0离线安装与暴力卸载(坑集锦)与暴力卸载(坑集锦)

    根据提供的标题、描述以及部分内容,本文将详细解析Hadoop CDH5.7.0的离线安装过程,并针对其中可能出现的问题进行深入分析。此外,还会介绍如何进行暴力卸载的操作,帮助读者解决在安装和卸载过程中遇到的各种“坑...

    CDH-5.10.2集群的搭建.pdf

    1、集群规模很庞大时搭建Hadoop集群复杂度越来越高,工作量很大 2、规模很大的集群下升级Hadoop版本很费时费力 3、需要自己保证版本兼容,比如升级Hadoop版本后需要自己保证与Hive、Hbase等的兼容 4、安全性很低 ...

    hadoop cdh5安装

    1. **以root用户执行二进制安装程序**:通常,Hadoop CDH5的安装包需要root权限来配置系统级服务和文件。 2. **查看和接受许可协议**:在安装过程中,你会看到产品许可信息,阅读并接受它们以继续安装。 3. **选择...

    hadoop-cdh4.6配置文件

    在IT领域,Hadoop是大数据处理的核心框架,而CDH(Cloudera Distribution Including Apache Hadoop)是由Cloudera公司提供的一个开源Hadoop发行版。CDH4.6.0是CDH系列的一个版本,它包含了对Hadoop、HBase、Hive和...

    hadoop-2.6.0-cdh5.7.0.tar.gz

    1. **Hadoop Distributed File System (HDFS)**:HDFS是Hadoop的核心组件之一,提供高吞吐量的数据访问。在Hadoop集群中,数据被分块存储在各个节点上,确保数据的冗余和容错性。 2. **MapReduce**:MapReduce是...

    hadoop-cdh4.3安装文档

    这个过程包括安装CDH4的各个组件、配置集群参数、初始化HDFS和YARN、启动服务以及进行基本的健康检查。安装过程中需要注意的是,配置文件通常位于`/etc/cassandra`目录下,而Hadoop相关服务则可以通过`service`命令...

    hadoop-2.6.0.tar.gz&hadoop-2.6.0-cdh5.16.2.tar.gz

    Hadoop-2.6.0.tar.gz是Apache官方发布的Hadoop 2.6.0源码包,包含了Hadoop的核心组件,如HDFS(Hadoop Distributed File System)、YARN以及MapReduce。用户可以通过解压此文件,编译安装来搭建自己的Hadoop环境,...

Global site tag (gtag.js) - Google Analytics