目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本。
搭建环境:CentOS6.5 + CDH5 + JDK7
主:192.168.157.130 master
从:192.168.157.131 slave1
从:192.168.157.132 slave2
----------------------------------------------------------------------------------------------------
Step 1:关闭防火墙
a、查看防火墙是否关闭:
service iptables status
service ip6tables status
b、暂时关闭防火墙:
service iptables stop
service ip6tables stop
c、永久关闭防火墙:
chkconfig iptables off
chkconfig ip6tables off
Step 2:关闭SELinux
a、查看SELinux状态:
/usr/sbin/sestatus –v 或 getenforce
vim /etc/selinux/config
或
vim /etc/sysconfig/selinux
将SELINUX=enforcing改为SELINUX=disabled
Step 3:修改HostName
a、修改hostname:
vim /etc/sysconfig/network(主:master,从1:slave1,从2:slave2)
b、修改每台机器上的/etc/hosts文件:
192.168.157.130 master
192.168.157.131 slave1
192.168.157.132 slave2
Step 4:配置SSH免密码功能(master上root用户执行)
a、生成ssh的公共和私有密钥对:
ssh-keygen -t rsa
生成的过程中提示输入密钥对保存位置,直接回车,接受默认值就行了。接着会提示输入一个不同于你的password的密码,直接回车,让它空着。当然,也可以输入一个。
其中,公共密钥保存在 ~/.ssh/id_rsa.pub 私有密钥保存在 ~/.ssh/id_rsa
b、将authorized_keys拷贝到其他几台Slave上:
(可能会出现权限问题,请确保关闭防火墙,且互相之间配置了主机信任)
scp ~/.ssh/authorized_keys root@slave1:~/.ssh/
scp ~/.ssh/authorized_keys root@slave2:~/.ssh/
c、三台主机重启,测试免密功能是否配置成功:
ssh slave1
ssh slave2
没有提示输入密码,就表示成功了,最后可以通过”exit”退出ssh
Step 5:安装JDK(请根据CDH版本选择对应JDK,本次安装采用JDK7)
b、安装
rpm -ivh jdk-7u51-linux-x64.rpm
c、添加java环境变量
vim /etc/profile
d、在/etc/profile文件里添加以下内容:
JAVA_HOME=/usr/java/latest
PATH=$PATH:$JAVA_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export JAVA_HOME CLASSPATH
e、最后执行source,是环境变量生效
source /etc/profile
Step 6:安装ntp服务(视具体情况)
hadoop集群对于时间同步非常严格,请查看本集群主机时钟是否同步,如已存在ntp同步服务,则可以跳过此步骤。
Step 7:创建hadoop用户
a、创建用户和组:(根据实际情况创建)
groupadd hdfs
useradd hadoop -g hdfs
passwd hadoop
b、赋予hadoop用户sudo权限:
visudo
c、添加如下内容:
hadoop ALL=(ALL) ALL
相关推荐
CDH是业界广泛采用的企业级Hadoop发行版,它不仅集成了Hadoop的核心组件,还包含了其他的开源大数据项目,如Hive、Pig、Spark、Impala等,提供了一整套大数据处理和分析解决方案。CDH 5.16.2是CDH系列的一个重要更新...
这个压缩包包含了一整套大数据处理所需的环境和工具,适合用于搭建一个全面的Hadoop测试或开发环境。用户可以通过解压安装这些组件,进行大数据的存储、处理、分析和管理实践。同时,对这些技术的学习和掌握,对于...
【Hadoop-2.6.0-cdh5.14.4 for Windows】是一个专为Windows操作系统编译的Hadoop发行版,适用于测试和开发环境。这个版本是基于Cloudera Distribution Including Apache Hadoop(简称CDH)的5.14.4版本,集成了多个...
在本安装手册中,我们将详述如何在Linux环境中安装Hadoop-2.0.0-cdh4.3.0版本,这是一个广泛应用于大数据处理的开源框架。Hadoop由Apache Software Foundation维护,它允许分布式存储和处理大规模数据集,是云计算...
总的来说,Hadoop-0.20.2-cdh3u6不仅提供了Hadoop的基本功能,还整合了一系列与大数据处理相关的工具和服务,为企业级的大数据平台搭建提供了便利。这个版本的发布,标志着Hadoop在应对大数据挑战方面又向前迈进了...
这个"hadop 2.6.0 安装包"是为了帮助用户搭建和配置Hadoop环境,特别适用于大数据处理和分析。 1. **Hadoop的核心组件** - **HDFS(Hadoop Distributed File System)**:分布式文件系统,负责数据的存储。HDFS...
hadoop-2.5.0-cdh5.3.6集群搭建-附件资源
解压“hadoop-2.6.0-cdh5.5.4.tar.gz”后,用户可以按照官方文档或社区指南进行安装和配置,搭建起一个运行在本地或云端的大数据处理环境。在实际应用中,根据业务需求,可以选择合适的组件组合,构建高效、稳定的...
【标题】"hadoop-2.6.0-cdh5.14.0 for windows" 指的是一个特别为Windows操作系统编译的Hadoop发行版,它基于Cloudera的Distribution Including Apache Hadoop(简称CDH)的5.14.0版本。Hadoop是一个开源的大数据...
"hadoop-0.20.2-cdh3u4"是Cloudera公司基于Hadoop 0.20.2版本的一个发行版,称为CDH3u4,其中"CDH"代表Cloudera Distribution Including Apache Hadoop,"u4"则是该发行版的第四个更新版本。 Hadoop的核心组件主要...
分布式环境搭建(CDH版) 在云计算和大数据处理领域,Hadoop CDH(Cloudera's Distribution Including Apache Hadoop)是被广泛采用的一种开源Hadoop发行版,它提供了丰富的组件和工具,使得企业能够轻松管理和运行...
`hadoop.dll`是Hadoop在Windows环境下运行所必需的一个动态链接库(Dynamic Link Library)文件。在Linux系统中,Hadoop依赖于`libhadoop.so`这样的共享对象文件,而在Windows上,相应的依赖变成了`hadoop.dll`。这...
CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的基于Apache Hadoop的发行版,包含了Hadoop生态系统的多个组件,包括Zookeeper。在CDH5.15.1版本中,Zookeeper被优化以更好地支持大数据...
本文将详细介绍如何在Windows环境下搭建Hadoop2.6.0版本。首先,我们需要从指定的下载地址获取CDH(Cloudera Distribution Including Apache Hadoop)提供的Hadoop2.6.0-cdh5.13.0的压缩包,地址为:...
CDH(Cloudera Distribution Including Apache Hadoop)作为Hadoop的一个发行版,因其高度集成性和易用性而受到广泛欢迎。本文将详细介绍如何在单台机器上搭建Hadoop CDH版本的伪分布式集群,并通过图文形式进行指导...
这个"spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz"压缩包是Spark的一个特定版本,用于与Cloudera Distribution Including Apache Hadoop (CDH) 5.14.0兼容。CDH是Cloudera公司提供的一个全面、集成、管理的Hadoop堆栈,...
以下是对CDH搭建Hadoop和YARN集群的详细步骤及注意事项的解析: 1. **离线安装的准备工作**: - **JDK**:确保系统安装了兼容的JDK,这里推荐使用JDK 1.8。 - **MySQL与JDBC驱动**:MySQL数据库和对应的JDBC驱动...
CDH版本Hadoop 伪分布式环境搭建 服务规划 步骤 第一步:上传压缩包并解压 cd /export/softwares/ tar -zxvf hadoop-2.6.0-cdh5.14.0.tar.gz -C ../servers/ 第二步:查看Hadoop支持的压缩方式以及本地库 cd /...
【Hadoop(CDH)分布式环境搭建】是大数据处理中的一项基础任务,主要目的是在多台机器上构建一个能够高效处理大规模数据的系统。CDH(Cloudera Distribution Including Apache Hadoop)是由Cloudera公司提供的一个...