软件及版本:
Hadoop版本 |
hadoop-2.5.2 |
|
操作系统 |
Red Hat Linux 6.4 |
32bit |
JDK版本 |
jdk-8u25-linux-i586.rpm |
软件准备:
下载hadoop-2.5.2:
wget http://mirror.bit.edu.cn/apache/hadoop/common/stable2/hadoop-2.5.2.tar.gz
下载JDK:jdk-8u25-linux-i586.rpm
http://www.oracle.com/technetwork/java/javase/index.html
总体的流程如下:
1、实现ssh无密码验证配置
2、安装jdk,并配好环境变量
3、安装与配置Hadoop
4、格式化与启动
5、验证是否启动
一.主机之间SSH无密码验证
利用 : ssh-kengen –t rsa 命令产生公钥,将个主机之间的公钥,相互拷贝到authorized_keys文件内。
二.安装JDK
安装好后,用java -version 检验下
配置环境变量:
点击(此处)折叠或打开
- ###set java_env
- export JAVA_HOME=/usr/java/jdk1.8.0_25/
- export JRE_HOME=/usr/java/jdk1.8.0_25/jre
- export CLASS_PATH=.:$CLASS_PATH:$JAVA_HOME/lib:$JRE_HOME/lib
- export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
- ###set hadoop_env
- export HADOOP_HOME=/home/zhang/hadoop-2.5.2
- export HADOOP_COMMON_HOME=$HADOOP_HOME
- export HADOOP_HDFS_HOME=$HADOOP_HOME
- export HADOOP_MAPRED_HOME=$HADOOP_HOME
- export HADOOP_YARN_HOME=$HADOOP_HOME
- export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
- export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/lib
- export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
- export HADOOP_OPTS=\"-Djava.library.path=$HADOOP_HOME/lib\"
三.部署配置Hadoop
解压Hadoop 到 自己的hadoop 目录
配置相关的配置文件
2.5.x版本的配置文件在:$Hadoop_Home/etc/hadoop 目录下
2.X版本较1.X版本改动很大,主要是用Hadoop MapReduceV2(Yarn) 框架代替了一代的架构,其中JobTracker 和 TaskTracker 不见了,取而代之的是 ResourceManager, ApplicationMaster 与 NodeManager 三个部分,而具体的配置文件位置与内容也都有了相应变化,具体的可参考文献:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/
(1)hadoop/etc/hadoop/hadoop-env.sh 与 hadoop/etc/hadoop/yarn-env.sh来配置两个文件里的JAVA_HOME
(2)etc/hadoop/core-site.xml,配置为:
点击(此处)折叠或打开
- <configuration>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/home/zhang/hadoop-2.5.2/tmp</value>
- <description>A base for other temporary directories.</description>
- </property>
- <property>
- <name>fs.default.name</name>
- <value>hdfs://namenode:9000</value>
- </property>
- <property>
- <name>io.file.buffer.size</name>
- <value>131072</value>
- </property>
- <property>
- <name>hadoop.proxyuser.root.hosts</name>
- <value>namenode</value>
- </property>
- <property>
- <name>hadoop.proxyuser.root.groups</name>
- <value>*</value>
- </property>
- </configuration>
(3)etc/hadoop/hdfs-site.xml,配置为: (注意:这里需要自己手动用mkdir创建name和data文件夹,具体位置也可以自己选择,其中dfs.replication的值建议配置为与分布式 cluster 中实际的 DataNode 主机数一致。)
点击(此处)折叠或打开
- <configuration>
- <property>
- <name>dfs.namenode.name.dir</name>
- <value>/home/zhang/hadoop-2.5.2/hdfs/name</value>
- <final>true</final>
- </property>
- <property>
- <name>dfs.datanode.data.dir</name>
- <value>/home/zhang/hadoop-2.5.2/hdfs/data</value>
- <final>true</final>
- </property>
- <property>
- <name>dfs.replication</name>
- <value>2</value>
- </property>
- <property>
- <name>dfs.permissions</name>
- <value>false</value>
- </property>
- </configuration>
(4)etc/hadoop/mapred-site.xml,配置为:
点击(此处)折叠或打开
- <configuration>
- <property>
- <name>mapreduce.framework.name</name>
- <value>Yarn</value>
- </property>
- <property>
- <name>mapreduce.jobhistory.address</name>
- <value>namenode:10020</value>
- </property>
- <property>
- <name>mapreduce.jobhistory.webapp.address</name>
- <value>namenode:19888</value>
- </property>
- <property>
- <name>mapreduce.jobhistory.intermediate-done-dir</name>
- <value>/mr-history/tmp</value>
- </property>
- <property>
- <name>mapreduce.jobhistory.done-dir</name>
- <value>/mr-history/done</value>
- </property>
- </configuration>
(5)etc/hadoop/yarn-site.xml对yarn进行配置:
点击(此处)折叠或打开
- <configuration>
- <!-- Site specific YARN configuration properties -->
- <property>
- <name>Yarn.nodemanager.aux-services</name>
- <value>mapreduce.shuffle</value>
- </property>
- <property>
- <name>Yarn.resourcemanager.address</name>
- <value>namenode:18040</value>
- </property>
- <property>
- <name>Yarn.resourcemanager.scheduler.address</name>
- <value>namenode:18030</value>
- </property>
- <property>
- <name>Yarn.resourcemanager.resource-tracker.address</name>
- <value>namenode:18025</value>
- </property>
- <property>
- <name>Yarn.resourcemanager.admin.address</name>
- <value>namenode:18041</value>
- </property>
- <property>
- <name>Yarn.resourcemanager.webapp.address</name>
- <value>namenode:8088</value>
- </property>
- <property>
- <name>Yarn.nodemanager.local-dirs</name>
- <value>/home/zhang/hadoop-2.5.2/mynode/my</value>
- </property>
- <property>
- <name>Yarn.nodemanager.log-dirs</name>
- <value>/home/zhang/hadoop-2.5.2/mynode/logs</value>
- </property>
- <property>
- <name>Yarn.nodemanager.log.retain-seconds</name>
- <value>10800</value>
- </property>
- <property>
- <name>Yarn.nodemanager.remote-app-log-dir</name>
- <value>/logs</value>
- </property>
- <property>
- <name>Yarn.nodemanager.remote-app-log-dir-suffix</name>
- <value>logs</value>
- </property>
- <property>
- <name>Yarn.log-aggregation.retain-seconds</name>
- <value>-1</value>
- </property>
- <property>
- <name>Yarn.log-aggregation.retain-check-interval-seconds</name>
- <value>-1</value>
- </property>
- </configuration>
四.启动测试
(1)用scp 命令将hadoop文件夹拷贝到所有的节点机器相同路径上。
(2)验证一下SSH 无密码访问已经没有问题了
(3)关闭防火墙
如果不关闭的话可能造成,无法访问端口的问题。不关闭防火墙也可以将对应的相关端口打开比如 namenode上:9000端口
方法:http://blog.itpub.net/28929558/viewspace-1353996/
(4)启动测试
格式化:namdenode
hadoop/bin/hadoop namenode -format
查看打印信息的倒数第三行:Storage directory ~/hadoop-2.5.2/hdfs/name has been successfully formatted
则说明成功了!
启动 hdfs :
sbin/start-dfs.sh
jps 查看 namenode 上: NameNode SecondaryNameNode
datanode shang : DataNode
启动 yarn :start-yarn.sh
jps 查看 namenode 上: NameNode SecondaryNameNode ResourceManager
datanode shang : DataNode NodeManager
用 hdfs dfsadmin -report 检验一下
9189 NameNode
[zhang@namenode sbin]$ hdfs dfsadmin -report
14/12/01 23:19:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Configured Capacity: 8177262592 (7.62 GB)
Present Capacity: 4473057280 (4.17 GB)
DFS Remaining: 4473032704 (4.17 GB)
DFS Used: 24576 (24 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0
-------------------------------------------------
Live datanodes (1):
Name: 10.0.128.124:50010 (datanode01)
Hostname: datanode01
Decommission Status : Normal
Configured Capacity: 8177262592 (7.62 GB)
DFS Used: 24576 (24 KB)
Non DFS Used: 3704205312 (3.45 GB)
DFS Remaining: 4473032704 (4.17 GB)
DFS Used%: 0.00%
DFS Remaining%: 54.70%
Configured Cache Capacity: 0 (0 B)
Cache Used: 0 (0 B)
Cache Remaining: 0 (0 B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Xceivers: 1
Last contact: Mon Dec 01 23:19:15 PST 2014
测试放入数据文件,并查看:
[zhang@namenode sbin]$ hadoop fs -put ../../input/ /input
14/12/02 00:18:01 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
[zhang@namenode sbin]$ hadoop fs -cat /input/test.txt
14/12/02 00:18:35 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
hello word !
验证完毕!
相关推荐
本文将详细介绍如何从零开始安装和部署Hadoop 2.5.2版本。以下是详细步骤: 1. **先决条件** 在开始Hadoop的安装之前,确保你有一台或多台Linux服务器(例如Ubuntu、CentOS等),并具备一定的Linux基础操作技能。...
### hadoop2.5.2在Windows下的Eclipse环境搭建详解 #### 一、Hadoop简介 Hadoop是由Apache基金会所开发的一个开源分布式计算框架,主要用于处理和存储大规模数据集。它通过分布式文件系统(HDFS)和MapReduce编程...
在这个场景中,我们关注的是Hadoop的2.5.2版本。这个版本在Hadoop的发展历程中扮演了重要角色,因为它带来了许多改进和优化,使得大数据处理更加高效和稳定。 Hadoop的核心由两个主要组件构成:Hadoop Distributed ...
为了部署和运行Hadoop 2.5.2,你需要按照以下步骤进行操作: 1. 解压压缩包到一个适当的目录。 2. 配置Hadoop环境变量,如`HADOOP_HOME`和`PATH`。 3. 修改conf目录下的配置文件以适应你的集群环境。 4. 初始化HDFS...
38_hadoop_hadoop2.5.2的安装部署01 39_hadoop_hadoop2.5.2的安装部署02 40_hadoop_hadoop2.5.2的安装部署03 41_hadoop_hadoop2.5.2的安装部署04 42_hadoop_hadoop2.5.2的安装部署05 43_hadoop_hadoop2.5.2的安装...
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据...
6. **Hadoop框架**:深入学习Hadoop 2.5.2版本的架构和配置,包括HDFS的管理和MapReduce的编程模型。 7. **WordCount程序**:这是Hadoop的入门示例,用于统计文本文件中单词的出现次数。程序包括Mapper和Reducer两...
这些文件"hadop-eclipse-plugin-2.5.2.jar"、"hadoop-eclipse-plugin-2.6.0.jar"和"hadoop-eclipse-plugin-2.6.5.jar"分别对应Hadoop的2.5.2、2.6.0和2.6.5版本的插件。 **Hadoop核心组件:** 1. **HDFS(Hadoop ...
- 解压Hadoop压缩包:`tar -zxvf hadoop2.5.2.tar.gz`。 - 进入Hadoop安装目录下的`etc/hadoop/`。 2. **环境变量配置**: - 修改`hadoop-env.sh`文件中的`JAVA_HOME`环境变量指向JDK安装路径: ```bash export...
这个压缩包包含了两个版本的Hadoop Eclipse Plugin,即hadoop-eclipse-plugin-1.1.2.jar和hadoop-eclipse-plugin-2.5.2.jar,这两个版本分别对应了Hadoop的不同发行版。 1. **Hadoop简介** Hadoop是Apache软件基金...
在本例中,我们将学习如何在 Linux 环境下安装部署 Sqoop 1,并配置与 MySQL 数据库的连接。 首先,我们从资源目录中获取 Sqoop 的安装包。在终端中,使用 `cp` 命令将 Sqoop 的 tarball 文件复制到当前用户的主...
- **Hadoop 版本:** hadoop-2.5.2 或 hadoop-2.6.0 或更高版本 - **Java 版本:** Oracle JDK 7u80 **1.2 下载 Hadoop** - 下载 Hadoop-2.6.0 版本。 **1.3 设置 HADOOP_HOME 环境变量** - 在用户主目录下的 `....
Ambari是Apache Hadoop生态系统中的一个开源工具,主要用于集群的部署、管理和监控。它提供了一个用户友好的Web界面,简化了Hadoop组件的安装和维护过程。在本案例中,我们将关注如何使用Ambari进行Solr的离线安装。...
安装和部署 Spark 伪分布模式需要预先安装好 JDK、Hadoop 和 Scala 语言,然后下载和解压 Spark 安装包,添加环境变量命令,配置 slaves 和 spark-env.sh 文件,最后启动 Spark。 通过本文的指导,读者可以轻松地...
目前,Hadoop生态系统平台包括: Hadoop(版本2.5.2) HBase(版本1.1.2) Spark(版本1.5.1) Pig(版本0.15.0) 它可以根据您的需要调整hadoop集群节点,默认节点为3。用法git clone ...
它简化了Hadoop集群的部署过程,并提供了直观的用户界面来管理各种组件和服务。该文档详细介绍了如何使用Intel® Manager for Hadoop进行集群管理和监控。 #### 二、Intel® Manager for Hadoop简介 **2.1 登录...
当前版本Apache Hive(主干版) Apache Tez 0.5.2 Apache Hadoop 2.5.2 PostgreSQL 9.3(Hive 元存储后端)在 Mac OS X 上运行此步骤仅适用于 Mac OS X,因为 Mac OS X 本身不支持 docker。要在 Mac OS X 上运行 ...