Hadoop是一个用Java编写的用于运行与物理集群中的框架,吸收了GFS和mapreduce编程模型的特性。Hadoop的HDFS是一个高容错的分布式文件系统,并且它被设计运行于低成本的硬件上,能够提供很大的数据吞吐量,很适合那些数据量很大的应用程序。
接下来,开始准备安装hadoop。我用的操作系统是 ubuntu 12.10 server,hadoop的版本是1.2.0。
安装准备
JDK 6
Hadoop需要在JDK1.5以上的环境下才能运行,目前推荐使用JDK 6 。
2 |
$ sudo apt-get install openjdk-6-jdk
|
安装完成之后,文件会被放置在 /usr/lib/jvm/java-6-openjdk-amd64 这个路径下。
配置SSH
Hadoop需要用SSH来管理它的节点。针对单机的情况,我们需要配置SSH让运行hadoop的用户能够登录本机。
首先,我们需要为运行hadoop的用户生成一个SSH key:
1 |
$ ssh -keygen -t rsa -P "" |
然后,让你可以通过新生成的key来登录本地机器。
1 |
$ cp ~/. ssh /id_rsa.pub ~/. ssh /authorized_keys
|
准备结束,下面开始安装hadoop。
Hadoop
在hadoop官网上下载 1.2.0 版本的软件,解压,然后把文件放到 /usr/local/ 路径下:
1 |
$ tar -zxvf hadoop-1.2.0. tar .gz
|
2 |
$ mv hadoop-1.2.0 hadoop
|
3 |
$ cp -r hadoop/ /usr/ local /
|
接下来开始设置一些环境变量,需要在 ~/.bashrc 文件里面添加一下内容:
02 |
export HADOOP_HOME=/usr/ local /hadoop
|
05 |
export JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd64
|
08 |
unalias fs &> /dev/null
|
10 |
unalias hls &> /dev/null
|
14 |
hadoop fs - cat $1 | lzop - dc | head -1000 | less
|
18 |
export PATH=$PATH:$HADOOP_HOME/bin
|
在修改完成后保存,重新登录,相应的环境变量就配置好了。
接下来开始配置Hadoop相关的东西,首先来看张图,了解下HDFS的结构:
配置
hadoop-env.sh
在这个配置文件里,你只需要配置 JAVA_HOME 这个环境变量就行了,添加以下内容:
1 |
export JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd64
|
conf/hdfs-site.xml
在这里需要配置hadoop存放数据文件的路径和hadoop监听的端口,首先来新建目录:
1 |
$ sudo mkdir -p /app/hadoop/tmp
|
2 |
$ sudo chmod 750 /app/hadoop/tmp
|
然后在 conf/core-site.xml 文件里面添加以下内容:
02 |
< name >hadoop.tmp.dir</ name > |
03 |
< value >/app/hadoop/tmp</ value > |
04 |
< description >A base for other temporary directories.</ description > |
08 |
< name >fs.default.name</ name > |
09 |
< value >hdfs://localhost:54310</ value > |
10 |
< description >The name of the default file system. A URI whose |
11 |
scheme and authority determine the FileSystem implementation. The |
12 |
uri's scheme determines the config property (fs.SCHEME.impl) naming |
13 |
the FileSystem implementation class. The uri's authority is used to |
14 |
determine the host, port, etc. for a filesystem.</ description > |
在 conf/mapred-site.xml 添加以下内容
2 |
< name >mapred.job.tracker</ name > |
3 |
< value >localhost:54311</ value > |
4 |
< description >The host and port that the MapReduce job tracker runs |
5 |
at. If "local", then jobs are run in-process as a single map |
在 conf/hdfs-site.xml 添加以下内容
2 |
< name >dfs.replication</ name > |
4 |
< description >Default block replication. |
5 |
The actual number of replications can be specified when the file is created. |
6 |
The default is used if replication is not specified in create time. |
通过 NameNode 来格式化 HDFS 文件系统
在配置结束后,需要来对 HDFS 进行格式化,运行一下命令:
1 |
$ /usr/ local /hadoop/bin/hadoop namenode - format |
会输出一下内容:
02 |
Warning: $HADOOP_HOME is deprecated. |
04 |
13/06/02 10:22:41 INFO namenode.NameNode: STARTUP_MSG: |
05 |
/************************************************************ |
06 |
STARTUP_MSG: Starting NameNode |
07 |
STARTUP_MSG: host = master/192.168.214.128 |
08 |
STARTUP_MSG: args = [- format ] |
09 |
STARTUP_MSG: version = 1.2.0 |
10 |
STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.2 -r 1479473; compiled by 'hortonfo' on Mon May 6 06:59:37 UTC 2013
|
11 |
STARTUP_MSG: java = 1.6.0_27 |
12 |
************************************************************/ |
13 |
Re- format filesystem in /app/hadoop/tmp/dfs/name ? (Y or N) y
|
14 |
Format aborted in /app/hadoop/tmp/dfs/name
|
15 |
13/06/02 10:22:48 INFO namenode.NameNode: SHUTDOWN_MSG: |
16 |
/************************************************************ |
17 |
SHUTDOWN_MSG: Shutting down NameNode at master/192.168.214.128 |
18 |
************************************************************/ |
下面就来运行hadoop:
1 |
$ /usr/ local /hadoop/bin/start-all.sh |
这个命令会启动机器上的 namenode,datanode,jobtracker 和 tasktracker
有一个简单的工具来检查hadoop的运行状况,jps:
你也可以通过 netstat 命令来检查 hadoop 是否正常运行:
01 |
$ sudo netstat -plten | grep java
|
02 |
tcp 0 0 0.0.0.0:50070 0.0.0.0:* LISTEN 1001 9236 2471/java |
03 |
tcp 0 0 0.0.0.0:50010 0.0.0.0:* LISTEN 1001 9998 2628/java |
04 |
tcp 0 0 0.0.0.0:48159 0.0.0.0:* LISTEN 1001 8496 2628/java |
05 |
tcp 0 0 0.0.0.0:53121 0.0.0.0:* LISTEN 1001 9228 2857/java |
06 |
tcp 0 0 127.0.0.1:54310 0.0.0.0:* LISTEN 1001 8143 2471/java |
07 |
tcp 0 0 127.0.0.1:54311 0.0.0.0:* LISTEN 1001 9230 2857/java |
08 |
tcp 0 0 0.0.0.0:59305 0.0.0.0:* LISTEN 1001 8141 2471/java |
09 |
tcp 0 0 0.0.0.0:50060 0.0.0.0:* LISTEN 1001 9857 3005/java |
10 |
tcp 0 0 0.0.0.0:49900 0.0.0.0:* LISTEN 1001 9037 2785/java |
11 |
tcp 0 0 0.0.0.0:50030 0.0.0.0:* LISTEN 1001 9773 2857/java |
停止运行 hadoop ,运行以下命令:
1 |
$ /usr/ local /hadoop/bin/stop-all.sh |
那么 hadoop 单机模式安装就完成了,下一篇来介绍多物理机模式的安装。
相关推荐
本教程主要讲述了在 Ubuntu 16.04 环境下安装 Hadoop 2.7.1 的步骤,包括单机模式、伪分布式模式和分布式模式三种安装方式。以下是本教程的知识点总结: 1. 安装前的准备工作:创建 hadoop 用户,设置密码,增加...
### 使用虚拟机在Ubuntu上搭建Hadoop平台单机模式 #### 概述 本文旨在详细介绍如何在虚拟机环境下,利用Ubuntu系统搭建Hadoop平台的单机模式。通过本教程,您可以掌握从安装虚拟机到配置Hadoop环境的全过程。本文...
Ubuntu12.04下安装Hadoop2.4.0单机模式详细教程
以上步骤完成了在Ubuntu 11.10下安装Hadoop 0.20.2(单机伪分布式)的过程。这种配置主要用于开发测试环境,能够帮助用户快速上手Hadoop的基本使用方法。在整个过程中,需要注意每个步骤的细节,特别是环境变量的...
本文将详细介绍如何在 Ubuntu 操作系统下搭建 Hadoop 的单机版与伪分布式环境。 #### 2.1 Hadoop 的单机搭建 ##### 2.1.1 准备工作 1. **安装 Ubuntu 虚拟机**:首先,需要在虚拟机中安装 Ubuntu。推荐使用 ...
本文主要介绍了在Ubuntu系统上Hadoop单机版测试环境的搭建过程。
总结,本文档详细阐述了在Ubuntu上安装Hadoop单机模式的完整过程,从操作系统安装到Hadoop用户创建,再到SSH无密码登录,涵盖了构建Hadoop环境所需的基本步骤。对于初学者来说,这是一个很好的起点,为深入学习...
本文档将详细介绍如何在Ubuntu 14.04环境下安装配置Hadoop 2.6.0版本,包括单机模式和伪分布式模式。无论您是初学者还是有一定经验的技术人员,本教程都将帮助您顺利完成Hadoop的安装和配置。 #### 二、环境准备 1....
在Ubuntu环境下搭建Hadoop伪分布式模式,主要是为了模拟多节点Hadoop集群的环境,以便于学习和测试Hadoop的功能。这个过程涉及到多个步骤,包括必要的资源下载、软件安装、环境配置以及Hadoop服务的启动与验证。以下...
在安装和配置过程中,注意了JDK版本的兼容性,以及Hadoop配置文件中的关键参数设置。在运行WordCount程序时,输入了自定义的数据文件,模拟工厂和地址的对应关系,通过Hadoop的MapReduce功能,找出并输出工厂名与...
- **单机模式**:默认情况下,Hadoop是非分布式运行的,适用于调试。例如,运行一个简单的MapReduce任务: ``` bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output '...
本教程将详细介绍如何在Ubuntu 12.10操作系统上安装Hadoop的单机版和集群版。首先,确保你已经在VMware虚拟机上安装了Ubuntu 12.10系统,并准备安装Hadoop稳定版1.0.4。 **单机版安装步骤:** 1. **下载与解压...
在本文档中,我们将详细讲解如何在Ubuntu 11.10操作系统上进行Hadoop的单机模式安装。Hadoop是一个开源的分布式计算框架,它允许在大规模集群中处理大数据。在单机模式下,Hadoop可以在一台计算机上模拟分布式环境,...
4. 下载并安装Hadoop:获取Hadoop安装包,并按官方文档指示完成安装配置。 5. 配置Hadoop单机模式:修改Hadoop配置文件,让Hadoop运行在单机模式。 6. 测试Wordcount示例:运行Hadoop自带的Wordcount示例,验证环境...
hadoop单机配置是指在单个机器上安装和配置hadoop环境的过程。下面将逐步介绍hadoop单机配置的详细过程。 一、安装Linux操作系统 安装Linux操作系统是hadoop单机配置的第一步。在这里,我们选择了Ubuntu 11.10作为...
通过上述步骤,我们不仅完成了Hadoop 3.1.3的安装和配置,还深入理解了Hadoop在单机模式和伪分布式模式下的工作原理。这种实践不仅有助于加深对Hadoop技术栈的理解,还能提高解决实际问题的能力。对于初学者来说,这...
Hadoop的运行依赖于Java环境,因此首先需要确保Java已正确安装在系统上。以下是在Ubuntu系统中安装Sun Java JDK的步骤: 1. **添加Java仓库** 使用`sudo add-apt-repository "deb ...
对于初学者来说,了解如何在单机模式下安装Hadoop是非常有帮助的,因为这可以帮助他们更好地理解Hadoop的基本组件和工作原理。 本文将详细介绍如何在Linux环境下进行Hadoop单机模式的安装,并确保整个过程简单易懂...
本文将指导您如何在Ubuntu 14.04 64位系统上安装Hadoop 2.6.0,无论是单机模式还是伪分布式模式,旨在帮助初学者克服安装过程中的障碍。 **环境准备** 首先,确保您的系统是Ubuntu 14.04 64位。如果使用的是其他...
在搭建双机集群之前,首先需要确保在至少一台机器上成功安装并配置了Hadoop单机模式。这一步是后续集群配置的基础。 **第二步:克隆配置好的Ubuntu** 为了减少重复工作,可以使用已配置好的Ubuntu机器来克隆出另一...