1、安装JDK
从官方网站下载最新的JDK:
http://www.oracle.com/technetwork/java/javase/downloads/java-se-jdk-7-download-432154.html
我是64位的Fedora15系统,下载的jdk-7-linux-x64.tar.gz。
解压缩到本地文件夹,环境变量稍后跟hadoop一起配置。
2、安装hadoop
从官方网站下载hadoop的最新版本:
http://mirror.bjtu.edu.cn/apache/hadoop/common/hadoop-0.21.0/
我下载的Hadoop0.21.0版本,hadoop-0.21.0.tar.gz。
解压缩到本地文件夹。
修改/conf/hadoop-env.sh文件,添加JAVA_HOME,注意去掉前面的注释符号#
export JAVA_HOME="/home/wuxiaochao/PFiles/jdk1.7.0"
3、配置环境变量
修改profile文件
sudo vi /etc/profile
添加如下内容:
JAVA_HOME=/home/wuxiaochao/PFiles/jdk1.7.0
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
HADOOP_INSTALL=/home/wuxiaochao/PFiles/hadoop-0.21.0
PATH=$JAVA_HOME/bin:$PATH:$HADOOP_INSTALL/bin
export JAVA_HOME
export CLASSPATH
export HADOOP_INSTALL
export PATH
验证:
查看jdk版本信息:java -version
查看hadoop版本信息:hadoop version
4、安装ssh
sudo yum install openssh
设置不用密码登录
ssh-keygen -t rsa -f ~/.ssh/id_rsa -P ""
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
验证:
ssh localhost
错误:ssh: connect to host localhost port 22: Connection refused
可能是sshd服务没有启动,执行:service sshd start
若要配置ssh开机自动启动,可以修改rc.local文件
sudo vi rc.local
添加service sshd start即可
5、配置xml文件
1)gedit conf/core-site.xml,添加内容如下:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop/hadoop-/${user.name}</value>
</property>
</configuration>
2)gedit conf/hdfs-site.xml,内容如下:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3)gedit mapred-site.xml,内容如下:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
6、启动hadoop服务
1)格式化hadoop:
hadoop namenode -format
错误:java.net.UnknownHostException,解决办法如下:
查看host名称,执行:hostname
这里Hadoop在格式化HDFS的时候,通过hostname命令获取到的主机名是wuxiaochao,然后在/etc/hosts文件中进行映射的时候,没有找到,看下我的/etc/hosts内容:
127.0.0.1 localhost.localdomain localhost
::1 localhost6.localdomain6 localhost6
也就说,通过wuxiaochao根本无法映射到一个IP地址,所以报错了。
此时,我们查看一下/etc/sysconfig/network文件:
NETWORKING=yes
HOSTNAME=wuxiaochao
修改/etc/sysconfig/network中HOSTNAME的值为localhost,保证localhost在/etc/hosts文件中映射为正确的IP地址,然后重新启动网络服务:
service network restart
2)启动hadoop服务
bin/start-all.sh
3)查看服务状态
管理页面:http://localhost:50030/jobtracker.jsp
或者执行jps命令,会列出所有已启动的东西。
7、运行wordcount
1)准备测试文件
新建文本文件,随便输入英文内容,保存
2)将准备的测试文件上传到dfs文件系统中的firstTest目录下
hadoop fs -copyFromLocal /home/wuxiaochao/input-dir firstTest/input-dir
警告:hadoop dfs命令已经废弃,请使用hdfs命令,使用hdfs时提示hadoop common not found
解决办法,参照HADOOP-6953官方解释,添加HADOOP_HOME环境变量即可
于是修改/etc/profile添加HADOOP_HOME环境变量,内容和HADOOP_INSTALL一致
重新加载/etc/profile:source /etc/profile
查看HADOOP_HOME环境变量是否配置成功:export |grep HADOOP_HOME
停止Hadoop服务:/bin/stop-all.sh
启动Hadoop服务:/bin/start-all.sh
3)执行wordcount
hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount firstTest result
此语句意为“对firstTest下的所有文件执行wordcount,将统计结果输出到result文件夹中”,若result文件夹不存在则会自动创建一个
4)查看结果
hadoop fs -cat result/part-r-00000
结果文件默认是输出到一个名为“part-r-*****”的文件中的,可用指令“hadoop dfs -ls result”查看result目录下包含哪些文件
分享到:
相关推荐
用户可以在单节点模式下快速部署和测试 Hadoop,降低了学习和部署的成本。 前提条件 在安装和配置 Hadoop 之前,需要确保机器上已经安装了以下软件: 1. JAVA 1.6.x:Hadoop 需要 JAVA 1.6.x 或更高版本来运行。 ...
【Hadoop 单节点伪分布式搭建】是一种适合学习和测试Hadoop环境的简易方式,无需配置复杂的多节点集群。在单节点伪分布式模式下,所有Hadoop服务都在同一个节点上以独立Java进程的方式运行,模拟分布式环境的行为,...
【Hadoop单节点安装】 Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。本文将详细介绍在Ubuntu 12.04 64位服务器上安装Hadoop 2.2.0的单节点配置过程。 **一、环境准备** 在...
在这个主题“4、Hadoop多节点部署和测试(HA_HDFS)”中,我们将深入探讨如何在高可用性(HA)模式下配置和测试Hadoop的HDFS(Hadoop分布式文件系统)组件。这里我们将详细讨论涉及的知识点: 1. **HDFS高可用性**:...
在本文中,我们将深入探讨如何在Ubuntu 12.04 64位服务器上安装和配置Hadoop 2.2.0单节点环境。这个过程由雨水在2013年10月24日记录并发布在CSDN博客上。以下是详细的步骤: 首先,确保你的环境准备就绪。这包括在...
在单节点环境中配置Hadoop,主要是为了学习和测试Hadoop的功能,而无需复杂的多节点集群设置。以下是配置Hadoop单节点环境的详细步骤: 1. **配置Java环境**: 首先,确保你的系统中已经安装了Java开发工具包(JDK...
本教程将深入探讨如何在单节点环境中部署Hadoop 2.x版本,这对于初学者理解和测试Hadoop功能非常有帮助。我们将关注四个关键配置文件——core-site.xml、yarn-site.xml、hdfs-site.xml和mapred-site.xml,它们是...
4. **Hadoop单节点测试** - 在15台小型集群上进行测试,使用WordCount程序处理1.2GB的日志文件,总耗时2分16秒,展示了Hadoop处理大数据的高效性。 5. **Hadoop环境搭建步骤** - **装机阶段** - 安装Ubuntu ...
本资源"单节点hadoop-0.20.2"是一个针对初学者或快速测试环境的配置,它简化了Hadoop的安装和设置过程。这个压缩包包含了一个预配置的Hadoop环境,使得用户无需从头开始配置XML文件,只需解压即可运行,大大降低了...
"hadoop人脸分析测试数据"是一个专门针对人脸识别技术的测试集,用于验证和优化基于Hadoop的数据分析流程。 人脸识别是一种生物特征识别技术,它通过分析和比较人脸图像的特征来确认或验证个人身份。在大数据环境中...
在“hadoop单节点”配置中,所有的Hadoop服务都运行在同一台机器上,这适用于学习和测试环境,因为不需要额外的硬件资源。以下是一步步搭建Hadoop单节点集群的步骤: 1. **系统准备**:确保你的操作系统是Linux,...
### 增加Hadoop名称节点的高可用性 #### 概述 本文档主要讨论了如何通过元数据复制来增强Hadoop名称节点(NameNode)的高可用性(High Availability,简称HA)。Hadoop作为分布式计算与存储平台的基础,其自身的...
- **硬件环境**:该测试采用的是RHEL6.2操作系统,搭载2.6.32-220.el6.x86_64内核,构建了一个由多个节点组成的Hadoop集群,其中包含了TaskTracker、RegionServer和DataNode等组件。同时,测试环境中还包含Oracle ...
【实验报告】 实验主题:武汉理工大学云计算应用 - Hadoop单机模式与伪分布式 **实验目的与意义:** ...此外,进一步探索Hadoop集群的设置和管理,如增加节点,进行故障恢复测试,将有助于深化对分布式计算的理解。
在本文中,我们将深入探讨如何搭建Hadoop平台,包括单节点模式、伪分布式模式以及分布式文件系统,并在这些环境中运行MapReduce程序进行测试。Hadoop是Apache软件基金会的一个开源项目,它提供了一个分布式文件系统...
对于初学者或小型测试环境,双节点Hadoop安装是一个理想的起点,因为其简单易懂,能快速理解Hadoop的工作原理。本篇文档将详细介绍如何在两台机器上配置一个简单的双节点Hadoop集群,即伪分布式模式。 1. **设置IP...
由于Hadoop在集群模式下运行时,节点之间需要通过SSH进行通信,即使在单机环境下,也需要配置SSH免密码登录。步骤如下: 1. **生成SSH密钥对** 在Hadoop用户的家目录下,执行`ssh-keygen -t rsa -P ""`生成无密码...