`
xpenxpen
  • 浏览: 725035 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop0.20.2单机伪分布式安装(win7 cygwin)

阅读更多
初学hadoop,折腾了几天总算把hadoop0.20.2在windows上安装成功了。因为网上很多安装成功的资料都是用的hadoop0.20.2,所以我们初学就先用这个版本。

本文安装环境概述:
windows7
jdk1.6.0_43
cygwin
openssh
hadoop0.20.2

hadoop0.20.2版本比较老,所以最好用jdk6,不要用jdk7,以免出现一些奇怪的问题。

1.安装cygwin和openssh,配置ssh免密码登陆
可以参考另一篇文章http://xpenxpen.iteye.com/blog/2061856
不要小看这步,这步没做好,后面都是徒劳。本人就在这栽跟头了,浪费了很多时间。

2. 下载hadoop0.20.2
hadoop所有的历史版本可以在这里找到
http://archive.apache.org/dist/hadoop/core
下载完了,解压。比如我们解压到d盘。D:\opensource\hadoop\hadoop-0.20.2

3.创建符号链接(仅限Win7)
mklink /d c:\tmp c:\cygwin64\tmp
mklink /d d:\tmp c:\cygwin64\tmp

这步是比较关键的一步,因为hadoop的代码编写没有考虑到windows系统,所以tmp目录的定位是比较乱的,这里将c:\tmp,d:\tmp全部链接到cygwin下的tmp目录,后面就不会报诸如tmp目录找不到的错了。d:\tmp是由于我将hadoop-0.20.2解压到D盘了,c:\tmp则是因为cygwin装在C盘。如果你装在别的盘上了,则改成相应的盘符。

4. 修改/home/<user>/.bashrc
所指的home是C:\cygwin64\home
export JAVA_HOME=/cygdrive/c/jdk1.6.0_43
export PATH=/cygdrive/d/opensource/hadoop/hadoop-0.20.2/bin:$JAVA_HOME/bin:$PATH


重新进入cygwin确认
$ which java
/cygdrive/c/jdk1.6.0_43/bin/java

$ which hadoop
/cygdrive/d/opensource/hadoop/hadoop-0.20.2/bin/hadoop


5.修改hadoop-0.20.2/conf/hadoop-env.sh
export JAVA_HOME=/cygdrive/c/jdk1.6.0_43
export HADOOP_LOG_DIR=/tmp/logs


6.修改hadoop-0.20.2/conf目录下的3个配置文件
core-site.xml
	<property>
		<name>fs.default.name</name>
		<value>hdfs://localhost:9000</value>
	</property>


hdfs-site.xml
	<property>
	  <name>dfs.replication</name>
	  <value>1</value>
	</property>


mapred-site.xml
	<property>
	  <name>mapred.job.tracker</name>
	  <value>localhost:9001</value>
	</property>
	<property> 
	  <name>mapred.tasktracker.map.tasks.maximum</name>
	  <value>4</value>
	</property> 
	<property> 
	  <name>mapred.tasktracker.reduce.tasks.maximum</name>
	  <value>4</value>
	</property>


7.格式化名称节点
hadoop namenode -format

会创建C:\cygwin64\tmp\hadoop-<user>\dfs\name目录

8.启动集群
start-all.sh


9.检查是否正常

9.1 访问网页查看状态
访问http://localhost:50030查看 JobTracker 的运行状态
访问http://localhost:50060查看 TaskTracker 的运行状态
访问http://localhost:50070查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等

9.2 查看进程,应该有5个java进程
$ ps -ef | grep java
  pchen4    8404       1 ?        12:55:30 /cygdrive/c/jdk1.6.0_43/bin/java
  pchen4    7596       1 ?        12:55:19 /cygdrive/c/jdk1.6.0_43/bin/java
  pchen4    3596       1 pty1     12:55:37 /cygdrive/c/jdk1.6.0_43/bin/java
  pchen4    6836       1 ?        12:55:49 /cygdrive/c/jdk1.6.0_43/bin/java
  pchen4    8144       1 pty1     12:55:06 /cygdrive/c/jdk1.6.0_43/bin/java


9.3 检查C:\cygwin64\tmp目录下文件是否都生成了


10.停止集群
stop-all.sh


11.wordcount测试
hadoop目录下有一个hadoop-0.20.2-examples.jar,自带wordcount,顺利安装完hadoop后可以测试一下。

首先找一个文本文件,比如http://introcs.cs.princeton.edu/java/data/dickens.txt
然后将这个文件放到hdfs上
hadoop fs -put dickens.txt input/dickens.txt


然后运行wordcount
hadoop jar hadoop-0.20.2-examples.jar wordcount input output


如果一切顺利,可以看到单词的统计出来了。
hadoop fs -cat output/part-r-00000 > aa.txt

查看一下aa.txt,内容正确的话就表明hadoop安装无误了。

12.参考资料
http://yangshangchuan.iteye.com/blog/1839814
  • 大小: 35.3 KB
分享到:
评论

相关推荐

    window下hadoop伪分布式安装

    在Windows环境下搭建Hadoop的伪分布式环境,主要是为了在本地模拟多节点的Hadoop集群,这对于学习和测试Hadoop功能非常有帮助。以下将详细讲解整个配置过程中的关键知识点。 首先,安装前的准备工作至关重要。你...

    Hadoop的安装.docx

    本文将详细介绍Hadoop的安装过程,包括伪分布式模式和分布式模式两种安装方式。 一、Hadoop伪分布式模式安装过程 Hadoop伪分布式模式安装过程主要包括以下几个步骤: 1. 安装Cygwin:Cygwin是一个类似于Linux环境...

    Hadoop的安装.pdf

    Hadoop的安装主要包括两种模式:伪分布式和完全分布式。以下是对这两种模式的详细介绍。 一、Hadoop 伪分布式模式安装(Windows) 在Windows环境下,Hadoop可以通过hadoop4win工具进行安装。首先,你需要安装...

    hadoop和hbase分布式配置及整合eclipse开发.pdf

    ### Hadoop与HBase分布式配置及整合Eclipse开发详解 #### 一、概述 本文档旨在详细介绍如何在Windows环境下配置Hadoop与HBase,并通过Eclipse进行开发的相关知识点。此外,文档还涉及了如何在Linux环境下进行相应...

    windows下搭建hadoop平台.pdf

    Hadoop 是一个分布式计算平台,由 Apache 开发,主要用于处理大规模数据。以下是 Windows 下搭建 Hadoop 平台的步骤: 环境要求 * JDK(Java Development Kit) * Cygwin(Unix-like 环境) * Hadoop 版本:hadoop...

    基于windows的hadoop集群搭建图文教程 自己写的亲测可以安装

    随着大数据技术的发展,Hadoop作为一个重要的分布式处理框架,在数据分析领域占据着举足轻重的地位。然而,对于初学者而言,尤其是在Windows环境下进行Hadoop集群的搭建可能会遇到不少挑战。本文将详细介绍如何在...

    hadoop运行wordcount实例

    Hadoop 是一个由Apache基金会所开发的分布式系统基础架构。它能够处理非常庞大的数据集,并且能够在集群上运行,通过将大数据分割成小数据块进行并行处理来实现高效的数据处理。WordCount 是 Hadoop 中最经典的示例...

    Introduction_to_Hadoop

    要开始使用Hadoop,首先需要安装对应版本(例如0.20.0或0.20.2),并且需要具备Java环境。初学者可以通过Apache官方网站上的快速入门指南进行学习。在Windows环境下,可以借助Cygwin、VMWare等工具运行Linux系统。...

    hadoop 入门

    - **Hadoop版本**:本课程推荐使用0.20.2版本。 #### 三、Hadoop的发展历程与技术背景 **Hadoop**的灵感来源于Google的一系列技术创新。Google通过使用大量廉价的PC服务器而不是昂贵的超级计算机构建大规模集群,...

Global site tag (gtag.js) - Google Analytics