`
yale
  • 浏览: 360160 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

Cygwin使用hadoop

 
阅读更多

便于hadoop伪分布式在本地进行调试,采用Cygwin来进行hadoop开发是一种比较好的方式,因此该文章将介绍hadoop在Cygwin中的使用方法。

安装Hadoop伪分布,hadoop使用了ssh协议,ssh采用标准的公钥加密来生成一对用户验证密钥---一个公钥、一个私钥,并且使用NFS在集群中共享它,公钥被本地存储在集群的每个节点上,私钥则由主节点在视图访问远程节点时发送过来,默认情况下的Cygwin没有安装ssh,所以重新运行http://www.cygwin.com/setup.exe,在Select Packages的时候,在search输入ssh,选择openssh,继续安装cgywin,直到安装成功

 

配置SSH服务

1、在cygwin中输入:ssh-host-config

除了Do you want to use a different name?  no 其他都是yes

2、输入密码时候最好和你本身linux密码一致,这样方便记忆

 

这样我们就设置ssh信任机制,让两台机器能够相互通信,在相互访问的时候不需要输入密码

3、执行 cygrunsrv  -S  sshd  启动ssh服务

查看服务是否启动:services.msc中查看cyg ,同时还可以修改密码,注意:如果需要重新安装sshd服务,可以用cygrunsrv -R sshd

4、生成SSH Key

ssh-keygen  -t  rsa(密码为空,路径默认)

cp  .ssh/id_rsa.pub  .ssh/authorized_keys

 

 

5、检查SSH

 

安装hadooop
因为我们用cygwin只是用来方便调式hadoop,并不是为了在上面搭建正式的服务器,因为我们没有必要选择有bug的hadoop版本进行安装,我们选择集成中没有bug的版本.020.2下载,解压并拷贝到Cygwin下的目录(JDK也一并安装)
http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz
官方说明1.x版本有BUG,参考,BUG修复请参考:
http://en.wikisource.org/wiki/User:Fkorning/Code/Hadoop-on-Cygwin

 

 

配置环境变量(.bashrc文件追加下面内容)
export  JAVA_HOME=/usr/java/jdk1.6.0_20
export  PATH=/usr/java/hadoop-0.20.2/bin:$JAVA_HOME/bin:$PATH

在hadoop-0.20.2/conf/hadoop-evn.sh中追加下面内容

export  JAVA_HOME=/usr/java/jdk1.6.0_20
export  HADOOP_LOG_DIR=/tmp/logs

 

创建连接符
由于默认情况下在cygwin中,hadoop的默认文件存放在根目录的tmp文件夹下,这样对统一目录不方便,因此采用连接符(在win下的cmd中执行)
mklink /D c:\tmp c:\cygwin\tmp

执行后,重新执行:ssh localhost,使其生效

 

配置HADOOP运行参数
我们这次将不采用指定存储目录,采用默认的存储目录,我们看看默认情况下文件存放情况(如果我们不指定,默认的文件存储配置存放在hadoop根目录下的hadoop-0.20.2-core.jar包的xxx-default.xml文件中的)

conf/core-site.xml

<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property> 

conf/hdfs-site.xml

<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>

conf/mapred-site.xml

<property>
  <name>mapred.job.tracker</name>
  <value>localhost:9001</value>
</property>
<property> 
  <name>mapred.tasktracker.map.tasks.maximum</name>
  <value>4</value>
</property> 
<property> 
  <name>mapred.tasktracker.reduce.tasks.maximum</name>
  <value>4</value>
</property>

 

格式化名称节点并启动集群
使用命令:hadoop namenode –format


使用命令:start-all.sh,通过jps和ps的方式查看启动进程是否启动成功,我们可以看到下面通过jps只能看到启动了JobTracker、NameNode,和我们在linux下面启动的5个进程有区别(在linux下如果没有启动5个进程,表示有进程失败,需要通过日志查看启动失败的原因),但是我们发现通过ps命令确实已经启动了5个java进程,我们通过这5个进程的pid可以在我们hadoop产生的文件中查看到底是否hadoop相关进程成功启动

 

执行hadoop自带例子
创建一个文件yale.txt,存放在hadoop根目录下,并添加一些内容

执行:hadoop fs -put yale.txt input/yale.txt
查看:hadoop fs -cat  input/yale.txt


执行:hadoop jar hadoop-0.20.2-examples.jar wordcount input output

 

具体查看:
hadoop fs -cat output/p*


还可以通过web方式查看,http://localhost:50070 可以查看

 

分享到:
评论

相关推荐

    最新版cygwin4hadoop,cygwin2.761

    此外,某些特定的Hadoop功能或服务可能无法在Cygwin环境下完美运行,因此,在生产环境中,通常推荐使用原生的Linux系统来部署和运行Hadoop集群。但作为开发和学习的平台,Cygwin4hadoop无疑是一个实用的选择。

    windows下配置cygwin、hadoop等并运行mapreduce及mapreduce程序讲解

    【Windows下配置Cygwin、Hadoop环境及MapReduce程序运行详解】 在Windows操作系统中运行Hadoop和MapReduce程序,通常需要借助Cygwin来模拟Linux环境,因为Hadoop主要设计用于类Unix系统。Cygwin是一个提供Linux环境...

    win7下Cygwin搭建Hadoop开发环境

    在 Windows 7 系统中使用 Cygwin 搭建 Hadoop 开发环境是一项较为复杂的任务,需要对 Windows 系统环境变量、Cygwin 的安装与配置以及 Hadoop 安装包进行细致的操作。本文将详细介绍这一过程,帮助读者更好地理解并...

    在Windows上的Cygwin环境上安装Hadoop指南

    为了在Windows上运行Hadoop,我们可以使用Cygwin,这是一个提供Linux命令行工具和环境的开源软件。下面将详细介绍在Windows上的Cygwin环境下安装Hadoop的步骤,并解决一些常见问题。 首先,我们需要下载并安装...

    Cygwin+Eclipse搭建Hadoop单机开发环境-2

    在本教程中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境,这将有助于你理解Hadoop的基础知识以及如何在Windows操作系统上进行开发和测试。Cygwin是一个在Windows上模拟Linux环境的工具,它允许...

    cygwin+eclipse搭建hadoop开发环境,运行wordcount

    接下来,"Cygwin+Eclipse搭建Hadoop开发环境"文档将指导你如何配置Eclipse IDE,使其能够与Cygwin集成,用于Hadoop项目开发。Eclipse是Java开发者常用的一款强大IDE,它提供了丰富的插件支持,包括Hadoop开发插件,...

    Cygwin+Eclipse搭建Hadoop单机开发环境离线包-cygwin-setup

    本文将详细介绍如何在Windows 7 32位系统中使用Cygwin和Eclipse来构建一个Hadoop的单机开发环境。 首先,我们需要了解Cygwin。Cygwin是一款为Windows提供类Unix环境的开源工具集,它能够使开发者在Windows平台上...

    cygwin中安装hadoop+eclipse编译源码并调试

    本文将详细介绍如何在Cygwin中安装Hadoop,并利用Eclipse来编译Hadoop源码以及进行调试。 首先,我们需要安装Cygwin。Cygwin提供了一个模拟Linux环境的平台,包括GCC编译器、Git等工具,这些对于编译和管理开源项目...

    Cygwin+Eclipse搭建Hadoop单机开发环境-3

    在本教程中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境,以便在Windows操作系统上进行高效的数据处理和分析。Cygwin是一个提供Linux-like环境的开源工具集,使得Windows用户可以运行原本为...

    Cygwin+Eclipse搭建Hadoop单机开发环境-1

    在本文中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境。Cygwin是一个为Windows操作系统提供Linux-like环境的开源工具,而Eclipse是一款流行的集成开发环境(IDE),广泛用于Java应用程序的开发...

    Windows下使用Hadoop实例

    ### Windows下使用Hadoop实例详解 #### 一、概述 在Windows环境下搭建并运行Hadoop实例,需要经过一系列步骤,包括但不限于安装Cygwin、配置Java环境、安装配置SSH服务等。本文旨在详细介绍如何在Windows操作系统...

    hadoop的dll文件 hadoop.zip

    然而,通过 Cygwin 或其他模拟Linux环境的工具,可以在Windows上搭建Hadoop集群。此外,还有一些预配置的Hadoop发行版,如Apache Hadoop for Windows,它们可以帮助简化Windows上的部署过程。 总的来说,Hadoop的...

    Hadoop 2.7.5 Windows 7 64位 编译bin(包含winutils.exe, hadoop.dll等)

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.5是Hadoop发展中的一个重要版本,它提供了稳定性和性能上的改进。本资源针对的是Windows 7 64位操作系统用户,帮助他们在...

    windows平台下载安装cygwin

    在Windows平台上,为了搭建Hadoop开发环境,Cygwin是一个重要的工具。Cygwin是一个开源软件,它提供了一个类似于Linux的环境,使开发者能够在Windows系统上运行许多原本只能在Unix或Linux环境下执行的命令行工具和...

    hadoop2.8 window支持bin文件

    本文将详细讲解如何在Windows环境下使用Hadoop 2.8,并重点介绍"bin"目录及其作用。 首先,Hadoop 2.8是在Hadoop 2.x系列中的一个稳定版本,它引入了YARN(Yet Another Resource Negotiator),这是一个资源管理和...

    在Windows上安装Hadoop教程

    - 使用Cygwin的`tar`或`unzip`命令解压Hadoop到指定目录。 5. **配置Hadoop**: - 修改Hadoop的配置文件,如`hadoop-env.sh`(设置Java路径),`core-site.xml`(定义HDFS的默认FS),`hdfs-site.xml`(HDFS配置...

    hadoop.zip hadoop2.7.1安装包

    3. 创建或挂载模拟的Linux文件系统(如Cygwin或Msys2),因为Hadoop的一些命令需要Linux命令行工具。 总之,Hadoop2.7.1安装包提供了在Linux和Windows环境下运行Hadoop所需的一切,让开发者和数据分析师能够利用...

Global site tag (gtag.js) - Google Analytics