Hadoop开发环境搭建
感谢参考网站:http://www.cnblogs.com/huligong1234/p/4137133.html
一、软件准备
JDK:jdk-7u80-windows-x64.exe
http://www.oracle.com/technetwork/java/javase/archive-139210.html
Eclipse:eclipse-jee-mars-2-win32-x86_64.zip
http://www.eclipse.org/downloads/
Hadoop:hadoop-2.6.4.tar.gz
Hadoop-Src:hadoop-2.6.4-src.tar.gz
http://hadoop.apache.org/releases.html
Ant:apache-ant-1.9.6-bin.zip
http://ant.apache.org/bindownload.cgi
Hadoop-Common:hadoop2.6(x64)V0.2.zip (2.4以后)、(hadoop-common-2.2.0-bin-master.zip)
2.2:https://github.com/srccodes/hadoop-common-2.2.0-bin
2.6:http://download.csdn.net/detail/myamor/8393459
Hadoop-eclipse-plugin:hadoop-eclipse-plugin-2.6.0.jar
https://github.com/winghc/hadoop2x-eclipse-plugin
二、搭建环境
1. 安装JDK
执行“jdk-7u80-windows-x64.exe”,步骤选择默认下一步即可。
2. 配置JDK、Ant、Hadoop环境变量
解压hadoop-2.6.4.tar.gz、apache-ant-1.9.6-bin.zip、hadoop2.6(x64)V0.2.zip、hadoop-2.6.4-src.tar.gz到本地磁盘,位置任意。
配置系统环境变量JAVA_HOME、ANT_HOME、HADOOP_HOME,并将这些环境变量的bin子目录配置到path变量中。
将hadoop2.6(x64)V0.2下的hadoop.dll和winutils.exe复制到HADOOP_HOME/bin目录下。
3. 配置Eclipse
将hadoop-eclipse-plugin-2.6.0.jar复制到eclilpse的plugins目录下。
启动eclipse,并设置好workspace。插件安装成功的话,启动之后可以看到如下内容:
4. 配置hadoop
打开“window”-“Preferenes”-“Hadoop Mep/Reduce”,配置到Hadoop_Home目录。
打开“window”-“show view” -“Mepreduce Tools” –“Mep/Reduce Locations”,创建一个Locations,配置如下。
1位置为配置的名称,任意。
2位置为mapred-site.xml文件中的mapreduce.jobhistory.address配置。
3位置为core-site.xml文件中的fs.default.name配置。
配置好以上信息之后,可以在Project Explorer中看到以下内容,即表示配置成功。
上图表示读取到了配置的hdfs信息,一共有3个文件夹input、output、output1,input目录下有3个文件。
注:以上内容为我自己环境中创建的,你看到的可能跟我的不一样。
内容可以通过在hadoop.master上执行
hadoop fs -mkdir input --创建文件夹
hadoop fs -put $localFilePath input --将本地文件上传到HDFS的input目录下
三、创建示例程序
1. 新建一个WordCount类
打开eclipse,创建一个Map/Reduce Project,并创建一个org.apache.hadoop.examples.WordCount类。
拷贝hadoop-2.6.4-src.tar.gz中hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\examples下的WordCount.java文件中的内容到新创建的类中。
2. 配置log4j
在src目录下,创建log4j.properties文件
log4j.rootLogger=debug,stdout,R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern=%5p - %m%n log4j.appender.R=org.apache.log4j.RollingFileAppender log4j.appender.R.File=mapreduce_test.log log4j.appender.R.MaxFileSize=1MB log4j.appender.R.MaxBackupIndex=1 log4j.appender.R.layout=org.apache.log4j.PatternLayout log4j.appender.R.layout.ConversionPattern=%p %t %c - %m% log4j.logger.com.codefutures=DEBUG
3. 配置运行参数
选择“run”-“run configurations”,在“Arguments”里加入“hdfs://hadoop.master:9000/user/hadoop/input hdfs://hadoop.master:9000/user/hadoop/output1”。
格式为“输入路径 输出路径”,如果输出路径必须为空或未创建,否则会报错。
如下图:
注:如果”Java Application”下面没有“WordCount”,可以选择右键,New一个即可。
4. 执行查看结果
配置好之后,执行。查看控制台输出以下内容,表示执行成功:
INFO - Job job_local1914346901_0001 completed successfully INFO - Counters: 38 |
在“DFS Locations”下,刷新刚创建的“hadoop”看到本次任务的输出目录下是否有输出文件。
四、问题FAQ
1. 问题1:NativeCrc32.nativeComputeChunkedSumsByteArray错误
【问题描述】启动示例程序时,报nativeComputeChunkedSumsByteArray异常。控制台日志显示如下:
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BIILjava/lang/String;JZ)V
at org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(Native Method)
【原因分析】hadoop.dll文件版本错误,替换对应的版本文件。由于hadoop.dll 版本问题出现的,这是由于hadoop.dll 版本问题,2.4之前的和自后的需要的不一样,需要选择正确的版本(包括操作系统的版本),并且在 Hadoop/bin和 C:\windows\system32 上将其替换。
【解决措施】下载对应的文件替换即可。http://download.csdn.net/detail/myamor/8393459 (2.6.X_64bit)
相关推荐
在所有这些配置完成后,你将拥有一个完整的Hadoop开发环境,可以在Windows 7上的Eclipse 4.7中编写、测试和调试Hadoop应用。Hadoop的分布式文件系统(HDFS)和MapReduce框架将为大数据处理提供强大的平台,而Eclipse...
至此,你已经在Win7+Eclipse+Ubuntu的环境中搭建起了Hadoop的单机开发环境。你可以使用Eclipse的Hadoop插件(如Hadoop Eclipse Plugin)来编写、调试和运行Hadoop MapReduce程序。记住,这只是一个基本的配置,实际...
总的来说,Hadoop-Eclipse-Plugin-2.6.4.jar是Hadoop开发者的得力工具,它为Eclipse带来了强大的Hadoop支持,使开发者能够在熟悉的环境中高效地进行大数据应用的开发和调试。通过熟练掌握并运用这个插件,我们可以更...
Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它的核心设计目标是处理和存储大规模数据。Hadoop2.6.4是Hadoop发展中的一个重要版本,它提供了许多增强的功能和性能优化,使得在Linux环境下部署和运行大...
在本教程中,我们将深入探讨如何在CentOS 6.5操作系统上搭建Hadoop 2.6.4环境。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大量数据。让我们一步步来了解这个过程。 首先,确保你的系统是最新状态,通过...
在Hadoop生态系统中,`winutils.exe`和`hadoop.dll`是Windows环境下运行Hadoop必备的组件,尤其对于开发和测试环境来说至关重要。这里我们深入探讨这两个组件以及与Eclipse插件的相关性。 首先,`winutils.exe`是...
hadoop-eclipse-plugin-2.6.4.jar,编译环境win7-64,ant-1.9.6,eclipse-4.5.2(4.5.0测试也可用,其他未测),hadoop-2.6.4
在本文中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境。Cygwin是一个为Windows操作系统提供Linux-like环境的开源工具,而Eclipse是一款流行的集成开发环境(IDE),广泛用于Java应用程序的开发...
Hadoop开发环境搭建Win8+Eclipse+Linux.pdf
在本教程中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境,这将有助于你理解Hadoop的基础知识以及如何在Windows操作系统上进行开发和测试。Cygwin是一个在Windows上模拟Linux环境的工具,它允许...
在Windows 10环境下,Hadoop 2.6.4是一个重要的大数据处理框架,它被广泛应用于分布式存储和计算任务。这个版本的Hadoop已经针对Windows操作系统进行了编译,使得在Win10系统上可以直接使用,无需进行额外的适配工作...
5. **集成开发环境**:与 Eclipse 的其他功能无缝集成,如代码编辑器、版本控制、构建工具等,为 Hadoop 应用开发提供了一个全面的开发环境。 6. **自动补全和语法检查**:提供 MapReduce API 和 Hadoop 相关类库的...
在本教程中,我们将深入探讨如何使用Cygwin和Eclipse搭建Hadoop的单机开发环境,以便在Windows操作系统上进行高效的数据处理和分析。Cygwin是一个提供Linux-like环境的开源工具集,使得Windows用户可以运行原本为...
接下来,"Cygwin+Eclipse搭建Hadoop开发环境"文档将指导你如何配置Eclipse IDE,使其能够与Cygwin集成,用于Hadoop项目开发。Eclipse是Java开发者常用的一款强大IDE,它提供了丰富的插件支持,包括Hadoop开发插件,...
在Windows操作系统上搭建Hadoop开发环境,通常会借助于Cygwin模拟Linux环境,并通过Eclipse作为集成开发环境。本文将详细介绍如何在Windows 7 32位系统中使用Cygwin和Eclipse来构建一个Hadoop的单机开发环境。 首先...
总结来说,Hadoop2.6.4的hadoop.dll和winutils.exe是Windows用户在搭建和操作Hadoop环境时的关键组件,它们使得Hadoop能够在Windows平台上顺畅运行,提供与Linux环境下类似的体验。通过直接使用这些预编译的文件,...
根据提供的文件信息,本文将详细解析Hadoop 2.6.4/2.7.3环境配置的关键步骤,包括Linux开发环境的搭建、JDK安装、以及如何创建一个Hadoop虚拟集群。 ### 一、Linux开发环境搭建 #### 1. 准备工具 - **VMware ...
Hadoop 2.6.4 是一个重要的大数据处理框架,主要由Apache软件基金会开发并维护。这个版本在Hadoop的历史上扮演着关键角色,因为它带来了许多改进和优化,旨在提高性能、稳定性和可扩展性。Hadoop的核心组件包括HDFS...
在Windows7 x64 + Eclipse + Hadoop 2.5.2搭建MapReduce开发环境,下载的文件中包括下载的文件包括:hadoop 2.5.2.tar.gz,hadoop-common-2.2.0-bin-master.zip,hadoop-eclipse-plugin-2.5.2.jar。应用这些软件的...
Hadoop 2.6.4 安装包