`
wangmengbk
  • 浏览: 292162 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Hadoop+ eclipse 整合运行

 
阅读更多
  • 问题解决方案

cd hadoop安装路径/ect/hadoop

修改hdfs-site.xml加上以下内容 

<property> 

<name>dfs.permissions</name> 

<value>false</value> 

</property>

旨在取消权限检查,原因是为了解决我在windows机器上配置eclipse连接hadoop服务器时,配置map/reduce连接后报以下错误,org.apache.hadoop.security.AccessControlException: Permission denied:

 

修改hdfs-site.xml加上以下内容 (目前测试可选 根据具体情况)

<property> 

<name>dfs.web.ugi</name> 

<value>228238,supergroup</value> 

</property> 

原因是运行时,报如下错误 WARN org.apache.hadoop.security.ShellBasedUnixGroupsMapping: got exception trying to get groups for user 228238 (228238 机器用户名)

配置修改完后重启hadoop集群: 

[root@supervisor-84 sbin]# ./stop-dfs.sh

[root@supervisor-84 sbin]# ./sbin/stop-yarn.sh 

[root@supervisor-84 sbin]#./sbin/start-dfs.sh 

[root@supervisor-84 sbin]# ./sbin/start-yarn.sh

 

  • windows基础环境准备

windows7(x64),jdk,ant,eclipse,hadoop

jdk环境配置 

jdk-6u26-windows-i586.exe安装后好后配置相关JAVA_HOME环境变量,并将bin目录配置到path

 

eclipse环境配置 

eclipse-standard-luna-SR1-win32.zip解压到F:\eclipse\

        下载地址:http://developer.eclipsesource.com/technology/epp/luna/eclipse-standard-luna-SR1-win32.zip

 

ant环境配置 

apache-ant-1.9.4-bin.zip解压到D:\apache-ant\,配置环境变量ANT_HOME,并将bin目录配置到path 

下载地址:http://mirror.bit.edu.cn/apache//ant/binaries/apache-ant-1.9.4-bin.zip

 

下载hadoop-2.5.2.tar.gz 

http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.5.2/hadoop-2.5.2.tar.gz

下载hadoop-2.5.2-src.tar.gz 

http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.5.2/hadoop-2.5.2-src.tar.gz 

 

下载hadoop2x-eclipse-plugin 

https://github.com/winghc/hadoop2x-eclipse-plugin 

 

下载hadoop-common-2.2.0-bin 

https://github.com/srccodes/hadoop-common-2.2.0-bin 

 

分别将hadoop-2.5.2.tar.gz、hadoop-2.5.2-src.tar.gz、hadoop2x-eclipse-plugin、hadoop-common-2.2.0-bin下载解压到F:\hadoop\目录下 

 

注: 解压后 hadoop-2.5.2 \share\hadoop\common\lib 中缺少 htrace-core-3.0.4.jar, 可以从网上下载放到该目录。

 

  • 编译hadoop-eclipse-plugin-2.5.2.jar配置

添加环境变量HADOOP_HOME=F:\hadoop\hadoop-2.5.2\ 

追加环境变量path内容:%HADOOP_HOME%/bin 

修改编译包及依赖包版本信息 

修改F:\hadoop\hadoop2x-eclipse-plugin-master\ivy\libraries.properties 

hadoop.version=2.5.2 

jackson.version=1.9.13

ant编译 

F:\hadoop\hadoop2x-eclipse-plugin-master\src\contrib\eclipse-plugin> 

ant jar -Dversion=2.5.2 -Declipse.home=F:\eclipse\eclipse-hadoop\eclipse -Dhadoop.home=F:\hadoop\hadoop-2.5.2

编译好后hadoop-eclipse-plugin-2.5.2.jar会在F:\hadoop\hadoop2x-eclipse-plugin-master\build\contrib\eclipse-plugin目录下

 

  • eclipse环境配置

将编译好的hadoop-eclipse-plugin-2.5.2.jar拷贝至eclipse的plugins目录下,然后重启eclipse 

 

2.打开菜单Window--Preference--Hadoop Map/Reduce进行配置,如下图所示:



 显示Hadoop连接配置窗口:Window--Show View--Other-MapReduce Tools,如下图所示:



 

配置连接Hadoop,如下图所示:



 查看是否连接成功,新建文件夹并上传文件能看到如下类似信息,则表示连接成功:



 

  • Map/Reduce Project 工程创建

在工程栏中右击鼠标,选择new –-〉 other –〉 Map/Reduce Project



 

 接着,填写MapReduce工程的名字为"WordCountProject",点击"finish"完成。






 
 
  目前为止我们已经成功创建了MapReduce项目,我们发现在Eclipse软件的左侧多了我们的刚才建立的项目。

 

创建log4j.properties文件  目的是在eclipse 控制台有日志输出

在src目录下创建log4j.properties文件,内容如下: 

log4j.rootLogger=debug,stdout,R 

log4j.appender.stdout=org.apache.log4j.ConsoleAppender 

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout 

log4j.appender.stdout.layout.ConversionPattern=%5p - %m%n 

log4j.appender.R=org.apache.log4j.RollingFileAppender 

log4j.appender.R.File=mapreduce_test.log 

log4j.appender.R.MaxFileSize=1MB 

log4j.appender.R.MaxBackupIndex=1 

log4j.appender.R.layout=org.apache.log4j.PatternLayout 

log4j.appender.R.layout.ConversionPattern=%p %t %c - %m%n 

log4j.logger.com.codefutures=DEBUG



 注: 把 winutils.exe 和 hadoop.dll (上面说到hadoop-common-2.2.0-bin 中可以找到,) 放入到 F:\hadoop\hadoop-2.5.2\bin 目录下

在 DFS Locations 的 user 目录下新建 228238 (PC 的用户名) 文件夹,在该文件夹新建 input 文件夹;运行 后的结果为 newout 目录下。



 新建 类 WordCount,包名:org.apache.hadoop.examples

 

public class WordCount {

 

  public static class TokenizerMapper

       extends Mapper<Object, Text, Text, IntWritable>{

     

    private final static IntWritable one = new IntWritable(1);

    private Text word = new Text();

public void map(Object key, Text value, Context context

                    ) throws IOException, InterruptedException {

      StringTokenizer itr = new StringTokenizer(value.toString());

      while (itr.hasMoreTokens()) {

        word.set(itr.nextToken());

        context.write(word, one);      }

    }

  }

public static class IntSumReducer extends

Reducer<Text, IntWritable, Text, IntWritable> {

private IntWritable result = new IntWritable();

 

public void reduce(Text key, Iterable<IntWritable> values, Context context)

throws IOException, InterruptedException {

int sum = 0;

for (IntWritable val : values) {

sum += val.get();

}

result.set(sum);

context.write(key, result);

}

}

 public static void main(String[] args) throws Exception {

//  初始化Configuration

    Configuration conf = new Configuration();

    conf.set("mapred.job.tracker", "192.168.68.84:9001");

    String[] ars=new String[]{"input","newout"};

//   GenericOptionsParser类,它是用来解释常用hadoop命令,

//    并根据需要为Configuration对象设置相应的值,其实平时开发里我们不太常用它,

//    而是让类实现Tool接口,然后再main函数里使用ToolRunner运行程序,

//    而ToolRunner内部会调用GenericOptionsParser

    String[] otherArgs = new GenericOptionsParser(conf, ars).getRemainingArgs();

//    运行WordCount程序时候一定是两个参数,如果不是就会报错退出

    if (otherArgs.length != 2) {

      System.err.println("Usage: wordcount  ");

      System.exit(2);

    }

//    在构建一个job

    Job job = new Job(conf, "word count");

//    装载编写好的计算程序

    job.setJarByClass(WordCount.class);

//    装载map函数

    job.setMapperClass(TokenizerMapper.class);

    job.setCombinerClass(IntSumReducer.class);

//    装载reduce函数实现类

    job.setReducerClass(IntSumReducer.class);

//    定义输出的key/value的类型

    job.setOutputKeyClass(Text.class);

    job.setOutputValueClass(IntWritable.class);

//    构建输入的数据文件

    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

//    构建输出的数据文件

    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

//    如果job运行成功了,我们的程序就会正常退出

    System.exit(job.waitForCompletion(true) ? 0 : 1);

  }

}

 

 

右击 Run AS  Run on hadoop


 

 

Debug  调试 运行:

修改mapred-site.xml文件,添加如下配置:

<property>  

  <name>mapred.child.java.opts</name>  

  <value>-agentlib:jdwp=transport=dt_socket,address=8883,server=y,suspend=y</value>  

</property>

右键hadoop src项目,右键“Debug As”,选择“Debug Configurations”,选择“Remote Java Application”,添加一个新的测试,输入远程host ip和监听端口,例为8883,然后点击“Debug”按钮



 

 

  • 大小: 56.2 KB
  • 大小: 25.2 KB
  • 大小: 54.2 KB
  • 大小: 9 KB
  • 大小: 61.5 KB
  • 大小: 54.8 KB
  • 大小: 83.8 KB
  • 大小: 15.1 KB
  • 大小: 5.2 KB
  • 大小: 48.5 KB
  • 大小: 76.7 KB
分享到:
评论

相关推荐

    eclipse运行mr插件hadoop-eclipse-plugin-2.6.0.jar

    总之,`hadoop-eclipse-plugin-2.6.0.jar`是Hadoop开发者在Windows环境下利用Eclipse进行高效开发的重要工具,通过它,开发者可以更好地整合开发环境与大数据处理平台,提高开发效率和项目的可维护性。

    hadoop-eclipse-plugin-2.6.0.jar

    《Hadoop Eclipse Plugin 2.6.0:整合Eclipse开发环境的利器》 Hadoop Eclipse Plugin 2.6.0是一款专为Eclipse集成开发环境设计的插件,它使得开发者能够在熟悉的Eclipse环境中直接操作和管理Hadoop集群,极大地...

    hadoop-eclipse-plugin-2.7.4

    Hadoop Eclipse Plugin是Eclipse与Hadoop之间的桥梁,它将Hadoop的开发功能无缝地整合到Eclipse中。 使用Hadoop Eclipse Plugin 2.7.4,开发者可以: 1. **创建Hadoop项目**:在Eclipse中直接创建Hadoop项目,设置...

    hadoop-eclipse-plugin-2.7.4.jar

    《Hadoop Eclipse Plugin 2.7.4:整合开发环境的利器》 在大数据处理领域,Hadoop无疑是一个核心组件,而Eclipse作为Java开发的主流IDE,为开发者提供了强大的工具支持。当这两个世界相遇,便诞生了Hadoop Eclipse ...

    hadoop2.8.0 eclipse jb51

    在这里,它代表了将Hadoop的开发环境与Eclipse IDE整合的一种方式。 Hadoop 2.8.0是一个稳定版本,包含YARN资源管理器和MapReduce计算框架的改进,提高了系统的性能和可扩展性。此外,Hadoop 2.x引入了HDFS HA(高...

    hadoop-eclipse-plugin-2.2.0.zip

    《Hadoop Eclipse Plugin 2.2.0:整合Hadoop与Eclipse的开发利器》 在大数据处理领域,Hadoop作为开源的分布式计算框架,扮演着至关重要的角色。而Eclipse,作为Java开发者广泛使用的集成开发环境(IDE),提供了...

    hadoop-eclipse-plugin2.6.0+2.7.0+2.7.1

    1. **项目创建与管理**:开发者可以在Eclipse中直接创建Hadoop项目,设置Hadoop配置,如指定运行的Hadoop集群地址和版本,简化了项目初始化步骤。 2. **资源管理**:通过插件,可以直观地查看、上传和下载HDFS上的...

    eclipse配置hadoop

    Eclipse 配置 Hadoop 及 MapReduce 开发指南 一、Eclipse 中配置 Hadoop 插件 配置 Hadoop 插件是使用 Eclipse 进行 MapReduce 开发的第一步。首先,需要安装 Eclipse 3.3.2 和 Hadoop 0.20.2-eclipse-plugin.jar ...

    hadoop-eclipse-plugin-2.6.0.rar

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在集群中运行大规模的数据处理任务。MapReduce是Hadoop的核心组件之一,它提供了一种编程模型来处理和生成大规模数据集。Eclipse是一款广泛使用的Java...

    hadoop-eclipse-plugin-2.7.3

    《Hadoop Eclipse Plugin 2.7.3:整合Eclipse开发Hadoop应用的利器》 在大数据处理领域,Hadoop作为开源的分布式计算框架,扮演着至关重要的角色。而Eclipse,作为广受欢迎的Java集成开发环境(IDE),是开发者进行...

    hadoop集群eclipse安装配置共30页.pdf.z

    【标签】"hadoop集群eclipse安"强调了Hadoop集群和Eclipse之间的关系,表明这份资料是关于这两者的整合,帮助用户在Eclipse环境中高效地进行Hadoop开发。 【压缩包子文件的文件名称列表】中的"赚钱项目"可能指的是...

    hadoop0.20.2的eclipse3.3.2插件及开发环境帮助文档

    3. **配置运行环境**: 为了运行Hadoop作业,你需要配置Eclipse中的运行配置,包括指定Hadoop集群的地址、输入输出路径等信息。通过插件,你可以直接在Eclipse中提交和监控作业状态。 4. **调试和测试**: 插件提供了...

    hadoop-eclipse-plugin-2.7.2

    《Hadoop Eclipse Plugin 2.7.2:整合Hadoop与Eclipse的开发利器》 在大数据处理领域,Hadoop作为开源的分布式计算框架,扮演着至关重要的角色。而Eclipse,作为广受欢迎的Java集成开发环境(IDE),是开发者进行...

    hadoop-eclipse-plugin-2.7.3.zip

    《Hadoop Eclipse Plugin 2.7.3:整合开发环境的利器》 Hadoop Eclipse Plugin 2.7.3是一款专门为Hadoop开发人员设计的Eclipse集成插件,旨在简化Hadoop应用程序的创建、调试和部署流程。这个压缩包文件包含了一个...

    hadoop-eclipse-插件编译方法

    Hadoop作为大数据处理领域的核心工具之一,其与开发环境的整合至关重要。Eclipse作为常用的集成开发环境(IDE),通过安装特定的插件可以极大地提升Hadoop项目的开发效率。本文将详细介绍如何手动编译Hadoop Eclipse...

    Hadoop-Eclipse-Plugin-2.x.rar

    总的来说,"Hadoop-Eclipse-Plugin-2.x.rar"是一个旨在简化Hadoop MapReduce开发的工具包,它整合在Eclipse环境中,提供调试功能,并且附带了详细的使用说明和其他辅助资源,对于想要涉足Hadoop开发的新人来说,是一...

    Hadoop-plugin-eclipse-2.6.5.zip

    《Hadoop2.6.5-eclipse-plugin:整合Hadoop与Eclipse的开发利器》 在大数据处理领域,Hadoop作为开源的分布式计算框架,扮演着至关重要的角色。而Eclipse,作为广受欢迎的Java集成开发环境(IDE),为开发者提供了...

    hadoop-eclispe插件

    而【Hadoop-eclipse 插件】则将这些步骤整合到Eclipse中,提供了一种图形化的用户界面,使得开发者可以更直观地管理Hadoop集群,直接在IDE内创建、编辑、运行和调试MapReduce程序。 首先,安装【Hadoop-eclipse ...

    hadoop2.6 ecliplse 插件

    - **部署和运行**:可以直接通过Eclipse将作业提交到Hadoop集群上运行,无需离开IDE。 - **日志查看**:可以在Eclipse中查看MapReduce作业的执行日志,便于调试。 标签中的"hadoop ecliplse 开发 插件"进一步强调了...

Global site tag (gtag.js) - Google Analytics