转 http://blog.sciencenet.cn/blog-540233-591217.html
尝试了一下 可以打断点调试了
测试一:grep
bin/hadoop fs -put conf input 把hadoop文件夹下的conf文件夹复制到dfs的/user/grid/input,做为输入文件夹
bin/hadoop jar hadoop-examples-*.jar grep input output 'dfs[a-z.]+' 运行hadoop文件夹下的jar例子程序中的grep小程序(class),输入文件夹是input,输出文件夹是output,grep查找的是dfs开头的内容。此output文件夹貌似也不要手动建立。
bin/hadoop fs -get output output 将运行结果output文件夹复制到hadoop(当前目录)下
cat output/* 再查看输出
或直接在DFS中查看结果:bin/hadoop fs -cat output/*
测试二:wordcount
在hadoop/input中建test1.txt(hello world)和test2.txt(hello hadoop)
bin/hadoop fs -put input in
bin/hadoop jar hadoop-examples-*.jar wordcount in out
bin/hadoop fs -cat out/*
则结果是:hadoop 1 hello 2 world 1
6.配置分布式(仍都在grid用户下,没试过,请查看hadoop分布式配置)
7.hadoop的使用
关进程,在hadoop文件夹下:bin/stop-all.sh
查看命令:bin/hadoop
分布式文件系统:
HDFS:/home/grid/tmp/hadoop/mapred/system ----格式化后的DFS系统
/usr/grid/in ----直接复制(bin/hadoop fs -put input in)到in目录的情况
在文件系统中新建目录:bin/hadoop fs -mkdir /tmp/wordcount
复制本地文件到文件系统:bin/hadoop fs -copyFromLocal /home/grid/word.txt /tmp/wordcount/word.txt
8.eclipse安装到/home/grid/app/并汉化
Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.gz(3.7的版本)
Eclipse官方下载 http://www.eclipse.org/downloads/
各版本的区别:
Eclipse IDE for Java Developers是Eclipse的platform加上JDT插件,用来java开发的
Eclipse IDE for Java EE Developers应该是Eclipse的platform加上WTP插件,用来java企业级开发的
Eclipse IDE for C/C++ Developers是Eclipse的platform加上CDT插件,用来做C和C++开发的
Eclipse for RCP/Plug-in Developers是Eclipse的SDK,主要用来插件开发
Eclipse Classic就是原来的Eclipse,还是主要用来开发java
将eclipse解压:tar xvf eclipse-java-indigo-SR2-linux-gtk.tar.gz则运行是英文版
汉化方法:http://www.oschina.net/question/111098_14079
汉化包下载:http://www.eclipse.org/babel/downloads.php
将BabelLanguagePack-eclipse-zh_3.7.0.v20111128043401.zip下的features和plugins下的文件分别放到eclipse目录下,再启动eclipse即中文。
9.eclipse安装hadoop插件及配置
将hadoop-eclipse-plugin-1.0.3.jar复制到eclipse/plugins下,
重启eclipse,窗口-首选项-Hadoop Map/Reduce,设置hadoop的安装目录/home/grid/hadoop-1.0.3
窗口-显示视图-Map/Reduce Location,则会出现Map/Reduce Location的视图窗口,在窗口右上角点新建,新建一个Location:
Location Name: hadoop(任意)
Map/Reduce Master: localhost 9000 (同hadoop中core-site.xml mapred-site.xml中的配置)
DFS Master: localhost 9001
配置后,在Project Exploror窗口中DFS Location出现hadoop-(2)-... 说明成功,能连上DFS服务
10.eclipse中wordcount例子:
新建项目:File-->New-->Other-->Map/Reduce Project ,项目名可以随便取,如WordCount。
复制 hadoop安装目录下/src/example/org/apache/hadoop/example/WordCount.java到刚才新建的项目下面。
输入文件准备:在hadoop/input中建test1.txt(hello world)和test2.txt(hello hadoop)
bin/hadoop fs -put input in
运行的配置:
在新建的项目Hadoop,点击WordCount.java,右键-->Run As-->Run Configurations
在弹出的Run Configurations对话框中,点Java Application,右键-->New,这时会新建一个application名为WordCount
配置运行参数,点Arguments,在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”,如:
hdfs://localhost:9000/user/grid/in hdfs://localhost:9000/user/grid/out
如果运行时报java.lang.OutOfMemoryError: Java heap space 配置VM arguments(在Program arguments下)
-Xms512m -Xmx1024m -XX:MaxPermSize=256m
运行,控制台会输入一大堆信息,但查看结果:bin/hadoop fs -cat out/*
- 大小: 250.5 KB
分享到:
相关推荐
为了方便开发者在Eclipse或MyEclipse这样的集成开发环境中高效地进行Hadoop应用开发,Hadoop-Eclipse-Plugin应运而生。这个插件允许开发者直接在IDE中对Hadoop集群进行操作,如创建、编辑和运行MapReduce任务,极大...
Hadoop-Eclipse-Plugin-3.1.1是一款专为Eclipse集成开发环境设计的插件,用于方便地在Hadoop分布式文件系统(HDFS)上进行开发和调试MapReduce程序。这款插件是Hadoop生态系统的组成部分,它使得Java开发者能够更加...
Hadoop-Eclipse插件是Apache Hadoop项目与Eclipse IDE集成的一个重要工具,它使得Hadoop开发者能够在Eclipse环境中直接创建、编辑、调试和管理Hadoop MapReduce作业,极大地提升了开发效率。本合集包含了多个版本的...
Hadoop-Eclipse插件是将Hadoop的功能与Eclipse IDE结合的工具,它使得开发人员能够在Eclipse环境中直接编写、调试和运行Hadoop MapReduce程序,极大地提升了开发效率。 标题中的"hadoop-eclipse2.7.1、hadoop-...
Hadoop-eclipse-plugin-2.7.2正是为了解决这个问题,它为Eclipse提供了与Hadoop集群无缝对接的功能,使得开发者可以在熟悉的Eclipse环境中编写、调试和运行Hadoop MapReduce程序。 首先,让我们深入了解Hadoop-...
这个插件是针对Hadoop 2.6.0版本设计的,主要目标是集成Eclipse IDE,使得开发者可以在本地环境中便捷地创建、调试和管理Hadoop MapReduce项目。 一、插件功能详解 1. **项目创建与导入**:通过Hadoop Eclipse插件...
这个插件使得Java开发者能够在熟悉的Eclipse环境中无缝地创建、调试和管理Hadoop MapReduce项目,极大地提高了开发效率。 1. **Hadoop概述** Hadoop是一个开源框架,由Apache软件基金会维护,用于存储和处理大数据...
Hadoop-eclipse-plugin是Hadoop生态系统中的一个重要工具,它允许开发者使用Eclipse IDE直接在Hadoop集群上开发、测试和部署MapReduce程序。这个插件极大地简化了Hadoop应用程序的开发流程,使得Java开发者能够利用...
Hadoop Eclipse Plugin 2.6.0是一款专为Eclipse集成开发环境设计的插件,它使得开发者能够在熟悉的Eclipse环境中直接操作和管理Hadoop集群,极大地提升了Hadoop应用的开发效率。这款插件在Hadoop生态系统中扮演着...
Eclipse是流行的Java集成开发环境(IDE),而Hadoop-Eclipse插件是将Hadoop与Eclipse结合的工具,允许开发者在Eclipse中直接创建、运行和调试Hadoop MapReduce程序。这些文件"hadop-eclipse-plugin-2.5.2.jar"、...
Hadoop Eclipse Plugin 2.7.4是专为Hadoop 2.7.4版本设计的一款集成开发工具,它使得开发者能够在Eclipse环境中直接编写、调试和运行MapReduce程序,极大地提升了开发效率和便利性。在Hadoop 2.7.3版本中,一些用户...
在本例中,`hadoop-eclipse-plugin-2.6.0.jar`就是这样的一个插件,它允许开发人员在Eclipse中直接创建、管理和运行Hadoop MapReduce项目,无需离开IDE,极大地提高了开发效率。 安装此插件的过程如下: 1. **下载...
总的来说,Hadoop-Eclipse-Plugin-2.6.4.jar是Hadoop开发者的得力工具,它为Eclipse带来了强大的Hadoop支持,使开发者能够在熟悉的环境中高效地进行大数据应用的开发和调试。通过熟练掌握并运用这个插件,我们可以更...
Hadoop Eclipse是Hadoop开发环境的插件,用户在创建Hadoop程序时,Eclipse插件会自动导入Hadoop编程接口的jar文件,这样用户就可以在Eclipse插件的图形界面中进行编码、调试和运行Hadop程序,也能通过Eclipse插件...
而为了方便开发者在Eclipse这样的集成开发环境中直接操作Hadoop集群,Hadoop Eclipse Plugin应运而生。本文将详细探讨Hadoop Eclipse Plugin 2.6.5这一版本,以及如何使用它来提升Hadoop开发效率。 Hadoop Eclipse ...
`hadoop-eclipse-plugin`是Eclipse集成开发环境中的一个插件,它使得开发者能够在Eclipse中直接编写、调试和运行Hadoop MapReduce程序,极大地提升了开发效率。在本场景中,我们讨论的是在Windows 10环境下,配合JDK...
Hadoop Eclipse Plugin 2.7.0是一款专门为Hadoop生态系统设计的Eclipse集成插件,它极大地简化了开发者在Eclipse环境中对Hadoop应用程序的创建、调试和管理过程。这款插件的核心功能在于提供了一个直观的图形用户...
Hadoop Eclipse Plugin是Apache Hadoop项目的一个重要组成部分,主要用于在Eclipse集成开发环境中方便地创建、管理和调试Hadoop MapReduce程序。2.7.2版本是这个插件的一个稳定版本,提供了对Hadoop 2.x系列的支持。...
此外,你可以直接在Eclipse中编写MapReduce程序,然后使用内置的JobTracker视图监控作业的执行状态,实时查看任务进度和日志信息,这对于调试和优化代码非常有帮助。 在Hadoop 2.7.4版本中,插件还支持YARN(Yet ...
这些插件可以帮助开发者在Eclipse中创建、编辑、编译、运行和调试Hadoop作业,大大简化了开发流程。 jb51的出现可能意味着一种特定的配置或集成方法,这可能涉及到自定义插件设置,或者是在Eclipse中集成特定的...