远程提交Map/Reduce任务 - 走自己的路。www.ximalaya.com - ITeye博客

`

ldd600

浏览: 105484 次
性别:
来自: 上海

最近访客更多访客>>

zfsn2222

yominhi

白芝麻黑芝麻

greatchenxu666

博主相关

博客

微博

相册

收藏

留言

关于我

博客专栏

: Hyperic插件开发不完...
浏览量：11416

文章分类

社区版块

存档分类

最新评论

u011506498：楼主，能否求源码，924393541@qq.com，多谢！
Java爬虫框架（三）--模块设计之二
yutiannanjingjiangsu： leftpop的返回值问题，在jedis2.6中似乎已解决（l ...
Spring-data-redis使用心得
xpf123fly：楼主，能否求源码，593829792@qq.com，多谢！
Java爬虫框架（三）--模块设计之二
wenlinguo：写得不是很好理解
Hyperic插件开发不完全指南（二）--插件进阶
406657836： java 在server模式下对while进行了优化。把判断提 ...
Java进程CPU100%的问题

远程提交Map/Reduce任务

博客分类：

Hadoop/HBase/Hive/MR

阅读更多

1. 将开发好MR代码打包成jar。添加到distributed cache中。

bin/hadoop fs -copyFromLocal /root/stat-analysis-mapred-1.0-SNAPSHOT.jar /user/root/lib

2. 在服务器端创建和你客户端一模一样的用户。创建目录 /tmp/hadoop-root/stagging/用户

3. 客户端提交job的代码

	Configuration conf = HBaseConfiguration.create();
	        conf.set("hbase.zookeeper.quorum", "node.tracker1");
	        conf.set("fs.default.name", "hdfs://node.tracker1:9000/hbase");
	        conf.set("mapred.job.tracker", "node.tracker1:9001");
	       
	        Job job = new Job(conf, "Hbase_FreqCounter1");
	      
	        job.setJarByClass(FreqCounter1.class);
	        Scan scan = new Scan();
	        String columns = "details"; // comma seperated
	        scan.addFamily(Bytes.toBytes(columns));
	        scan.setFilter(new FirstKeyOnlyFilter());
	        TableMapReduceUtil.initTableMapperJob("access_logs", scan, Mapper1.class, ImmutableBytesWritable.class,
	                IntWritable.class, job);
	        TableMapReduceUtil.initTableReducerJob("summary_user", Reducer1.class, job);
//	        TableMapReduceUtil.addDependencyJars(job);
	        
	        DistributedCache.addFileToClassPath(new Path("hdfs://node.tracker1:9000/user/root/lib/stat-analysis-mapred-1.0-SNAPSHOT.jar"),job.getConfiguration());
	        job.submit();

4.运行java application，登陆node的MR管理页面，可以看到

查看图片附件

分享到：

多客户端同时登录向下查看更多翻页 | Lucene sort

2012-08-28 21:20
浏览 1810
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

远程调用执行Hadoop Map/Reduce: 7. **工具集成**：有许多开源工具可以帮助我们远程提交和管理Hadoop作业，如Hadoop命令行工具、Hadoop的Web UI、Apache Oozie工作流管理系统等。这些工具提供了方便的接口，使开发者能便捷地与集群交互。 8. **安全...

使用elipse连接Hadoop: "Hadoop_eclipse连接插件"通常指的是Hadoop的Eclipse插件，它允许开发者在本地Eclipse环境中直接提交MapReduce任务到远程Hadoop集群。这个插件可以简化开发流程，减少手动配置的复杂性。安装步骤如下： 1. 下载插件...

hadoop-eclipse-plugins: 在MapReduce中，数据处理任务被分为两个阶段：Map阶段和Reduce阶段。Map阶段将输入数据分割成键值对，并对每一对执行用户定义的函数；Reduce阶段则聚合Map阶段的结果，处理中间键值对，生成最终结果。 Eclipse中的...

hadoop-eclipse-plugin含WINDOWS下调试文档: 3. 提交任务后，Eclipse会显示作业的进度和状态，包括Map和Reduce任务的数量、完成情况等信息。 4. 对于调试，可以利用Eclipse的断点功能，设置在代码中需要检查的地方，当执行到该位置时，程序会暂停，便于查看变量...

Hadoop-eclipse-plugin-2.7.6下载与说明: 在Java应用程序的主类上右键单击，选择“Run As” -> “Map/Reduce Job”，然后选择本地运行或连接到远程集群。 6. **连接到Hadoop集群**：如果你的开发环境不在Hadoop集群上，可以通过配置Eclipse连接到远程集群。...

Eclipse开发Hadoop相关项目本地配置插件: Eclipse会自动提交任务到Hadoop集群，或者在本地模式下运行。 5. **使用eclipse开发hadoop项目相关插件**：这个压缩包文件可能包含了一些帮助开发Hadoop项目的Eclipse插件或工具。例如，可能有用于提高代码编辑体验...

hadoop-eclipse-plugin: 通过Eclipse插件，我们可以直接在本地开发MapReduce程序，然后将其提交到远程Hadoop集群上运行。安装"hadoop-eclipse-plugin"的过程如下： 1. 首先，确保你已经安装了Eclipse IDE，并且版本兼容该插件。 2. 下载...

如何在Windows下的eclipse调试Hadoop2.2.0分布式集群: 这些设置可以在Eclipse的偏好设置中完成，通过“Window” -> “Preferences” -> “Hadoop Map/Reduce”进行配置。 3. **建立Hadoop项目**：创建一个新的Java项目，并选择Hadoop Map/Reduce项目类型。在这个项目...

分布式计算(MapReduce)参考.pdf: TaskTracker执行实际的任务，包括Map任务和Reduce任务。为提高容错性和效率，系统可能会启动备份任务（Speculative Task），以防某个任务执行缓慢或失败。 5. **Client和JobTracker的交互**：客户端（Client）是...

HadoopEclipsePlugin273.zip: - **任务提交**：直接从IDE提交MapReduce作业到Hadoop集群，无需离开开发环境。 - **日志查看**：查看运行时的日志，便于调试和问题定位。 - **调试工具**：支持远程调试MapReduce作业，帮助开发者优化代码性能。 ...

hadoop-eclipse-plugin-2.6.5.jar插件下载: 1. **创建Hadoop项目**：选择“File” > “New” > “Hadoop Map/Reduce Project”，输入项目名，设置Hadoop配置，就可以创建一个全新的Hadoop项目。 2. **编写MapReduce代码**：在项目中，开发者可以创建Java类，...

如何使用eclipse调试Hadoop作业: 在Eclipse中，选择"File" -> "New" -> "Project"，然后在弹出的对话框中选择"Map/Reduce Project"。为项目命名，并在"Build Path"中关联Hadoop的JAR文件，通常是hadoop-core-x.x.x.jar或更现代的版本，如hadoop-...

MapReduce的实现细节: 2. **任务服务器** (`TaskTracker` 或 `Worker`)：执行具体的任务，包括Map和Reduce任务。 3. **客户端**：用户通过客户端提交作业，并监控作业的执行状态。 #### 五、MapReduce中的通信机制在Hadoop MapReduce中...

eclipse运行mr插件hadoop-eclipse-plugin-2.6.0.jar: 5. **编写MapReduce程序**: 使用Eclipse编写Java代码实现MapReduce任务，然后右键点击项目，选择`Run As` -> `Hadoop Job`来提交作业到远程Hadoop集群。 6. **监控作业状态**: 插件还会在Eclipse的`Progress`视图中...

MapReduce - WordCount案例 - 含各种部署方式源码: - **远程调用**：生产环境中，任务通常提交到Hadoop集群上执行。这需要设置HDFS的URL、JobTracker地址等，并使用`submit()`方法提交作业。 ```java Job job = Job.getInstance(conf, "Word Count"); // 配置...

实验3 操作手册-基于Hive的开源软件社区数据分析1: - **Execution Engine**：执行编译后的查询计划，该计划通常由多个Stage组成，每个Stage可能包含map/reduce任务、元数据操作或HDFS操作。 2. **Hive安装配置** - **安装主机：bdcourse-0001** - **安装MySQL**：...

Hadoop client server通讯分析: TaskTracker接收JobTracker分配的任务，启动Map或Reduce任务，并将任务进度和结果反馈给客户端。四、RPC（Remote Procedure Call）机制 Hadoop中的通信主要通过RPC实现，这是一种远程调用协议，使得客户端可以像...

myEclipse10.0与hadoop集群远程连接: 在myEclipse中，你可以创建一个新的Java项目，导入Hadoop的SDK，然后编写Map和Reduce类。在编程过程中，myEclipse的代码提示和调试功能可以帮助你高效地完成开发工作。同时，记得在代码中设置正确的输入路径和输出...

hadoop2.6.0源码和eclipse插件: 源码包含了JobTracker、TaskTracker、Task等核心组件，以及作业提交、任务调度和容错机制的实现。 3. **YARN（Yet Another Resource Negotiator）**：从Hadoop 2.x开始，资源管理从MapReduce中剥离出来，形成了独立...

Hadoop_2.X,eclipse开发插件: 6. 部署和运行：通过Eclipse插件，可以直接将MapReduce任务提交到远程Hadoop集群上执行，查看日志和监控任务状态。在开发过程中，可能会遇到的问题包括网络连接问题、权限问题、依赖库冲突等，解决这些问题需要对...

Global site tag (gtag.js) - Google Analytics