`
madbluesky
  • 浏览: 84034 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop客户端提交job的java代码

    博客分类:
  • java
 
阅读更多
package com.xhb1.test;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import com.test.UserBroserCount;

public class RunBroserCount {
	public static void main(String[] args) throws Exception {
		String inputPath = "/logdata/userLogFile.log";
		String outputPath = "/oozie/test1";
		new RunBroserCount().runBroserCount(inputPath, outputPath);
	}

	public void runBroserCount(String inputPath, String outputPath)
			throws IOException, InterruptedException, ClassNotFoundException {
		Configuration conf = new Configuration();
		conf.set("fs.default.name", "hdfs://192.168.0.170:4310");
		//conf.set("hadoop.job.user", "root");
		conf.set("mapred.job.tracker", "192.168.0.170:4311");
		Job job = new Job(conf, "browserCount");
		((JobConf) job.getConfiguration()).setJar("E:/workspaces/pmp/BrowserCount/target/pr.jar");  
		job.setJarByClass(UserBroserCount.class);
		job.setMapOutputValueClass(IntWritable.class);
		job.setMapperClass(UserBroserCount.UserBroserCountMapper.class);
		job.setReducerClass(UserBroserCount.UserBroserCountReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		FileInputFormat.addInputPath(job, new Path(inputPath));
		FileOutputFormat.setOutputPath(job, new Path(outputPath));
		job.waitForCompletion(true);

	}

}
分享到:
评论

相关推荐

    Hadoop客户端Java代码.zip

    本压缩包"**Hadoop客户端Java代码.zip**"包含了使用Java语言编写Hadoop客户端应用的源代码,这对于理解Hadoop的客户端编程接口以及进行数据处理是非常有帮助的。以下是基于Hadoop客户端Java代码的一些关键知识点: ...

    云计算hadoop java写的源代码

    6. **Hadoop客户端API**:源码可能包含使用Hadoop客户端提交和监控作业的代码,这有助于理解作业执行的生命周期。 在实际学习和使用这些源代码时,你可以通过以下步骤深入理解Hadoop和Java的结合: 1. **阅读和...

    Java访问Hadoop集群源码

    1. 配置Hadoop客户端:在Java代码中,你需要通过`Configuration`类设置Hadoop集群的相关配置,如HDFS的名称节点地址和Hadoop的配置文件路径。 ```java Configuration conf = new Configuration(); conf.set("fs....

    Hadoop client server通讯分析

    总结,Hadoop客户端与服务器的通信涉及多个层次,包括HDFS的元数据查询、数据读写以及MapReduce任务的提交与执行。理解这一通信机制对于优化Hadoop集群性能、调试问题以及开发基于Hadoop的应用至关重要。同时,...

    java下hadoop开发使用jar包

    `hadoop-mapreduce-client-core`则包含MapReduce的基本操作,比如Job提交、任务调度等。 在Java项目中,这些jar包通常通过Maven或Gradle等构建工具管理。在Maven的`pom.xml`文件中,你可以添加如下依赖来引入Hadoop...

    java操作hadoop之mapreduce分析年气象数据最低温度实战源码

    4. **配置和运行Job**:在Java代码中,我们需要创建一个Job实例,设置输入输出路径,以及Mapper和Reducer类。然后提交这个Job到Hadoop集群,让其执行MapReduce任务。 5. **结果处理**:MapReduce完成后,会生成输出...

    基于Java和ssh在Hadoop平台上完成文件操作

    Java API提供了`Job`类,可以用来提交Job、获取Job状态、等待Job完成并获取最终输出。结合SSH,可以在远程节点上执行数据分析脚本,对MapReduce的结果进行进一步处理。 文件名为“ssh_v3-1.1”的压缩包可能包含的是...

    windows下连接hadoop2.2.0的eclipse+hadoop插件

    - "resources"目录用于存放非Java代码的资源文件,如配置文件、图片等。 - "classes"目录包含了编译后的Java类文件,这些是运行时需要的字节码文件。 - "lib"目录包含了项目运行所依赖的外部库,如JAR文件。对于...

    远程调用执行Hadoop Map/Reduce

    1. **Hadoop客户端**:开发人员通常使用Hadoop的Java API来编写MapReduce程序。客户端包含了提交作业到集群、监控作业状态和获取结果的功能。例如,`Job`类用于创建和配置作业,`FileSystem`类用于文件操作。 2. **...

    php hadoop源码

    PHP操作Hadoop通常有两种方式:通过Hadoop的Java API进行间接调用,或者使用PHP的Hadoop客户端库。"HadooPHP-master"可能包含了后者的实现,即使用PHP代码直接与Hadoop交互。 1. **Hadoop PHP接口**:为了在PHP中...

    新版Hadoop视频教程 段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

    04-HDFS的JAVA客户端编写.avi 05-filesystem设计思想总结.av i 06-hadoop中的RPC框架实现机制.avi 07-hadoop中的RPC应用实例demo.avi 08-hdfs下载数据源码跟踪铺 垫.avi 09-hdfs下载数据源码分析-getFile...

    windows平台使用hadoop hdfs文件进行中文分词的示例代码

    在Eclipse中,通过右键点击项目,选择“Run As” > “Hadoop Job”,设置好Job配置后提交作业。程序执行完成后,结果会被写入到HDFS的指定输出目录,你可以下载并查看频率最高的词语。 总结起来,这个示例展示了...

    hadoop2 MR运行修改jar

    2. `hadoop-mapreduce-client-jobclient-2.2.0.jar`: 这个JAR文件主要包含MapReduce客户端工具,用于与Hadoop集群进行交互,比如提交Job、监控Job状态、终止Job等。它实现了客户端API,使得开发者可以在本地或远程...

    hadoop段海涛老师八天实战视频

    04-HDFS的JAVA客户端编写.avi 05-filesystem设计思想总结.avi 06-hadoop中的RPC框架实现机制.avi 07-hadoop中的RPC应用实例demo.avi 08-hdfs下载数据源码跟踪铺垫.avi 09-hdfs下载数据源码分析-getFileSystem....

    hadoop中 MapReduce学习代码WordCount

    【Hadoop MapReduce 学习代码 - WordCount】 在大数据处理领域,Hadoop MapReduce 是一个重要的工具,它提供了一种分布式计算模型,用于处理和生成大规模数据集。本篇文章将详细讲解如何通过一个简单的 WordCount ...

    hadoop-eclipse

    `lib`目录包含了插件运行所需的外部库,比如Hadoop客户端库。这些库使得插件能够与远程Hadoop集群通信,执行提交、监控和调试MapReduce作业的任务。 使用Hadoop-Eclipse插件,开发者可以在本地进行MapReduce作业的...

    hadoop eclipse mapreduce 下开发所有需要用到的 JAR 包

    2. **hadoop-client.jar**:这个JAR包包含了Hadoop客户端所需的全部依赖,包括HDFS、MapReduce和YARN的客户端API。 3. **hadoop-hdfs.jar**:Hadoop分布式文件系统(HDFS)的相关类库,用于与HDFS交互。 4. **...

    hadoop-eclipse-plugin-2.6.0

    3. **lib**:这里包含了插件运行所需的第三方库文件,比如Hadoop客户端的相关jar包,这些库文件使得插件能够与Hadoop集群通信,执行MapReduce任务。 4. **META-INF**:这是标准的Java存档(JAR)文件的一部分,包含...

    分布式计算开源框架Hadoop入门实践

    Hadoop是一个由Apache基金会维护的开源分布式计算框架,它基于Java语言编写,主要由两大核心组件构成:**HDFS(Hadoop Distributed File System)** 和 **MapReduce**。这两个组件分别解决了大数据的存储和处理问题...

    Hadoop学习总结之四:Map-Reduce过程解析

    在Hadoop MapReduce框架中,客户端的任务提交是整个MapReduce作业启动的关键步骤。这一过程主要由`JobClient`类中的`runJob(JobConf job)`静态方法完成。 ##### 1.1 提交任务的具体步骤 - **创建JobClient对象**:...

Global site tag (gtag.js) - Google Analytics