`
freewxy
  • 浏览: 342710 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop初识--HelloHadoopV1

阅读更多

/**
 * HelloHadoop
 * 此程序用来了解Hadoop的<key,value>,并且练习hadoop api 编程
 *
 * 测试方法:
 * 1、将该程序打包在hadoop0.21.0平台上;打成jar包,并将jar包拷贝到usr/local/hadoop(hadoop的安装目录)下
 * 2、格式化namenode:
 * hadoop@wxy:/usr/local/hadoop$ ./bin/hadoop namenode -format
 * 3、启动hadoop
 * hadoop@wxy:/usr/local/hadoop$ ./bin/start-all.sh

 * 4、查看hadoop运行情况 ¥jps

 * 5、在hdfs上创建input文件夹,将文本文件READ.TXT拷贝到hdfs(/user/hadoop/input)上



 

 
 * 6执行:
 * hadoop@wxy:/usr/local/hadoop$ bin/hadoop jar HelloHadoop.jar

 *7 查看运行结果

 如上图,产生/user/hadoop/output-hh1文件夹,文件夹中包含运行结果

 
 *
 *注意:
 *1.在hdfs 上来源文档路径为 "/user/hadoop/input"
 *  注意必须先放资料到此hdfs上的文件夹内,且文件夹内只能放文件,不能再放文件夹     
 *2. 运算完后,程序将执行结果放在hdfs 的输出路径为 "/user/$YOUR_NAME/output-hh1"
 *  注意此文件夹为运算结束后才产生的,所以运算之前不会产生该文件夹  
 * 
 *浏览器中输入:http://localhost:50030/jobtracker.jsp查看运行状态
 */

 

 

package HelloHadoopV1;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * HelloHadoop
 * @author wxy
 * 此程序用来了解Hadoop的<key,value>,并且练习hadoop api 编程
 * 
 */
public class HelloHadoop {

	static public class HelloMapper extends Mapper<LongWritable,Text,LongWritable,Text>{
		public void map(LongWritable key,Text value,Context context)
		    throws IOException,InterruptedException {
			//将输入的资料,原封不动的写入输出
			context.write((LongWritable)key, (Text)value);
		}
	}
	
	static public class HelloReducer extends Reducer<LongWritable,Text,LongWritable,Text>{
		public void reduce(LongWritable key,Iterable<Text> values,Context context)
		    throws IOException,InterruptedException {
			Text val = new Text();
			//取得values的值,放入val中
			for(Text str:values){
				val.set(str.toString());
			}
			//将获取的资料引入输出
			context.write(key, val);
		}
	}
	
	public static void main(String[] args)throws IOException,InterruptedException,ClassNotFoundException{
		//引入 ¥HADOOP_HOME/conf 启用默认配置
		Configuration conf = new Configuration();
		//定义一个job,宣告job取得conf并设定名称 Hadoop Hello World
		Job job = new Job(conf,"Hadoop Hello World");
		//设置运算主程序,即执行类
		job.setJarByClass(HelloHadoop.class);
		//设置输入路径
		FileInputFormat.setInputPaths(job,"input");
		//设置输出路径
		FileOutputFormat.setOutputPath(job,new Path("output-hh1"));
		//指定Map class,即设定Mapper的实现类
		job.setMapperClass(HelloMapper.class);
		//指定reduce class,即设定Reducer的实现类
		job.setReducerClass(HelloReducer.class);
		//开始运算
		job.waitForCompletion(true);
		
	}
}
  • 大小: 22 KB
  • 大小: 6.1 KB
  • 大小: 46 KB
  • 大小: 51.8 KB
  • 大小: 48.9 KB
分享到:
评论

相关推荐

    hadoop最新版本3.1.1全量jar包

    hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...

    hadoop-eclipse-plugin1.2.1 and hadoop-eclipse-plugin2.8.0

    Hadoop-Eclipse-Plugin 2.8.0的出现,反映了Hadoop生态系统从Hadoop 1到Hadoop 2的重大转变,尤其是在资源管理和任务调度方面的改进。同时,这也意味着对于那些已经习惯了Eclipse或MyEclipse的开发者来说,他们无需...

    hbase-hadoop2-compat-1.2.12-API文档-中文版.zip

    赠送jar包:hbase-hadoop2-compat-1.2.12.jar; 赠送原API文档:hbase-hadoop2-compat-1.2.12-javadoc.jar; 赠送源代码:hbase-hadoop2-compat-1.2.12-sources.jar; 赠送Maven依赖信息文件:hbase-hadoop2-compat-...

    hadoop插件apache-hadoop-3.1.0-winutils-master.zip

    标题中的"apache-hadoop-3.1.0-winutils-master.zip"是一个针对Windows用户的Hadoop工具包,它包含了运行Hadoop所需的特定于Windows的工具和配置。`winutils.exe`是这个工具包的关键组件,它是Hadoop在Windows上的一...

    hadoop-yarn-client-2.6.5-API文档-中文版.zip

    赠送jar包:hadoop-yarn-client-2.6.5.jar; 赠送原API文档:hadoop-yarn-client-2.6.5-javadoc.jar; 赠送源代码:hadoop-yarn-client-2.6.5-sources.jar; 赠送Maven依赖信息文件:hadoop-yarn-client-2.6.5.pom;...

    hadoop-eclipse-plugin-3.1.1.tar.gz

    Hadoop-Eclipse-Plugin-3.1.1是一款专为Eclipse集成开发环境设计的插件,用于方便地在Hadoop分布式文件系统(HDFS)上进行开发和调试MapReduce程序。这款插件是Hadoop生态系统的组成部分,它使得Java开发者能够更加...

    hadoop-eclipse-plugin-3.3.1.jar

    Ubuntu虚拟机HADOOP集群搭建eclipse环境 hadoop-eclipse-plugin-3.3.1.jar

    hadoop-mapreduce-client-jobclient-2.6.5-API文档-中文版.zip

    赠送jar包:hadoop-mapreduce-client-jobclient-2.6.5.jar; 赠送原API文档:hadoop-mapreduce-client-jobclient-2.6.5-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-jobclient-2.6.5-sources.jar; 赠送...

    hadoop2.6-common-bin.zip

    1. `hadoop.dll`:这是一个动态链接库文件,用于在Windows环境中提供Hadoop的相关功能。 2. `winutils.exe`:如前所述,这是Windows上的一个关键工具,用于执行Hadoop相关的系统任务,如设置HDFS的权限和管理本地...

    hadoop-auth-2.5.1-API文档-中文版.zip

    赠送jar包:hadoop-auth-2.5.1.jar; 赠送原API文档:hadoop-auth-2.5.1-javadoc.jar; 赠送源代码:hadoop-auth-2.5.1-sources.jar; 赠送Maven依赖信息文件:hadoop-auth-2.5.1.pom; 包含翻译后的API文档:hadoop...

    hadoop3.3.0-winutils所有bin文件

    1. `hadoop`: Hadoop命令行工具,用于执行各种Hadoop相关的操作,如启动、停止服务、管理文件系统等。 2. `hdfs`: 与Hadoop分布式文件系统(HDFS)交互的命令行工具,支持文件的创建、删除、复制等操作。 3. `yarn`:...

    flink-shaded-hadoop-3-uber-3.1.1.7.1.1.0-565-9.0.jar.tar.gz

    在这个特定的兼容包中,我们可以看到两个文件:flink-shaded-hadoop-3-uber-3.1.1.7.1.1.0-565-9.0.jar(实际的兼容库)和._flink-shaded-hadoop-3-uber-3.1.1.7.1.1.0-565-9.0.jar(可能是Mac OS的元数据文件,通常...

    hadoop-eclipse-plugin-2.7.3和2.7.7

    hadoop-eclipse-plugin-2.7.3和2.7.7的jar包 hadoop-eclipse-plugin-2.7.3和2.7.7的jar包 hadoop-eclipse-plugin-2.7.3和2.7.7的jar包 hadoop-eclipse-plugin-2.7.3和2.7.7的jar包

    hadoop-eclipse-plugin-2.10.0.jar

    Eclipse集成Hadoop2.10.0的插件,使用`ant`对hadoop的jar包进行打包并适应Eclipse加载,所以参数里有hadoop和eclipse的目录. 必须注意对于不同的hadoop版本,` HADDOP_INSTALL_PATH/share/hadoop/common/lib`下的jar包...

    hadoop-common-2.6.0-bin-master.zip

    1. 解压`hadoop-common-2.6.0-bin-master.zip`到你选择的目录,例如`C:\hadoop\hadoop-2.6.0`。 2. 打开系统属性,进入“高级”选项卡,点击“环境变量”按钮。 3. 在系统变量部分,找到名为`Path`的变量,点击...

    apache-hadoop-3.1.3-winutils-master.zip

    1. **hadoop-winutils**: 在Windows环境下,由于系统内核差异,Hadoop的一些功能需要特定的工具集来支持,这就是winutils。它提供了一系列的命令行工具,如设置Hadoop环境变量、启动HDFS服务、管理HDFS文件等。在...

    hadoop-eclipse-plugin三个版本的插件都在这里了。

    hadoop-eclipse-plugin-2.7.4.jar和hadoop-eclipse-plugin-2.7.3.jar还有hadoop-eclipse-plugin-2.6.0.jar的插件都在这打包了,都可以用。

    hbase-hadoop2-compat-1.1.3-API文档-中文版.zip

    赠送jar包:hbase-hadoop2-compat-1.1.3.jar; 赠送原API文档:hbase-hadoop2-compat-1.1.3-javadoc.jar; 赠送源代码:hbase-hadoop2-compat-1.1.3-sources.jar; 赠送Maven依赖信息文件:hbase-hadoop2-compat-...

    flink-1.0.3-bin-hadoop27-scala_2

    1. **Apache Flink**:Flink的核心理念是提供低延迟、高吞吐量的数据处理能力,支持实时流数据和批量数据的处理。它提供了丰富的数据连接器和API,使得开发者能够方便地实现复杂的数据处理任务。Flink的流处理模型...

    flink-shaded-hadoop-2-uber-2.7.5-10.0.jar.zip

    Apache Flink 是一个流行的开源大数据处理框架,而 `flink-shaded-hadoop-2-uber-2.7.5-10.0.jar.zip` 文件是针对 Flink 优化的一个特殊版本的 Hadoop 库。这个压缩包中的 `flink-shaded-hadoop-2-uber-2.7.5-10.0....

Global site tag (gtag.js) - Google Analytics