使用Eclipse基于Maven使用Java开发WordCount程序项目

zhangym195

浏览: 124581 次
性别:
来自: 黑龙江

最近访客更多访客>>

Vinvens

hecore

atom32

li564299616

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据
Hadoop
Spark
WordCount

大数据 Spark WordCount hadoop java

1.前提条件

下载JavaEE Eclipse ，自带Maven

安装好JDK1.8

下载并配置了Hadoop 2.6.x

2.创建Maven Project

选择 Maven-archetype-quickstart 选项

将项目的 JRE换成 JDK1.8，点击编辑选择系统的1.8版本

配置POM文件，为了以后写程序方便，pom.xml使用以下内容替换对应内容：

Ctrl+s保存后

Eclipse会下载相关的Jar文件

关于pom.xml文件的配置，可以通过以下网站（Maven中央仓库信息速查 http://maven.outofmemory.cn/org.apache.spark/）搜索并对照修改，如要查找 spark-streaming_2.10 的依赖包的话，可以点击并对应找到。

如果下载更新时出现错误，可以点击右键，然后选择“Quck Fix”

查看包已经正确下载了

3.开发程序

在src下面建立一个WordCount类，然后编写如下代码

/**
 * 
 */
package com.dt.spark.tempStatisticsApp.cores;

import java.util.Arrays;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

/**
 * @author yuming
 * ail: ymzhang@foxmail.com
 * weibo: http://www.weibo.com/yumzhang
 */
public class WordCount {

	public static void main(String[] args) {
		
		//设置应用程序的名称和运行模式(本地)
		SparkConf conf = new SparkConf()
				.setAppName("Spark WordCount by Java.").setMaster("local");
		
		//创建Java SparkContext,
		//通往天堂之门（去集群的唯一通道）
		JavaSparkContext sc = new JavaSparkContext(conf);
		
		//使用本地数据源来创建JavaRDD
		JavaRDD<String> lines = sc.textFile("H://ScalaTraining//shell//README.md");
		
		//对初始的JavaRDD进行Transformation级别的处理，例如Map、Filter高阶函数的编程 
		//对每行进行拆分，
		JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
			@Override
			public Iterable<String> call(String line) throws Exception { //
				return Arrays.asList(line.split(" "));
			}
		});
		
		//对单词实例进行计数为1
		JavaPairRDD<String,Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {
			@Override
			public Tuple2<String, Integer> call(String word) throws Exception {
				return new Tuple2<String,Integer>(word,1) ;
			}
		});
		
		// 统计每个单词在文件中出现的总次数
		JavaPairRDD<String,Integer> wordsCount = 
				pairs.reduceByKey(new Function2<Integer, Integer, Integer>() { 
				// 对相同的key，对value进行累加，可以local和reducer级别同时reduce，提高网络带宽利用率
			@Override
			public Integer call(Integer v1, Integer v2) throws Exception {
				return v1 + v2;
			}
		});
		
		wordsCount.foreach(new VoidFunction<Tuple2<String,Integer>>() {
			@Override
			public void call(Tuple2<String, Integer> pairs) throws Exception {
				System.out.println(pairs._1 + ":" + pairs._2);
			}
		}); 
		//关闭sc上下文
		sc.close();
	}
}

Run As Java Application

5.后续：

如果程序运行时能够正常出现结果，但是会运行时报错：

在Hadoop的bin目录中放上，这两个文件，就解决问题了(访问我的百度云： http://pan.baidu.com/s/1eRwh1XC)

再次执行不再报错误信息。

查看图片附件

1
顶

1
踩

分享到：

大数据计算前数据抽取（ETL）概述 | BPM jPDL 用户开发手册 3.2.3 (全文pdf)

2016-02-11 12:15
浏览 4998
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Windows eclipse maven Hadoop 的WordCount源码: 总结来说，基于Windows、Eclipse、Maven和Hadoop实现WordCount源码的过程主要包括以下步骤：配置开发环境、创建Maven项目、编写MapReduce代码、打包成jar文件，以及在Hadoop集群上运行作业。通过这个过程，我们可以...

Eclipse+Maven构建Hadoop项目的方法步骤: Eclipse是集成开发环境（IDE），Maven是项目管理工具，Hadoop是大数据处理框架。本文将详细介绍如何使用Eclipse和Maven构建Hadoop项目。一、Maven介绍 Maven是一个项目管理工具，可以对Java项目进行构建、依赖...

maven-hadoop-java-wordcount-template:这是一个 Maven Hadoop Java 项目模板。这个样板框架代码包含一个 Driver、一个 Mapper 和一个 Reducer，可以用你的代码修改（它们包含经典的 wordcount 示例）: 项目：maven-hadoop-java-wordcount-template 这是一个 ...编译你的项目要编译项目，请使用 maven 命令 mvn clean package运行您的应用程序使用 Hadoop 在你的 shell 中 hadoop jar your-hadoop-application.jar arg0

linux下maven在eclipse安装测试Hadoop收集.pdf: 这个插件可以生成一个基本的Maven项目结构，包括pom.xml文件和src/main/java目录。使用命令mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=org.conan.myhadoop.mr -DartifactId=...

MapReduce WordCount Java API代码实现，包括pom.xml的配置: 在这个场景中，我们将探讨如何使用Java API实现一个基本的WordCount程序，以及相关的项目配置。首先，我们来看`MapReduceModule.java`，这是实现MapReduce任务的主要Java类。在这个示例中，WordCount的主要任务是...

spark local下 WordCount运行示例: 对于Java开发者来说，使用Maven来管理Spark项目可以简化开发流程。要运行这个示例，你需要确保已经安装了Eclipse IDE和Maven。然后，你可以将压缩包解压并导入Eclipse，步骤通常是：File > Import > Existing ...

linux下maven在eclipse安装测试Hadoop.pdf: 在Linux环境下，集成开发工具Eclipse与Maven的结合使用对于开发Apache Hadoop项目至关重要。以下将详细讲解如何在Linux上安装Maven，配置环境变量，以及如何在Eclipse中创建和测试Hadoop项目。首先，你需要从Maven...

java连接sqoop源码-Hadoop-project-with-maven:设置了Hadoopmaven依赖项的JavaWordCount: java连接sqoop源码Hadoop-project-with-maven 设置了 Hadoop maven 依赖项的 Java WordCount 示例这是一个练习，可帮助您安装和运行用 Java 编写的 hadoop 程序，首先在本地模式下的 IDE 中，然后在您将自己构建的 ...

hadoop-mapreduce-examples: 使用eclipse和maven的Hadoop Mapreduce示例：日志文件分析：本文简要概述了如何使用Eclipse和maven应用map reduce来计算每天发生的日志消息类型的数量。先决条件： • 虚拟机上的Hadoop 设置。 • Java 版本 6 ...

mapreduce_eclipse开发需要的所有包: 3. **Maven或Gradle配置**：为了管理项目依赖，开发者通常会使用Maven或Gradle。在pom.xml或build.gradle文件中，需要指定Hadoop的相关依赖，确保MapReduce程序可以正确编译和运行。 4. **Hadoop配置文件**：...

零基础学习hadoop编程篇.pdf: - Eclipse是一个流行的Java集成开发环境（IDE），学会使用其快捷键和项目管理功能将提升开发效率。 2. **Hadoop MapReduce编程**： - MapReduce是Hadoop的主要计算模型，它将大型任务拆分为map任务和reduce任务，...

Hadoop 分析统计学生考试成绩1: 本资源综合了 Hadoop 分析统计学生考试成绩的实现，涵盖了从开发环境到项目结构、代码文件说明、程序运行方式等方面。一、开发环境项目需要 Win 10 64 位或 macOS High Sierra 10.13.3 操作系统，Java 1.8.0_162...

Install_Spark_on_Windows10.pdf: 在Windows 10上安装Spark是一个涉及多个步骤的过程，其中需要安装和配置多个依赖项，包括Scala、Java、Eclipse集成开发环境、Spark本身、Windows工具集和Maven项目管理器。以下是详细步骤以及每个步骤所需的知识点：...

MyWordCount.zip: 1. `.classpath`：这是Eclipse IDE的一个配置文件，它包含了项目的类路径信息，用于构建和运行Java项目。在Hadoop项目中，它可能指定了Hadoop相关的库和其他依赖。 2. `mapreduce_test.log`：这可能是运行MapReduce...

hadoop大数据培训零基础学习hadoop-北京尚学堂.pdf: - 使用Hadoop-Eclipse-Plugin插件，可以方便地在Eclipse中远程调试Hadoop程序，这对于在本地开发并在集群上运行程序很有帮助。 - 理解MapReduce编程模型，包括Mapper和Reducer的职责，以及它们如何协同工作以处理...

wordcount-ee: 一些开发/配置信息：该应用程序是使用Java 11，Maven 3.6.3构建的，并使用JUnit4。在开发过程中，使用了Eclipse 2021-03 IDE 开发是在Linux工作站上完成的Open Liberty用作Jakarta EE服务器Arquillian被用作测试...

hadoop-wordcount-eg: hadoop-wordcount-eg Hadoop WordCount 示例 - Maven 项目Hadoop 以文件系统作为输入和输出使用“现有 Maven 项目”在 Eclipse 中导入项目定位类 WordCountFileSystem 将 inputPath 更改为包含要分析的文件的目录...

第一个Mapreduce程序.pdf: 本文主要介绍了如何使用Java编写MapReduce程序，并运行第一个MapReduce作业，包括遇到的问题和解决方案。首先，环境搭建是使用Hadoop MapReduce的重要步骤。本文的环境基于CDH5（Cloudera's Distribution ...

windows平台使用hadoop hdfs文件进行中文分词的示例代码: 本示例将详述如何使用Eclipse集成开发环境（IDE）的Hadoop插件，执行一个基于HDFS的中文分词任务，对《唐诗三百首》进行分析，找出其中最常出现的词语。这个过程涉及到的关键技术包括Hadoop MapReduce、中文分词库...

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论