一、先贴Word Count的程序;这里用的是java版本
public final class JavaWordCount { private static final Pattern SPACE = Pattern.compile(" "); public static void main(String[] args) throws Exception { // if (args.length < 1) { // System.err.println("Usage: JavaWordCount <file>"); // System.exit(1); // } String filePath = "/test.txt"; SparkSession spark = SparkSession .builder() .appName("JavaWordCount") .getOrCreate(); JavaRDD<String> lines = spark.read().textFile(filePath).javaRDD(); JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() { @Override public Iterator<String> call(String s) { return Arrays.asList(SPACE.split(s)).iterator(); } }); JavaPairRDD<String, Integer> ones = words.mapToPair( new PairFunction<String, String, Integer>() { @Override public Tuple2<String, Integer> call(String s) { return new Tuple2<>(s, 1); } }); JavaPairRDD<String, Integer> counts = ones.reduceByKey( new Function2<Integer, Integer, Integer>() { @Override public Integer call(Integer i1, Integer i2) { return i1 + i2; } }); List<Tuple2<String, Integer>> output = counts.collect(); counts.saveAsTextFile("/testResult"); for (Tuple2<?,?> tuple : output) { System.out.println(tuple._1() + ": " + tuple._2()); } spark.stop(); } }
二、创建需要输出的jar包
1、选择 File >> Artifacts >> +(加号) >> Jar >> From modules with dependencies
选择Main Class 点 OK摁钮 进入当前jar包的配置菜单如图所示:
在Output Layout选择的jar包中,删除Extracted 相关jar包引用只留下“wordCount” compile output
点击Apply 和 OK按钮保存
点击Build >> Build Artrifact >> Build
在对应的output输出文件夹下面就应该找到对应的jar包文件了
三、拷贝到Spark的服务器上,进行运行测试
./spark-submit --class com.mm.JavaWordCount --master spark://localhost:7077 /usr/spark/spark-2.0.0-bin-hadoop2.6/wordCount.jar
相关推荐
本文主要介绍如何在 IntelliJ IDEA 中配置并连接到 Apache Spark 集群,以便进行 Spark 应用程序的开发。 #### 二、准备工作 在开始配置之前,请确保你已经安装了以下软件: - **Java**:Spark 应用基于 Java 平台...
IntelliJ Idea开发spark程序及运行文章的源码,程序简单入门。 项目中缺这个包,请读者自行补上,在SPAKRK_HOME/lib下面有 spark-assembly-1.6.0-hadoop2.6.0 代码指导文章地址: ...
IntelliJ IDEA是一款广受欢迎的Java开发集成环境,由JetBrains公司开发。它以其高效、智能化的代码编辑、调试和项目管理功能而受到开发者们的喜爱。"2020.03版本IDEA"指的是该软件的一个特定更新迭代,通常会包含...
IntelliJ IDEA是一款广受欢迎的Java开发集成环境,由JetBrains公司开发。它以其强大的代码自动补全、重构工具和高效的开发体验而闻名。而Scala是一种多范式编程语言,结合了面向对象和函数式编程的特点,常用于构建...
5. **集成开发环境(IDE)**: "workspace"可能包含了使用某种IDE(如IntelliJ IDEA或Eclipse)的配置文件。这些IDE都有Spark和Scala的插件,能够提供良好的代码提示和调试支持。导入这些配置文件可以帮助快速设置好...
总的来说,"Scala-intellij-bin-2017.2.13"插件极大地提升了Scala和Spark开发者在IntelliJ IDEA中的工作效率,提供了丰富的特性以支持复杂的编程任务。无论是本地开发Scala程序,还是构建大规模的数据处理应用,这个...
在本文中,我们将详细讨论如何使用sbt构建一个基于IntelliJ IDEA的Spark项目,并介绍如何优化构建过程以提高效率。 1. **安装与配置sbt** - 首先,确保已经安装了Java JDK,并将其添加到系统环境变量中。 - 安装...
### IntelliJ IDEA 开发Spark配置详解 #### 一、前言 在进行大数据处理与分析时,Apache Spark无疑是一个强大的工具。然而,对于初次接触Spark及其集成开发环境(IDE)的开发者来说,正确地配置开发环境可能会遇到...
总的来说,`scala-intellij-bin-2018.3.5.zip` 和 `scala-intellij-bin-2018.3.6.zip` 插件极大地提升了Scala和Spark开发者在IntelliJ IDEA中的开发体验,提高了工作效率。无论是初学者还是经验丰富的开发者,都能...
在Windows 10操作系统中,要进行Spark的本地开发和调试,首先需要确保安装了必要的软件环境,包括OpenJDK、Scala、Hadoop以及IntelliJ IDEA(简称IDEA)。以下是详细的步骤: 1. **安装OpenJDK8** - 从官方下载...
这个"scala-intellij-bin-2019.1.9.zip"压缩包文件是为IntelliJ IDEA开发的一个Scala插件,适用于2019.1.x版本的IDEA集成开发环境。IntelliJ IDEA是一款广泛使用的Java开发工具,由于其优秀的代码补全、重构和调试...
2. **Scala插件**: Scala插件是IntelliJ IDEA中的一个关键组件,使得IDE能够理解和支持Scala语言。这个插件包含了语法解析器、代码导航、代码分析、重构工具等功能,让开发者在编写Scala代码时能够享受到与Java开发...
IntelliJ IDEA是一款广受欢迎的集成开发环境(IDE),尤其在Java和Scala开发者中有着极高的赞誉。"scala-intellij-bin-2021.3.6.zip"是一个压缩包,包含了用于在IntelliJ IDEA中支持Scala开发的特定版本插件。 这个...
本课程论文阐述了spark和spark集成开发环境Intellij IDEA的安装与操作,也详细说明了基于Spark的电影推荐系统的开发流程。推荐引擎是最常用的机器学校应用,我们可以在各大购物网站上看到这方面的应用。基于Spark的...
IntelliJ IDEA和VS Code都支持这些框架的相关开发,例如通过Scala或Java与Spark交互,进行分布式计算。同时,数据可视化是业务分析不可或缺的一部分,开发者可以借助VS Code的插件,如Jupyter Notebook,来创建和...
在本项目中,我们将使用IntelliJ IDEA(IDEA)作为集成开发环境,通过Maven来管理依赖,以实现对Spark的本地测试。 **一、Spark Local模式** Spark Local模式适用于开发和调试阶段,它在本地单节点上模拟一个完整...