`
流氓阿飞
  • 浏览: 18666 次
社区版块
存档分类
最新评论

Spark2.x基于Intellij IDEA开发

 
阅读更多

一、先贴Word Count的程序;这里用的是java版本

 

public final class JavaWordCount {
    private static final Pattern SPACE = Pattern.compile(" ");

    public static void main(String[] args) throws Exception {

//        if (args.length < 1) {
//            System.err.println("Usage: JavaWordCount <file>");
//            System.exit(1);
//        }

        String filePath = "/test.txt";

        SparkSession spark = SparkSession
                .builder()
                .appName("JavaWordCount")
                .getOrCreate();

        JavaRDD<String> lines = spark.read().textFile(filePath).javaRDD();

        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public Iterator<String> call(String s) {
                return Arrays.asList(SPACE.split(s)).iterator();
            }
        });

        JavaPairRDD<String, Integer> ones = words.mapToPair(
                new PairFunction<String, String, Integer>() {
                    @Override
                    public Tuple2<String, Integer> call(String s) {
                        return new Tuple2<>(s, 1);
                    }
                });

        JavaPairRDD<String, Integer> counts = ones.reduceByKey(
                new Function2<Integer, Integer, Integer>() {
                    @Override
                    public Integer call(Integer i1, Integer i2) {
                        return i1 + i2;
                    }
                });

        List<Tuple2<String, Integer>> output = counts.collect();

        counts.saveAsTextFile("/testResult");

        for (Tuple2<?,?> tuple : output) {
            System.out.println(tuple._1() + ": " + tuple._2());
        }

        spark.stop();
    }
}

 

二、创建需要输出的jar包

 

    1、选择  File >> Artifacts >> +(加号) >> Jar >> From modules with dependencies

        选择Main Class 点 OK摁钮 进入当前jar包的配置菜单如图所示:

        

 

    在Output Layout选择的jar包中,删除Extracted 相关jar包引用只留下“wordCount” compile output

 



 

     点击Apply 和 OK按钮保存

 

     点击Build >> Build Artrifact >> Build

 

     在对应的output输出文件夹下面就应该找到对应的jar包文件了

 

三、拷贝到Spark的服务器上,进行运行测试

 

    

./spark-submit --class com.mm.JavaWordCount --master spark://localhost:7077 /usr/spark/spark-2.0.0-bin-hadoop2.6/wordCount.jar 

 

  • 大小: 117.8 KB
  • 大小: 80 KB
分享到:
评论

相关推荐

    intelliJ IDEA开发环境搭建指导V3

    IntelliJ IDEA开发环境搭建指导V3 IntelliJ IDEA是一款功能强大且功能丰富的集成开发环境(IDE),广泛应用于Java、Scala、Groovy等语言的开发中。随着大数据和人工智能技术的兴起,IntelliJ IDEA也逐渐成为数据...

    Intellij IDEA连接Spark集群

    本文主要介绍如何在 IntelliJ IDEA 中配置并连接到 Apache Spark 集群,以便进行 Spark 应用程序的开发。 #### 二、准备工作 在开始配置之前,请确保你已经安装了以下软件: - **Java**:Spark 应用基于 Java 平台...

    IntelliJ Idea开发spark程序及运行

    IntelliJ Idea开发spark程序及运行文章的源码,程序简单入门。 项目中缺这个包,请读者自行补上,在SPAKRK_HOME/lib下面有 spark-assembly-1.6.0-hadoop2.6.0 代码指导文章地址: ...

    2020.03版本idea ,big data tools 插件

    IntelliJ IDEA是一款广受欢迎的Java开发集成环境,由JetBrains公司开发。它以其高效、智能化的代码编辑、调试和项目管理功能而受到开发者们的喜爱。"2020.03版本IDEA"指的是该软件的一个特定更新迭代,通常会包含...

    intellij idea2018的scala编程插件

    IntelliJ IDEA是一款广受欢迎的Java开发集成环境,由JetBrains公司开发。它以其强大的代码自动补全、重构工具和高效的开发体验而闻名。而Scala是一种多范式编程语言,结合了面向对象和函数式编程的特点,常用于构建...

    老汤spark开发.zip

    5. **集成开发环境(IDE)**: "workspace"可能包含了使用某种IDE(如IntelliJ IDEA或Eclipse)的配置文件。这些IDE都有Spark和Scala的插件,能够提供良好的代码提示和调试支持。导入这些配置文件可以帮助快速设置好...

    scala-intellij-bin-2017.2.13

    总的来说,"Scala-intellij-bin-2017.2.13"插件极大地提升了Scala和Spark开发者在IntelliJ IDEA中的工作效率,提供了丰富的特性以支持复杂的编程任务。无论是本地开发Scala程序,还是构建大规模的数据处理应用,这个...

    用sbt构造好的Intellij版的spark工程

    在本文中,我们将详细讨论如何使用sbt构建一个基于IntelliJ IDEA的Spark项目,并介绍如何优化构建过程以提高效率。 1. **安装与配置sbt** - 首先,确保已经安装了Java JDK,并将其添加到系统环境变量中。 - 安装...

    intellij开发Spark配置说明

    ### IntelliJ IDEA 开发Spark配置详解 #### 一、前言 在进行大数据处理与分析时,Apache Spark无疑是一个强大的工具。然而,对于初次接触Spark及其集成开发环境(IDE)的开发者来说,正确地配置开发环境可能会遇到...

    scala插件 scala-intellij-bin-2018.3.5.zip scala-intellij-bin-2018.3.6.zip

    总的来说,`scala-intellij-bin-2018.3.5.zip` 和 `scala-intellij-bin-2018.3.6.zip` 插件极大地提升了Scala和Spark开发者在IntelliJ IDEA中的开发体验,提高了工作效率。无论是初学者还是经验丰富的开发者,都能...

    win10下的Spark本地idea环境搭建教程.docx

    在Windows 10操作系统中,要进行Spark的本地开发和调试,首先需要确保安装了必要的软件环境,包括OpenJDK、Scala、Hadoop以及IntelliJ IDEA(简称IDEA)。以下是详细的步骤: 1. **安装OpenJDK8** - 从官方下载...

    scala-intellij-bin-2019.1.9.zip

    这个"scala-intellij-bin-2019.1.9.zip"压缩包文件是为IntelliJ IDEA开发的一个Scala插件,适用于2019.1.x版本的IDEA集成开发环境。IntelliJ IDEA是一款广泛使用的Java开发工具,由于其优秀的代码补全、重构和调试...

    scala-intellij-bin-2020.3.14.zip

    2. **Scala插件**: Scala插件是IntelliJ IDEA中的一个关键组件,使得IDE能够理解和支持Scala语言。这个插件包含了语法解析器、代码导航、代码分析、重构工具等功能,让开发者在编写Scala代码时能够享受到与Java开发...

    scala-intellij-bin-2021.3.6.zip

    IntelliJ IDEA是一款广受欢迎的集成开发环境(IDE),尤其在Java和Scala开发者中有着极高的赞誉。"scala-intellij-bin-2021.3.6.zip"是一个压缩包,包含了用于在IntelliJ IDEA中支持Scala开发的特定版本插件。 这个...

    基于Spark的电影推荐系统

    本课程论文阐述了spark和spark集成开发环境Intellij IDEA的安装与操作,也详细说明了基于Spark的电影推荐系统的开发流程。推荐引擎是最常用的机器学校应用,我们可以在各大购物网站上看到这方面的应用。基于Spark的...

    保险业务与分析系统 IntelliJ IDEA 2022.1.3 Visual Studio Code

    IntelliJ IDEA和VS Code都支持这些框架的相关开发,例如通过Scala或Java与Spark交互,进行分布式计算。同时,数据可视化是业务分析不可或缺的一部分,开发者可以借助VS Code的插件,如Jupyter Notebook,来创建和...

    Spark Local + Maven + IDEA项目

    在本项目中,我们将使用IntelliJ IDEA(IDEA)作为集成开发环境,通过Maven来管理依赖,以实现对Spark的本地测试。 **一、Spark Local模式** Spark Local模式适用于开发和调试阶段,它在本地单节点上模拟一个完整...

Global site tag (gtag.js) - Google Analytics