`
strayly
  • 浏览: 97406 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

在eclipse上搭建spark的java开发环境

 
阅读更多
首先安装好spark后 设置环境变量SPARK_HOME=d:\spark,在环境变量path后面添加%SPARK_HOME%bin;

启动Eclipse建立Java项目,建立一个测试的类 比如WordCount 用来统计文件中的字数
添加需要的jar库,选择菜单project=>properties,
然后在左侧选择java build path 右侧选择libraries,
然后选择add external jars 选择spark目录下jars目录下所有文件


WordCount.java代码
package test.spark;

import scala.Tuple2;

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.sql.SparkSession;

import java.util.Arrays;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Pattern;

public final class WordCount {
  private static final Pattern SPACE = Pattern.compile(" ");

  public static void main(String[] args) throws Exception {

    if (args.length < 1) {
      System.err.println("Usage: JavaWordCount <file>");
      System.exit(1);
    }

    SparkSession spark = SparkSession
      .builder()
      .appName("JavaWordCount")
      .getOrCreate();

    JavaRDD<String> lines = spark.read().textFile(args[0]).javaRDD();

    JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
      @Override
      public Iterator<String> call(String s) {
        return Arrays.asList(SPACE.split(s)).iterator();
      }
    });

    JavaPairRDD<String, Integer> ones = words.mapToPair(
      new PairFunction<String, String, Integer>() {
        @Override
        public Tuple2<String, Integer> call(String s) {
          return new Tuple2<>(s, 1);
        }
      });

    JavaPairRDD<String, Integer> counts = ones.reduceByKey(
      new Function2<Integer, Integer, Integer>() {
        @Override
        public Integer call(Integer i1, Integer i2) {
          return i1 + i2;
        }
      });

    List<Tuple2<String, Integer>> output = counts.collect();
    for (Tuple2<?,?> tuple : output) {
      System.out.println(tuple._1() + ": " + tuple._2());
    }
    spark.stop();
  }
}


右键选择刚才建立的项目,选择 run as => run configurations , 选择arguments,
在program arguments 填入一个测试字数的文件,比如read.txt
在vm arguments参数设置中 添加程序运行的环境参数 比如 -Dspark.master=local -Xmx1g
然后 运行程序
分享到:
评论

相关推荐

    spark开发环境搭建(eclipse)

    Spark 开发环境搭建是指在 Eclipse 集成开发环境中设置和配置 Spark 开发环境的过程。Spark 是一个基于 Hadoop 的大数据处理框架,它提供了高效的数据处理能力。为了在 Eclipse 中开发 Spark 应用程序,需要搭建...

    Spark集群及开发环境搭建(完整版)

    本文档提供了详细的步骤来指导初学者搭建Spark集群及其开发环境。首先需要准备的软件包括: - **VirtualBox-5.1**:虚拟机软件,用于安装CentOS操作系统。 - **CentOS7**:操作系统,作为集群节点的操作系统。 - **...

    大数据技术开发环境搭建.docx

    本教程涵盖了大数据技术开发环境的搭建,涉及多个重要组件,包括Hadoop、Spark、HBase、Hive等。以下将详细介绍这些技术的安装与配置过程。 首先,搭建开发环境通常从软件下载开始,这里可能包括虚拟机管理器(如...

    windows 下搭建eclipse的hadoop开发环境.rar_SPARKK_blew1bh_manufacturingkf

    在Windows环境下搭建Eclipse的Hadoop开发环境是一个重要的步骤,对于大数据开发人员来说,这是进行Spark和Hadoop项目开发的基础。以下将详细讲解这个过程,以及如何利用ECLIPSE大数据开发插件来优化配置。 首先,...

    大数据云计算技术系列 hadoop搭建与eclipse开发环境设置-已验证通过(共13页).rar

    1. 安装Java:Hadoop是用Java编写的,因此需要先在系统上安装Java运行环境(JRE)和Java开发工具(JDK)。 2. 下载Hadoop:从Apache官方网站获取最新稳定版本的Hadoop,并解压到指定目录。 3. 配置环境变量:将...

    openfire与spark环境搭建教程

    总的来说,搭建Openfire与Spark环境需要对Eclipse项目管理和Java开发有一定的了解,同时对即时通讯系统的运行机制要有基本的认识。虽然过程可能稍显繁琐,但只要按照上述步骤操作,就能成功建立一个本地即时通讯环境...

    Spark+Hadoop+IDE环境搭建

    本文将详细介绍如何在IDE环境下搭建Spark与Hadoop的集成环境。 首先,我们需要了解Hadoop的组成部分。Hadoop主要由HDFS(Hadoop Distributed File System)和MapReduce两部分组成。HDFS是分布式文件系统,用于存储...

    win7下Eclipse开发Hadoop应用程序环境搭建

    Eclipse则是一款广泛使用的Java集成开发环境(IDE),适用于各种Java应用和框架的开发,包括Hadoop。 1. **安装Java**: 开发Hadoop应用需要Java环境,因此首先确保系统上安装了Java Development Kit (JDK)。安装...

    eclipse2019.zip

    这个压缩包“eclipse2019.zip”包含了一个针对Linux平台的Eclipse安装程序,即“eclipse-inst-linux64.tar.gz”,这使得在Linux系统上搭建Java开发环境变得简单易行。 Eclipse作为开源软件,深受全球开发者喜爱,其...

    Openfire源代码在Eclipse3.5.2中的部署、编译、运行、部署安装

    在 Eclipse 3.5.2 中创建一个新的 Java 项目来承载 Openfire 的源代码: 1. **创建项目**:依次点击 File → New → Project → Java Project。在新窗口中输入项目名称为“Openfire”,并选择“Create project from...

    scala eclipse maven环境搭建

    总结来说,要搭建Scala、Eclipse和Maven的开发环境,你需要安装Eclipse和Scala IDE插件,配置Maven,创建Maven Scala项目,并在`pom.xml`中管理依赖。这个环境能够支持你进行高效的Scala开发,利用Maven自动化构建...

    Linux环境下Hadoop搭建与Eclipse配置

    在Linux环境下搭建Hadoop并配置Eclipse开发环境是大数据处理工作中的重要步骤。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据。而Eclipse是一款强大的集成开发环境(IDE),通过特定的插件可以...

    spark安装

    本文将详细介绍如何在本地环境中搭建Spark开发环境,并通过一个简单的WordCount示例来验证环境是否搭建成功。 #### 相关软件与环境配置 在开始之前,我们需要准备以下软件: - **操作系统**:推荐使用Ubuntu(也...

    老汤spark开发.zip

    在"老汤spark开发.zip"这个压缩包中,我们主要关注的是如何在Windows环境下搭建Spark开发环境,这对于想要入门或者深入学习Spark的开发者至关重要。 首先,Spark开发环境的搭建涉及以下几个关键步骤: 1. **安装...

    Hadoop平台完整兼容组件(包括VM,Redhat系统镜像,jdk,hadoop,HBase,eclipse,spark等)

    6. **Eclipse**:Eclipse是一个广泛使用的集成开发环境(IDE),支持Java开发。在大数据领域,Eclipse可以配合插件如Hadoop插件,用于开发和调试Hadoop MapReduce程序。 7. **Spark**:Spark是大数据处理的另一种...

    eclipse的hadoop2.7插件以及hadoop-common编译文件

    总结来说,通过Eclipse的Hadoop2.7插件和Hadoop-common编译文件,开发者可以在Windows环境下搭建一个功能强大的Hadoop和Spark集成开发环境,方便地进行大数据处理应用的开发和调试。这对于理解和掌握Hadoop和Spark的...

    Mapreduce的基础搭建以及Java API编程

    6. Eclipse:Java集成开发环境,可用于编写MapReduce程序。 三、相关架构搭建 在搭建Hadoop环境时,首先需要创建虚拟机并安装操作系统,如Ubuntu。然后,配置虚拟机的网络设置,使本地主机能通过SSH连接到虚拟机。...

    spark配置文件

    这些操作确保了系统的稳定性和高效性,使得开发人员可以在良好的环境中进行大规模数据处理的工作。需要注意的是,在实际部署过程中,还需要根据具体的业务需求对配置进行调整优化,以达到最佳效果。

    Centos64位Linux版本的eclipse

    通过使用Xshell等工具,开发者可以在本地机器上与远程虚拟机进行交互,实现开发环境的搭建和维护。如果你是一位在CentOS上进行Java或Hadoop相关开发的程序员,这个Eclipse版本将是一个非常实用的工具。

    kafka环境搭建

    本文将详细讲解如何搭建 Kafka 开发环境,包括 Scala 环境的配置、Eclipse 中的 Scala 开发环境安装以及依赖包的管理。 首先,你需要对 Kafka 的功能有基本的了解,理解其分布式工作原理。Kafka 通常作为日志系统...

Global site tag (gtag.js) - Google Analytics