1. IDE支持Maven,建立一个最简单的Maven-quickstart类型的artifact.
2.编辑pom.xml,添加spark支持。
<dependency> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-resources-plugin</artifactId> <version>2.4.3</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.1.0</version> </dependency>
3.右击project maven-clean, maven-install.
4.添加一个Spark的分词代码
package MavenDemo.SparkDemoSrc; /** * Hello world! * */ /** 4 * User: hadoop 5 * Date: 2014/10/10 0010 6 * Time: 19:26 7 */ import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFunction; import scala.Tuple2; import java.util.Arrays; import java.util.List; import java.util.regex.Pattern; public final class App { private static final Pattern SPACE = Pattern.compile(" "); public static void main(String[] args) throws Exception { if (args.length < 1) { System.err.println("Usage: JavaWordCount <file>"); System.exit(1); } SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount"); JavaSparkContext ctx = new JavaSparkContext(sparkConf); JavaRDD<String> lines = ctx.textFile(args[0], 1); JavaRDD<String> words = lines .flatMap(new FlatMapFunction<String, String>() { public Iterable<String> call(String s) { return Arrays.asList(SPACE.split(s)); } }); JavaPairRDD<String, Integer> ones = words .mapToPair(new PairFunction<String, String, Integer>() { public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); } }); JavaPairRDD<String, Integer> counts = ones .reduceByKey(new Function2<Integer, Integer, Integer>() { public Integer call(Integer i1, Integer i2) { return i1 + i2; } }); List<Tuple2<String, Integer>> output = counts.collect(); for (Tuple2<?, ?> tuple : output) { System.out.println(tuple._1() + ": " + tuple._2()); } ctx.stop(); } }
4. 用的是local模式运行main
5.
下载spark-1.6.0-bin-hadoop2.6,配置SPARK_HOME.
6.注意这个配置是专门为Windows服务的。
下载windows下hadoop工具包(分为32位和64位的),在本地新建一个hadoop目录,必须有 bin目录例如:D:\spark\hadoop-2.6.0\bin
然后将winutil等文件放在bin目录下
地址:https://github.com/sdravida/hadoop2.6_Win_x64/tree/master/bin
配置HADOOP_HOME
7.运行main访问,可以看到分词结果
相关推荐
IDEA 搭建Spark环境时所需的依赖包配置,可以导入spark基本操作依赖包、机器学习依赖包等等。
Spark 环境搭建 - Linux 本资源summary是关于在 Linux 上搭建 Spark 环境的详细教程。该教程从准备环境开始,到安装 JDK、Scala 和 Spark,最后设置 SSH 免密码登录,旨在帮助用户快速搭建 Spark 环境。 一、环境...
Spark 环境搭建 - Windows 本文将指导您在 Windows 平台上搭建 Spark 环境,包括 JDK、Scala、Hadoop、Python 和 Spark 的安装和配置。 Python 的安装与配置 Python 是 Spark 的依赖项之一,需要安装 Python ...
Spark 环境搭建 Spark 环境搭建是指在本地机器上安装和配置 Spark 相关组件,以便进行 Spark 的学习和开发。本文将指导读者从头开始搭建 Spark 环境,包括 JDK 安装、Spark 下载、Scala 安装、Hadoop 安装和 Spark ...
本文将详细介绍如何在Linux环境下搭建Spark环境,包括JDK、Scala以及Spark本身的安装配置过程。 #### 一、安装JDK Spark运行依赖于Java环境,因此首先需要安装JDK。 1. **下载安装JDK** 选择使用JDK 8版本进行...
在开始搭建Spark环境之前,首先需要检查系统的兼容性,安装适合操作系统的JDK版本,并且配置好相关的环境变量。Hadoop作为大数据处理的底层框架,其YARN组件更是Spark运行的基础,因此搭建Spark环境时,Hadoop的安装...
本文将详细介绍如何搭建Spark环境,并介绍其基本使用方法。通过以下步骤,您将能够成功安装并运行Spark环境。 #### 二、Spark环境搭建 ##### 2.1 基础环境准备 在安装Spark之前,需要确保已经具备以下基础环境: ...
### Spark开发及本地环境搭建指南 #### 构建本机上的Spark开发环境 在构建Spark开发环境时,首先需要确保你的计算机上安装了必要的软件,包括但不限于Linux操作系统、Java Development Kit (JDK)、Scala、Maven...
Spark环境搭建和配置是...搭建Spark环境的准备工作包括安装和配置Ubuntu虚拟机、配置基本系统设置、安装远程连接工具和配置Spark环境等关键步骤。在每个步骤中,需要详细操作指令和注意事项来确保环境搭建的顺利进行。
在进行详细知识点说明之前,需要明确本文档是一篇关于如何在Windows 7环境下使用IntelliJ IDEA来搭建Apache Spark开发环境的指南。Apache Spark是一个快速、通用的分布式计算系统,它提供了一个高层次的API,支持...
Apache Spark 大数据处理通用引擎,提供了分布式的内存抽象,其最大的特点就是快,比 Hadoop MapReduce 的处理速度快 100 倍,且提供了简单易用的 API,几行代码就能实现 WordCount。
整个文档详细描述了Spark的安装过程,对于希望快速搭建Spark环境的用户提供了宝贵的指导。需要注意的是,集群的搭建需要一定的Linux操作经验,以及对Spark、Hadoop、Zookeeper等基础概念有所了解。在实际部署过程中...
通过使用 Docker,可以快速的在本地搭建一套 Spark 环境,方便大家开发 Spark 应用,或者扩展到...下面这篇文章主要给大家介绍了使用docker快速搭建Spark集群的方法教程,需要的朋友可以参考借鉴,下面来一起看看吧。
### Windows 下搭建 Spark 环境 在 Windows 系统上搭建 Spark 环境是一项技术挑战,因为 Spark 主要针对 Linux 和 macOS 进行优化。不过,通过一系列步骤,我们仍然可以在 Windows 上成功安装并运行 Spark。本文将...
Spark纯净版安装包是一个用于安装Apache Spark的软件包,该软件包提供了Spark的基本功能...使用Spark纯净版安装包可以让用户更快速地搭建Spark环境,并且可以根据需要进行定制和扩展,是一种简便有效的安装Spark的方式
Eclipse搭建的spark开发环境,微云可下!Eclipse搭建的spark开发环境,微云可下!
"Spark完全分布式环境搭建" 本文档主要讲述了如何在 Linux 环境下搭建 Spark 完全分布式环境,包括环境变量的设置、Spark 配置文件的修改、 Slave 节点的配置以及集群的启动过程。 一、环境变量设置 在搭建 Spark...
在本场景中,我们将讨论如何在9台从节点上搭建Spark环境,以实现从Elasticsearch中获取数据,进行计算,并将结果存储回Elasticsearch。 首先,我们需要确保所有从节点满足必要的硬件和软件要求。硬件方面,根据...