1. IDE支持Maven,建立一个最简单的Maven-quickstart类型的artifact.
2.编辑pom.xml,添加spark支持。
<dependency> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-resources-plugin</artifactId> <version>2.4.3</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.1.0</version> </dependency>
3.右击project maven-clean, maven-install.
4.添加一个Spark的分词代码
package MavenDemo.SparkDemoSrc; /** * Hello world! * */ /** 4 * User: hadoop 5 * Date: 2014/10/10 0010 6 * Time: 19:26 7 */ import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Function2; import org.apache.spark.api.java.function.PairFunction; import scala.Tuple2; import java.util.Arrays; import java.util.List; import java.util.regex.Pattern; public final class App { private static final Pattern SPACE = Pattern.compile(" "); public static void main(String[] args) throws Exception { if (args.length < 1) { System.err.println("Usage: JavaWordCount <file>"); System.exit(1); } SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount"); JavaSparkContext ctx = new JavaSparkContext(sparkConf); JavaRDD<String> lines = ctx.textFile(args[0], 1); JavaRDD<String> words = lines .flatMap(new FlatMapFunction<String, String>() { public Iterable<String> call(String s) { return Arrays.asList(SPACE.split(s)); } }); JavaPairRDD<String, Integer> ones = words .mapToPair(new PairFunction<String, String, Integer>() { public Tuple2<String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); } }); JavaPairRDD<String, Integer> counts = ones .reduceByKey(new Function2<Integer, Integer, Integer>() { public Integer call(Integer i1, Integer i2) { return i1 + i2; } }); List<Tuple2<String, Integer>> output = counts.collect(); for (Tuple2<?, ?> tuple : output) { System.out.println(tuple._1() + ": " + tuple._2()); } ctx.stop(); } }
4. 用的是local模式运行main
5.
下载spark-1.6.0-bin-hadoop2.6,配置SPARK_HOME.
6.注意这个配置是专门为Windows服务的。
下载windows下hadoop工具包(分为32位和64位的),在本地新建一个hadoop目录,必须有 bin目录例如:D:\spark\hadoop-2.6.0\bin
然后将winutil等文件放在bin目录下
地址:https://github.com/sdravida/hadoop2.6_Win_x64/tree/master/bin
配置HADOOP_HOME
7.运行main访问,可以看到分词结果
相关推荐
IDEA 搭建Spark环境时所需的依赖包配置,可以导入spark基本操作依赖包、机器学习依赖包等等。
Spark 环境搭建 - Linux 本资源summary是关于在 Linux 上搭建 Spark 环境的详细教程。该教程从准备环境开始,到安装 JDK、Scala 和 Spark,最后设置 SSH 免密码登录,旨在帮助用户快速搭建 Spark 环境。 一、环境...
Spark 环境搭建 - Windows 本文将指导您在 Windows 平台上搭建 Spark 环境,包括 JDK、Scala、Hadoop、Python 和 Spark 的安装和配置。 Python 的安装与配置 Python 是 Spark 的依赖项之一,需要安装 Python ...
Spark 环境搭建 Spark 环境搭建是指在本地机器上安装和配置 Spark 相关组件,以便进行 Spark 的学习和开发。本文将指导读者从头开始搭建 Spark 环境,包括 JDK 安装、Spark 下载、Scala 安装、Hadoop 安装和 Spark ...
本文将详细介绍如何在Linux环境下搭建Spark环境,包括JDK、Scala以及Spark本身的安装配置过程。 #### 一、安装JDK Spark运行依赖于Java环境,因此首先需要安装JDK。 1. **下载安装JDK** 选择使用JDK 8版本进行...
本文将详细介绍如何搭建Spark环境,并介绍其基本使用方法。通过以下步骤,您将能够成功安装并运行Spark环境。 #### 二、Spark环境搭建 ##### 2.1 基础环境准备 在安装Spark之前,需要确保已经具备以下基础环境: ...
### Spark开发及本地环境搭建指南 #### 构建本机上的Spark开发环境 在构建Spark开发环境时,首先需要确保你的计算机上安装了必要的软件,包括但不限于Linux操作系统、Java Development Kit (JDK)、Scala、Maven...
Apache Spark 大数据处理通用引擎,提供了分布式的内存抽象,其最大的特点就是快,比 Hadoop MapReduce 的处理速度快 100 倍,且提供了简单易用的 API,几行代码就能实现 WordCount。
通过使用 Docker,可以快速的在本地搭建一套 Spark 环境,方便大家开发 Spark 应用,或者扩展到...下面这篇文章主要给大家介绍了使用docker快速搭建Spark集群的方法教程,需要的朋友可以参考借鉴,下面来一起看看吧。
### Windows 下搭建 Spark 环境 在 Windows 系统上搭建 Spark 环境是一项技术挑战,因为 Spark 主要针对 Linux 和 macOS 进行优化。不过,通过一系列步骤,我们仍然可以在 Windows 上成功安装并运行 Spark。本文将...
Spark纯净版安装包是一个用于安装Apache Spark的软件包,该软件包提供了Spark的基本功能...使用Spark纯净版安装包可以让用户更快速地搭建Spark环境,并且可以根据需要进行定制和扩展,是一种简便有效的安装Spark的方式
Eclipse搭建的spark开发环境,微云可下!Eclipse搭建的spark开发环境,微云可下!
"Spark完全分布式环境搭建" 本文档主要讲述了如何在 Linux 环境下搭建 Spark 完全分布式环境,包括环境变量的设置、Spark 配置文件的修改、 Slave 节点的配置以及集群的启动过程。 一、环境变量设置 在搭建 Spark...
在本场景中,我们将讨论如何在9台从节点上搭建Spark环境,以实现从Elasticsearch中获取数据,进行计算,并将结果存储回Elasticsearch。 首先,我们需要确保所有从节点满足必要的硬件和软件要求。硬件方面,根据...
本文档提供了详细的步骤来指导初学者搭建Spark集群及其开发环境。首先需要准备的软件包括: - **VirtualBox-5.1**:虚拟机软件,用于安装CentOS操作系统。 - **CentOS7**:操作系统,作为集群节点的操作系统。 - **...
标签中的“PyCharm搭建Spark”和“PyCharm搭建Spark环境”提示了文章内容的两个关键词,即PyCharm和Spark,这两个关键词是文章的核心,围绕这两个主题展开讲解。 在提供的部分内容中,我们可以看到几个关键步骤: ...