`
kakaluyi
  • 浏览: 444508 次
  • 性别: Icon_minigender_1
  • 来自: 苏州
社区版块
存档分类
最新评论

如何搭建Spark环境

 
阅读更多

1. IDE支持Maven,建立一个最简单的Maven-quickstart类型的artifact.



 2.编辑pom.xml,添加spark支持。

<dependency>
    <groupId>org.apache.maven.plugins</groupId>
    <artifactId>maven-resources-plugin</artifactId>
    <version>2.4.3</version>
	</dependency>
	<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-core_2.10</artifactId>
    <version>1.1.0</version>
	</dependency>

3.右击project maven-clean, maven-install. 

4.添加一个Spark的分词代码

package MavenDemo.SparkDemoSrc;

/**
 * Hello world!
 *
 */

/**
4  * User: hadoop
5  * Date: 2014/10/10 0010
6  * Time: 19:26
7  */

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;

import java.util.Arrays;
import java.util.List;
import java.util.regex.Pattern;

public final class App {
	private static final Pattern SPACE = Pattern.compile(" ");

	public static void main(String[] args) throws Exception {

		if (args.length < 1) {
			System.err.println("Usage: JavaWordCount <file>");
			System.exit(1);
		}

		SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount");
		JavaSparkContext ctx = new JavaSparkContext(sparkConf);
		JavaRDD<String> lines = ctx.textFile(args[0], 1);

		JavaRDD<String> words = lines
				.flatMap(new FlatMapFunction<String, String>() {

					public Iterable<String> call(String s) {
						return Arrays.asList(SPACE.split(s));
					}
				});

		JavaPairRDD<String, Integer> ones = words
				.mapToPair(new PairFunction<String, String, Integer>() {

					public Tuple2<String, Integer> call(String s) {
						return new Tuple2<String, Integer>(s, 1);
					}
				});

		JavaPairRDD<String, Integer> counts = ones
				.reduceByKey(new Function2<Integer, Integer, Integer>() {

					public Integer call(Integer i1, Integer i2) {
						return i1 + i2;
					}
				});

		List<Tuple2<String, Integer>> output = counts.collect();
		for (Tuple2<?, ?> tuple : output) {
			System.out.println(tuple._1() + ": " + tuple._2());
		}
		ctx.stop();
	}
}

 4. 用的是local模式运行main



 5.

下载spark-1.6.0-bin-hadoop2.6,配置SPARK_HOME.

 

6.注意这个配置是专门为Windows服务的。

下载windows下hadoop工具包(分为32位和64位的),在本地新建一个hadoop目录,必须有 bin目录例如:D:\spark\hadoop-2.6.0\bin

然后将winutil等文件放在bin目录下

地址:https://github.com/sdravida/hadoop2.6_Win_x64/tree/master/bin

配置HADOOP_HOME

 

7.运行main访问,可以看到分词结果

 

 

 

  • 大小: 31 KB
  • 大小: 48.9 KB
分享到:
评论

相关推荐

    IDEA 搭建spark环境配置文件pom.xml

    IDEA 搭建Spark环境时所需的依赖包配置,可以导入spark基本操作依赖包、机器学习依赖包等等。

    Spark环境搭建-Linux.pptx

    Spark 环境搭建 - Linux 本资源summary是关于在 Linux 上搭建 Spark 环境的详细教程。该教程从准备环境开始,到安装 JDK、Scala 和 Spark,最后设置 SSH 免密码登录,旨在帮助用户快速搭建 Spark 环境。 一、环境...

    Spark环境搭建-Windows

    Spark 环境搭建 - Windows 本文将指导您在 Windows 平台上搭建 Spark 环境,包括 JDK、Scala、Hadoop、Python 和 Spark 的安装和配置。 Python 的安装与配置 Python 是 Spark 的依赖项之一,需要安装 Python ...

    spark环境搭建

    Spark 环境搭建 Spark 环境搭建是指在本地机器上安装和配置 Spark 相关组件,以便进行 Spark 的学习和开发。本文将指导读者从头开始搭建 Spark 环境,包括 JDK 安装、Spark 下载、Scala 安装、Hadoop 安装和 Spark ...

    Spark环境搭建

    本文将详细介绍如何在Linux环境下搭建Spark环境,包括JDK、Scala以及Spark本身的安装配置过程。 #### 一、安装JDK Spark运行依赖于Java环境,因此首先需要安装JDK。 1. **下载安装JDK** 选择使用JDK 8版本进行...

    Spark环境搭建和使用方法

    本文将详细介绍如何搭建Spark环境,并介绍其基本使用方法。通过以下步骤,您将能够成功安装并运行Spark环境。 #### 二、Spark环境搭建 ##### 2.1 基础环境准备 在安装Spark之前,需要确保已经具备以下基础环境: ...

    Spark开发及本地环境搭建指南

    ### Spark开发及本地环境搭建指南 #### 构建本机上的Spark开发环境 在构建Spark开发环境时,首先需要确保你的计算机上安装了必要的软件,包括但不限于Linux操作系统、Java Development Kit (JDK)、Scala、Maven...

    搭建spark环境

    Apache Spark 大数据处理通用引擎,提供了分布式的内存抽象,其最大的特点就是快,比 Hadoop MapReduce 的处理速度快 100 倍,且提供了简单易用的 API,几行代码就能实现 WordCount。

    使用docker快速搭建Spark集群的方法教程

    通过使用 Docker,可以快速的在本地搭建一套 Spark 环境,方便大家开发 Spark 应用,或者扩展到...下面这篇文章主要给大家介绍了使用docker快速搭建Spark集群的方法教程,需要的朋友可以参考借鉴,下面来一起看看吧。

    windows下搭建spark.docx

    ### Windows 下搭建 Spark 环境 在 Windows 系统上搭建 Spark 环境是一项技术挑战,因为 Spark 主要针对 Linux 和 macOS 进行优化。不过,通过一系列步骤,我们仍然可以在 Windows 上成功安装并运行 Spark。本文将...

    大数据Spark纯净版安装包,用于快速集成Hive on Spark

    Spark纯净版安装包是一个用于安装Apache Spark的软件包,该软件包提供了Spark的基本功能...使用Spark纯净版安装包可以让用户更快速地搭建Spark环境,并且可以根据需要进行定制和扩展,是一种简便有效的安装Spark的方式

    eclipse搭建的Spark开发环境

    Eclipse搭建的spark开发环境,微云可下!Eclipse搭建的spark开发环境,微云可下!

    spark完全分布式环境搭建.pdf

    "Spark完全分布式环境搭建" 本文档主要讲述了如何在 Linux 环境下搭建 Spark 完全分布式环境,包括环境变量的设置、Spark 配置文件的修改、 Slave 节点的配置以及集群的启动过程。 一、环境变量设置 在搭建 Spark...

    spark从节点搭建1

    在本场景中,我们将讨论如何在9台从节点上搭建Spark环境,以实现从Elasticsearch中获取数据,进行计算,并将结果存储回Elasticsearch。 首先,我们需要确保所有从节点满足必要的硬件和软件要求。硬件方面,根据...

    Spark集群及开发环境搭建(完整版)

    本文档提供了详细的步骤来指导初学者搭建Spark集群及其开发环境。首先需要准备的软件包括: - **VirtualBox-5.1**:虚拟机软件,用于安装CentOS操作系统。 - **CentOS7**:操作系统,作为集群节点的操作系统。 - **...

    PyCharm搭建Spark开发环境的实现步骤

    标签中的“PyCharm搭建Spark”和“PyCharm搭建Spark环境”提示了文章内容的两个关键词,即PyCharm和Spark,这两个关键词是文章的核心,围绕这两个主题展开讲解。 在提供的部分内容中,我们可以看到几个关键步骤: ...

Global site tag (gtag.js) - Google Analytics