2016/06/16更新
windows环境下需要额外下载winutils
1.环境
首先要注意不同版本的spark需要不同版本的scala,python。
我这里试验成功的版本如下:
Windows 7
JDK 1.7.0_72
scala 2.10.5
python 2.7.8
spark 1.4.1
winutils
2.下载
2.1 下载spark+hadoop
去
官网下载
选择如下
Choose a Spark release: 1.4.1
Choose a package type: pre-built for hadoop 2.6 and later
Choose a download type:随意
Download Spark: spark-1.4.1-bin-hadoop2.6.tgz
下载完解压。
2.2 下载winutils,hadoop.dll
另外要在windows上成功运行,需要下载
winutils
(文末附件也有下载)
将winutils.exe,hadoop.dll复制到spark-1.4.1-bin-hadoop2.6\bin目录下。
设置环境变量HADOOP_HOME = spark-1.4.1-bin-hadoop2.6根目录
3.shell测试
以下shell会输出部分错误信息,但不影响主要功能。
3.1 python shell
D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>
bin\pyspark
>>>
lines = sc.textFile("README.md")
>>>
lines.count()
[Stage 0:> (0 + 2) / 2]
98
>>>
lines.first()
u'# Apache Spark'
>>>
3.2 scala shell
D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>
bin\spark-shell
scala>
val lines = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[1] at textFile at <console>:21
scala>
lines.count()
res0: Long = 98
scala>
lines.first()
res1: String = # Apache Spark
scala>
3.3 查看SparkUI
以上2种shell任意打开一种,然后浏览http://localhost:4040即可。
4. 例子程序——PI计算
D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>
bin\run-example org.apache.spark.examples.SparkPi
16/06/16 15:42:54 WARN NativeCodeLoader: Unable to load native-hadoop library fo
r your platform... using builtin-java classes where applicable
[Stage 0:> (0 + 2) / 2]
[Stage 0:=============================> (1 + 1) / 2]
Pi is roughly 3.1416
5. 可独立运行的java程序
《Learning Spark》一书的源码
https://github.com/databricks/learning-spark
编译以后运行
D:\opensource\hadoop\spark-1.4.1-bin-hadoop2.6>
bin\spark-submit --class com.oreilly.learningsparkexamples.java.WordCount ./java-0.0.2.jar local ./README.md ./wordCount.txt
16/06/30 16:48:54 WARN SparkConf: null jar passed to SparkContext constructor
16/06/30 16:48:54 WARN NativeCodeLoader: Unable to load native-hadoop library fo
r your platform... using builtin-java classes where applicable
结果在spark根目录下生成了wordCount.txt文件夹,里面有WordCount结果。
分享到:
相关推荐
【Spark Standalone模式安装部署详解】 Spark是一款快速、通用且可扩展的大数据处理框架,它提供了高效的批处理、交互式查询、流处理等多种计算模式。在Standalone模式下,Spark可以独立于任何分布式资源管理系统...
2. 参考文档说明,选择单机模式,spark 也可以单独运行。 3. bin 目录下,./spark-shell 运行。 4. 执行 Scala 代码,注意双引号格式。 五、实验分析 本实验中,我们学习了 Spark 的安装与使用,了解了 Spark 的...
### Spark的单机和集群安装与配置 #### 一、单机Spark的安装与配置 在开始安装Spark之前,需要确保已经安装了Scala环境。这是因为Spark是基于Scala编写的,并且许多Spark应用都是用Scala语言编写的。 ##### 1. ...
在这个实验中,我们将详细探讨如何在Yarn模式下安装和部署Spark集群。 首先,我们需要准备实验环境,这里包括三台虚拟机,操作系统为CentOS 7.5,Hadoop版本为2.7.3,Spark版本为2.1.1。这些版本的兼容性对于实验的...
此外,还安装了 Hadoop 2.6.0 并正确配置,以便在 on yarn 模式下运行 Spark。 Spark Shell Spark Shell 是Spark 的交互式 shell,一般用于开发和测试。使用 Spark Shell,可以快速地运行 Spark 应用程序,并且...
Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用...
### Spark2.0安装教程与Spark1.3共存配置详解 #### 一、引言 随着大数据技术的发展,Apache Spark 已成为处理大规模数据集的重要工具之一。然而,在实际应用过程中,不同的项目可能需要使用不同版本的 Spark 来...
第1章 安装VMWare Workstation 10;第2章 VMware 10安装CentOS 6;第3章 CentOS 6安装Hadoop;第4章 安装部署Spark;第5章Spark上机操作;第6章 开发Spark分布式程序
- **选择运行模式**: Spark可以本地模式、伪分布式模式和完全分布式模式运行。对于开发和测试,通常使用本地模式;生产环境通常选择分布式模式。 **3. Spark与Hadoop的关系** Spark可以与Hadoop生态系统集成,但本...
"Spark安装指南" Spark是一个开源的大数据处理引擎,它提供了高效、灵活的数据处理能力。本文将详细介绍Spark的安装过程,包括下载、解压、配置环境变量等步骤。 一、安装Hadoop ---------------- 在安装Spark...
1. **Local模式**:本地单机模式,适用于开发和测试,无需特别配置。只需下载Spark安装包并解压,即可直接使用。 2. **Standalone模式**:这是一种独立的集群模式,由Master和Worker节点组成。Master负责任务调度,...
### Spark的三种部署模式与基于Anaconda3的Python编程实现 #### 一、Spark的部署模式 Apache Spark作为大数据处理领域的重要工具之一,其部署模式的选择对于应用性能有着至关重要的影响。Spark支持三种主要的部署...
### Spark概述 #### 什么是Spark Spark是一种高性能的大数据分析处理框架,主要特点是速度快、易于使用...通过以上步骤,可以完成一个基本的Spark集群的安装和配置工作,为后续的大数据分析处理任务提供强大的支持。
接下来,我们将详细探讨如何在单机环境下配置Hadoop和Spark的伪分布式模式。 首先,我们需要理解Hadoop的伪分布式配置。这涉及到以下几个步骤: 1. **下载Hadoop**: 获取Hadoop的源码或者二进制发行版,确保版本与...
【Spark安装文档】在Ubuntu环境下搭建Spark基础框架是一项常见的任务,尤其对于数据处理和分析的开发者来说至关重要。Spark是一款高效、通用的并行计算框架,它支持批处理、交互式查询、流处理以及机器学习等多种...
这个“spark安装.zip”文件显然包含了针对大数据分析初学者的Spark安装教程,以及如何使用Python进行测试的步骤。下面将详细介绍Spark的安装过程,以及如何利用Python与Spark进行交互。 首先,安装Spark需要准备...
Spark on Yarn 模式部署是一种常见的 Spark 应用场景,本文将详细介绍 Spark on Yarn 模式部署的步骤和配置过程。 标题解释 Spark on Yarn 模式部署是指将 Spark 应用程序部署在 Yarn 集群上,使得 Spark 能够使用 ...
Linux安装Spark集群 Spark可以在只安装了JDK、scala的机器上直接单机安装,但是这样的话只能使用单机模式运行不涉及分布式运算和分布式存储的代码,例如可以单机安装Spark,单机运行计算圆周率的Spark程序。...