`

Spark安装

阅读更多

 

1、下载配置

git clone git://github.com/mesos/spark.git

 

cd conf

cp spark-env.sh-template spark-env.sh

 

vi spark-env.sh

export SCALA_HOME=/opt/scala-2.9.1.final

 

 

sbt/sbt update compile

 

vi /etc/profile

export SCALA_HOME=/opt/scala-2.9.1.final

export PATH=$SCALA_HOME/bin:$PATH

 

 

本地启动两个线程运行线性回归

./run spark.examples.SparkLR local[

本地启动运行Pi估计器

./run spark.examples.SparkPi local

 

 

2、Spark导出

在使用Spark之前,先将编译好的classes导出为jar比较好,可以

$ sbt/sbt assembly

将Spark及其依赖包导出为jar,放在core/target/spark-core-assembly-0.4-SNAPSHOT.jar

可以将该jar添加到CLASSPATH里,开发Spark应用了。

一般在开发Spark应用时需要导入Spark一些类和一些隐式的转换,需要再程序开头加入

import spark.SparkContext

import SparkContext._

 

3、使用Spark交互模式

1. 运行./spark-shell.sh

2. scala> val data = Array(1, 2, 3, 4, 5) //产生data

data: Array[Int] = Array(1, 2, 3, 4, 5)

3. scala> val distData = sc.parallelize(data) //将data处理成RDD

distData: spark.RDD[Int] = spark.ParallelCollection@7a0ec850 (显示出的类型为RDD)

4. scala> distData.reduce(_+_) //在RDD上进行运算,对data里面元素进行加和

12/05/10 09:36:20 INFO spark.SparkContext: Starting job...

 

 

5. 最后运行得到

12/05/10 09:36:20 INFO spark.SparkContext: Job finished in 0.076729174 s

res2: Int = 15

 

 

5 使用Spark处理Hadoop Datasets

Spark可以从HDFS/local FS/Amazon S3/Hypertable/HBase等创建分布式数据集。Spark支持text files,SequenceFiles和其他Hadoop InputFormat。

 

比如从HDFS上读取文本创建RDD

scala> val distFile = sc.textFile("hdfs://m120:9000/user/LijieXu/Demo/file01.txt")

12/05/10 09:49:01 INFO mapred.FileInputFormat: Total input paths to process : 1

distFile: spark.RDD[String] = spark.MappedRDD@59bf8a16

然后可以统计该文本的字符数,map负责处理文本每一行map(_size)得到每一行的字符数,多行组成一个List,reduce负责将List中的所有元素相加。

scala> distFile.map(_.size).reduce(_+_)

12/05/10 09:50:02 INFO spark.SparkContext: Job finished in 0.139610772 s

res3: Int = 79

textFile可以通过设置第二个参数来指定slice个数(slice与Hadoop里的split/block概念对应,一个task处理一个slice)。Spark默认将Hadoop上一个block对应为一个slice,但可以调大slice的个数,但不能比block的个数小,这就需要知道HDFS上一个文件的block数目,可以通过50070的dfs的jsp来查看。

对于SequenceFile,可以使用SparkContext的sequenceFile[K,V]方法生成RDD,其中K和V肯定要是SequenceFile存放时的类型了,也就是必须是Writable的子类。Spark也允许使用native types去读取,如sequenceFile[Int, String]。

对于复杂的SequenceFile,可以使用SparkContext.hadoopRDD方法去读取,该方法传入JobConf参数,包含InputFormat,key class,value class等,与Hadoop Java客户端读取方式一样。

 

6 分布式数据集操作

 

分布式数据集支持两种类型的操作:transformation和action。transformation的意思是从老数据集中生成新的数据集,action是在数据集上进行计算并将结果返回给driver program。每一个Spark应用包含一个driver program用来执行用户的main函数,比如,map就是一个transformation,将大数据集划分处理为小数据集,reduce是action,将数据集上内容进行聚合并返回给driver program。有个例外是reduceByKey应该属于transformation,返回的是分布式数据集。

 

需要注意的是,Spark的transformation是lazy的,transformation先将操作记录下来,直到接下来的action需要将处理结果返回给driver program的时候。

 

另一个特性是caching,如果用户指定cache一个数据集RDD,那么该数据集中的不同slice会按照partition被存放到相应不同节点的内存中,这样重用该数据集的时候,效率会高很多,尤其适用于迭代型和交互式的应用。如果cache的RDD丢失,那么重新使用transformation生成。

 

7 共享变量

 

与Hadoop的MapReduce不同的是,Spark允许共享变量,但只允许两种受限的变量:broadcast和accumulators。

Broadcast顾名思义是“广播”,在每个节点上保持一份read-only的变量。比如,Hadoop的map task需要一部只读词典来处理文本时,由于不存在共享变量,每个task都需要加载一部词典。当然也可以使用DistributedCache来解决。在Spark中,通过broadcast,每个节点存放一部词典就够了,这样从task粒度上升到node粒度,节约的资源可想而知。Spark的broadcast路由算法也考虑到了通信开销。

通过使用SparkContext.broadcast(v)来实现对变量v的包装和共享。

scala> val broadcastVar = sc.broadcast(Array(1,2,3))

12/05/10 10:54:21 INFO spark.BoundedMemoryCache: Asked to add key ((1,a5c2a151-185d-4ea4-aad1-9ec642eebc5d),0)

12/05/10 10:54:21 INFO spark.BoundedMemoryCache: Estimated size for key ((1,a5c2a151-185d-4ea4-aad1-9ec642eebc5d),0) is 12

12/05/10 10:54:21 INFO spark.BoundedMemoryCache: Size estimation for key ((1,a5c2a151-185d-4ea4-aad1-9ec642eebc5d),0) took 0 ms

12/05/10 10:54:21 INFO spark.BoundedMemoryCache: ensureFreeSpace((1,a5c2a151-185d-4ea4-aad1-9ec642eebc5d), 12) called with curBytes=12, maxBytes=339585269

12/05/10 10:54:21 INFO spark.BoundedMemoryCache: Adding key ((1,a5c2a151-185d-4ea4-aad1-9ec642eebc5d),0)

12/05/10 10:54:21 INFO spark.BoundedMemoryCache: Number of entries is now 2

broadcastVar: spark.broadcast.Broadcast[Array[Int]] = spark.Broadcast(a5c2a151-185d-4ea4-aad1-9ec642eebc5d)

 

创建broadcast变量后,可以通过.value来访问只读原始变量v。

scala> broadcastVar.value

res4: Array[Int] = Array(1, 2, 3)

另一种共享变量是Accumulators,顾名思义就是可以被“added”的变量,比如MapReduce中的counters就是不断累加的变量。Spark原生支持Int和Double类型的累加变量。

通过SparkContext.accumulator(v)来创建accumulator类型的变量,然后运行的task可以使用“+=”操作符来进行累加。但是task不能读取到该变量,只有driver program能够读取(通过.value),这也是为了避免使用太多读写锁吧。

 

创建0的accumulator版本。

cala> val accum = sc.accumulator(0)

accum: spark.Accumulator[Int] = 0

对生成的RDD进行累加,这次不要reduce了。

scala> sc.parallelize(Array(1,2,3,4)).foreach(x => accum += x)

12/05/10 11:05:48 INFO spark.SparkContext: Starting job...

scala> accum.value

res7: Int = 20

8 安装Mesos

 

Spark-0.4推荐的Mesos版本是1205738,不是最新版的Mesos,我想最新版应该也可以,这里暂且使用1205738。

首先下载Mesos

svn checkout –r 1205738 https://svn.apache.org/repos/asf/incubator/mesos/trunk mesos

得到mesos目录后,先安装编译所需的软件

apt-get install python2.6 python2.6-dev

很遗憾,虽然Ubuntu 11.04上有python 2.7,但webui(mesos的web界面)需要python 2.6,因此要装

apt-get install libcppunit-dev (安装cppunit)

确保g++版本大于4.1

如果缺automake,那么安装

apt-get install autoconf automake libtool

由于系统是Ubuntu 11.04 (GNU/Linux 2.6.38-8-generic x86_64)-natty,可以直接使用./configure.template.ubuntu-natty-64。但我使用的JDK是Sun的,因此修改./configure.template.ubuntu-natty-64里面--with-java-home为/opt/jdk1.6.0_27。

总体如下:

cp configure.template.ubuntu-natty-64 configure.template.ubuntu-my-natty-64

修改configure.template.ubuntu-my-natty-64得到如下内容

1 #!/bin/sh

2 export PYTHON=python2.7

3

4 $(dirname $0)/configure \

5 --with-python-headers=/usr/include/python2.7 \

6 --with-java-home=/opt/jdk1.6.0_27 \

7 --with-webui \

8 --with-included-zookeeper $@

编译mesos

root@master:/opt/mesos# ./configure.template.ubuntu-my-natty-64

 

root@master:/opt/mesos# make

 

9 配置Mesos和Spark

 

先在slave1、slave2、slave3和master上安装mesos,我这里安装在/opt/mesos。

进入conf目录,修改deploy-env.sh,添加MESOS_HOME

 

# This works with a newer version of hostname on Ubuntu.

#FULL_IP="hostname --all-ip-addresses"

#export LIBPROCESS_IP=`echo $FULL_IP | sed 's/\([^ ]*\) .*/\1/'`

export MESOS_HOME=/opt/mesos

修改mesos.conf,添加

# mesos-slave with --help.

failover_timeout=1

进入/opt/spark,修改conf/spark-env.sh,添加

# variables to set are:

# - MESOS_HOME, to point to your Mesos installation

# - SCALA_HOME, to point to your Scala installation

# - SPARK_CLASSPATH, to add elements to Spark's classpath

# - SPARK_JAVA_OPTS, to add JVM options

# - SPARK_MEM, to change the amount of memory used per node (this should

# be in the same format as the JVM's -Xmx option, e.g. 300m or 1g).

# - SPARK_LIBRARY_PATH, to add extra search paths for native libraries.

export SCALA_HOME=/opt/scala-2.9.1.final

export MESOS_HOME=/opt/mesos

export PATH=$PATH:/opt/jdk1.6.0_27/bin

export SPARK_MEM=10g (根据自己机器的内存大小设置,指示Spark可以使用的最大内存量)

 

 

--------------================================---------------------------------------------

ubuntu14 手动安装sbt

 参见官网配置说明http://www.scala-sbt.org/release/tutorial/Manual-Installation.html

 1、下载sbt通用平台压缩包:sbt-0.13.5.tgz

http://www.scala-sbt.org/download.html

 2、建立目录,解压文件到所建立目录

$ sudo tar zxvf sbt-0.13.5.tgz -C /opt/scala/

 3、建立启动sbt的脚本文件

复制代码

/*选定一个位置,建立启动sbt的脚本文本文件,如/opt/scala/sbt/ 目录下面新建文件名为sbt的文本文件*/

$ cd /opt/scala/sbt/

$ vim sbt

/*在sbt文本文件中添加 

SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M"

java $SBT_OPTS -jar /opt/scala/sbt/bin/sbt-launch.jar "$@" 

然后按esc键 输入 :wq 保存退出,注意红色字体中的路径是定位到解压的sbt文件包中的sbt-launch.jar文件的绝对路径*/

 

/×修改sbt文件权限×/

$ chmod u+x sbt 

复制代码

 4、配置PATH环境变量,保证在控制台中可以使用sbt命令

 

复制代码

$ vim ~/.bashrc

/*在文件尾部添加如下代码后,保存退出*/

export PATH=/opt/scala/sbt/:$PATH

 

/*使配置文件立刻生效*/

$ source ~/.bashrc

复制代码

 5、测试sbt是否安装成功

/*第一次执行时,会下载一些文件包,然后才能正常使用,要确保联网了,安装成功后显示如下*/

$ sbt sbt-version

[info] Set current project to sbt (in build file:/opt/scala/sbt/)

[info] 0.13.5

分享到:
评论

相关推荐

    完整的spark安装指南(带图)

    "Spark安装指南" Spark是一个开源的大数据处理引擎,它提供了高效、灵活的数据处理能力。本文将详细介绍Spark的安装过程,包括下载、解压、配置环境变量等步骤。 一、安装Hadoop ---------------- 在安装Spark...

    Spark安装文档以及介绍

    - 进入Spark安装目录下的`conf`目录。 - 重命名并编辑`spark-env.sh.template`文件,设置JDK路径、Master IP等配置项。 - 同样地,重命名并编辑`slaves.template`文件,添加Worker节点的信息。 5. **复制配置到...

    Spark安装使用教程0基础!!!易懂!!!

    Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用教程Spark安装使用...

    spark安装文档

    【Spark安装文档】在Ubuntu环境下搭建Spark基础框架是一项常见的任务,尤其对于数据处理和分析的开发者来说至关重要。Spark是一款高效、通用的并行计算框架,它支持批处理、交互式查询、流处理以及机器学习等多种...

    spark安装.zip

    这个“spark安装.zip”文件显然包含了针对大数据分析初学者的Spark安装教程,以及如何使用Python进行测试的步骤。下面将详细介绍Spark的安装过程,以及如何利用Python与Spark进行交互。 首先,安装Spark需要准备...

    spark安装

    ### Spark安装与开发环境搭建详解 #### 概述 随着大数据技术的发展,Apache Spark作为一款高性能的数据处理框架,被广泛应用于各种数据处理场景之中。本文将详细介绍如何在本地环境中搭建Spark开发环境,并通过一...

    实验八、Spark的安装与使用.doc

    Spark 安装与使用实验报告 本实验报告的目的是学习大数据分析引擎 Spark 的安装与使用。Spark 是一个基于内存的分布式计算框架,能够高效地处理大规模数据。 一、实验目的 本实验的目的是学习 Spark 的安装与使用...

    Linux中Scala和Spark安装

    ### Linux中Scala和Spark安装教程 #### Scala安装步骤详解 在深入探讨如何在Linux系统上安装Scala和Spark之前,我们首先需要确保系统已正确安装了JDK,因为Scala和Spark都依赖于Java运行环境。 ##### 步骤1:安装...

    Spark安装使用教程PDF

    Spark 安装使用教程 PDF Spark 是一个基于内存的计算引擎,可以快速地处理大量数据。下面是 Spark 安装使用教程 PDF 中的知识点总结: 1. Spark 概述 Spark 是一个开源的计算引擎,可以快速地处理大量数据。Spark...

    Hadoop与Spark安装配置手册

    Linux环境下Hadoop与Spark安装配置手册知识点 1. JDK的安装与配置 - 在Linux环境下安装Java Development Kit(JDK)是运行Hadoop和Spark的前提。手册中提到使用的JDK版本为jdk-8u20-linux-i586.tar.gz,这是一个...

    hdfs+spark安装指南

    #### Spark安装部署环境 ##### 环境部署 **软件需求** - **Spark**: 下载最新稳定版或指定版本。 - **Scala**: 与 Spark 版本兼容的 Scala 版本。 **安装步骤** 1. **下载并安装 Spark** - 下载 Spark 安装包。 -...

    spark安装(含报告).zip

    适合大数据分析初学者,安装大数据分析工具spark,python语言测试(保姆级教学)。

    tensorflow on spark安装的部分资源包

    然而,由于跨平台和依赖性的问题,安装和配置TensorFlow on Spark可能较为复杂,官方文档可能并不完全涵盖所有可能出现的问题,这可能是描述中提到“官方的很坑”的原因。 首先,安装`tensorflowonspark`需要确保...

    spark安装部署.doc

    spark 安装部署 Spark 安装部署是大数据处理的重要组件,本文档将指导用户完成 Spark 的安装和配置,涵盖了 JDK、Scala、SSH 免密码登录、Hadoop 安装等步骤。 一、JDK 安装 JDK 是 Spark 运行环境的基础,需要...

    spark安装步骤详解

    Apache Spark 安装步骤详解: 安装 Apache Spark 对于初学者来说可能会有些难度,但通过本篇指南,您将了解安装 Spark 2.0 所需的全部要求,以及如何安装 Spark 环境和配置 Jupyter Notebook 以便于编写代码。本...

    大数据环境搭建——>Spark安装配置

    当Spark安装完成后,它自带了Scala环境,因此,对于一般的使用场景,我们不必单独安装Scala。 在开始安装Spark之前,我们必须先下载并安装Scala,因为Spark是用Scala编写的。Scala提供了强大的数据处理能力,与...

    spark安装配置教程.docx

    ### Spark安装配置教程 #### 一、前提准备 在开始安装Spark之前,有几个重要的准备工作需要完成。 1. **确保Java已安装**: - Spark依赖于Java环境运行,因此需要确保系统上已经安装了JDK,并且正确设置了`JAVA_...

    spark安装手册学习资料.pdf

    "spark安装手册学习资料" 本文档详细介绍了生产型Hadoop和Spark集群的安装和配置过程。下面是从给定的文件中生成的相关知识点: 1. Spark安装手册概述 Spark安装手册是指用于安装和配置Spark集群的指南。该手册...

Global site tag (gtag.js) - Google Analytics