`
reb12345reb
  • 浏览: 51312 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

spark

 
阅读更多

spark 安装 0.8 版本


操作系统Ubuntu 10.04,已经安装JDK 1.7。


1. 下载spark代码
http://spark.incubator.apache.org/downloads.html


2. spark 0.8依赖于scala 2.9.3,安装这个版本的scala。
2.1 下载scala 0.9.3 http://www.scala-lang.org/download/2.9.3.html#Software_Requirements
2.2 解压缩到/usr/local/scala目录下
2.3 在/etc/profile添加一行代码:
    export PATH=$PATH:/usr/local/scala/bin


3. 编译spark
3.1 在~/setup/spark-new/目录下,将spark-0.8.0-incubating.tgz解压缩到目录~/setup/spark-new/spark-0.8.0:
    tar xvf spark-0.8.0-incubating.tgz
3.2 运行sbt进行编译:
                . /etc/profile #更新环境变量
cd ~/setup/spark-new/spark-0.8.0
sbt/sbt assembly
    这个步骤会下载很多库,然后进行编译,编译时间大概会在1个小时左右。


4. 交互式运行
4.1 参考这里:http://spark.incubator.apache.org/docs/latest/quick-start.html
4.2 在运行例子前,如果系统已经安装了Hadoop,所以需要启动了Hadoop,然后把spark的README.md文件复制到HDFS上。
4.3 启动spark shell:
cd /home/brian/setup/spark-new/spark-0.8.0
        ./shark-shell
4.4 按照运行例子,处理README.md文件。


5. 写scala写一个标准的spark app
5.1 创建一个目录~/test
5.2 test目录的内容如下,其中,simple.sbt和SimpleApp.scala是文件,其他都是目录
find .

.
./simple.sbt
./src
./src/main
./src/main/scala
./src/main/scala/SimpleApp.scala


5.3 simple.sbt文件内容如下:
name := "Simple Project"
version := "1.0"
scalaVersion := "2.9.3"
libraryDependencies += "org.apache.spark" %% "spark-core" % "0.8.0-incubating"
resolvers += "Akka Repository" at "http://repo.akka.io/releases/"


5.4 SimpleApp.scala文件内容如下:
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

object SimpleApp{
    def main(args: Array[String]){
    val logFile = "/home/brian/setup/spark-new/spark-0.8.0/README.md"
val sc = new SparkContext("local", "Simple App",
          "/home/brian/setup/spark-new/spark-0.8.0",
    List("target/scala-2.9.3/simple-project_2.9.3-1.0.jar"))
        val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
        println("Lines with a: %s, lines with b: %s".format(numAs, numBs))
    }
}


5.5 编译:
cd ~/test
~/setup/spark-new/spark-0.8.0/sbt/sbt package
~/setup/spark-new/spark-0.8.0/sbt/sbt run


5.6 运算结果:
Lines with a: 66, lines with b: 35

分享到:
评论

相关推荐

    大数据Spark纯净版安装包,用于快速集成Hive on Spark

    Spark纯净版安装包是一个用于安装Apache Spark的软件包,该软件包提供了Spark的基本功能和组件,但不包含任何额外的扩展或依赖项。纯净版安装包旨在提供一个轻量级、简单易用的Spark安装选项,适用于用户希望快速...

    spark安装包+spark实验安装软件

    Spark是Apache基金会下的一个开源大数据处理框架,以其高效、易用和可扩展性著称。Spark的核心设计理念是基于内存计算,极大地提升了数据处理速度。在本压缩包中,"spark-3.4.0-bin-without-hadoop"是Spark的一个预...

    spark资源 spark-2.3.2-bin-hadoop2.7 tgz文件

    Apache Spark是一个快速的分布式计算系统,它提供了一个高层次的API,支持Java、Scala、Python和R。Spark可以运行在Hadoop、Apache Mesos、Kubernetes、独立,或开发人员自己的机器上。它旨在扩展以支持各种数据处理...

    springboot与spark整合开发, 练习spark api

    在现代大数据处理领域,Spark和Spring Boot的整合已经成为一种常见的技术组合。Spark作为一个快速、通用且可扩展的大数据处理框架,而Spring Boot则为构建微服务提供了简洁、高效的解决方案。本篇文章将深入探讨如何...

    openfire+spark+sparkweb的配置

    【标题】: "openfire+spark+sparkweb的配置指南" 【内容】: 本文将详细介绍如何配置openfire、spark和sparkweb这三款组件,它们是构建即时通讯系统的常用工具。Openfire是一款开源的XMPP服务器,Spark是基于Java的...

    SparkDemo.rar

    《Spark技术深度解析:从SparkCount到SparkSQL与SparkStreaming》 Spark,作为大数据处理领域的重要框架,以其高效、易用的特点受到了广泛的关注。在"SparkDemo.rar"这个压缩包中,包含了三个关键领域的示例:Spark...

Global site tag (gtag.js) - Google Analytics