`
501311837
  • 浏览: 18452 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Spark安装部署

阅读更多

 spark单节点local安装:

 1.解压包:

scala-2.10.4.tgz

scala-intellij-bin-0.38.437.zip

spark-0.9.1-bin-hadoop1.tgz

2.配置/etc/profile

3.直接输入scala如果进入scala界面表示安装成功

4.如果是集群就要配置/etc/hosts

5.spark/conf下面配置spark-env.sh

export JAVA_HOME=/usr/java/jdk1.6.0_32

export SPARK_MASTER_IP=127.0.0.1(配置hosts中配置的主机名)

export SPARK_MASTER_PORT=8888

export SPARK_MASTER_MEMORY=128M

export SPARK_WORKER_CORES=1

6.sbin目录启动./start-all.sh

 

spark分布式集群Standalone安装:

1.app/mkdir spark

2.解压3文件

Zip:unzip  文件名

Tar:tarxvf文件名

3.spark下的conf目录

4.mv spark-env.sh.template spark-env.sh

5.vi spark-env.sh

export SCALA_HOME=/home/hadoop/app/spark/scala-2.10.4

export JAVA_HOME=/home/hadoop/java/jdk1.7.0_17

export SPARK_MASTER_IP=hbase01

export SPARK_WORKER_INSTANCES=3

export SPARK_MASTER_PORT=8070

export SPARK_MASTER_WEBUI_PORT=8090

export SPARK_WORKER_PORT=8092

export SPARK_WORKER_MEMORY=500m

6.vi slaves添加内容如下:
hbase01
hbase02
hbase03
7.vi /etc/profile ,添加内容如下:
export SPARK_HOME=/home/hadoop/app/spark/spark-0.9.1-bin-hadoop1
export PATH=$SPARK_HOME/bin:$PATH
8.source /etc/profile
9.各个节点间复制:
sudo scp -r /home/hadoop/app/spark  hadoop@192.168.1.164:/home/hadoop/app/
10.到spark/sbin/start-all.sh
11.启动web界面:
http://hbase01:8090/
12.配置scala环境变量
export SCALA_HOME=/home/hadoop/app/spark/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH 

 

 单词统计代码:

val textFile = sc.textFile("/home/hadoop/app/spark/spark-0.9.1-bin-hadoop1/README.md")
textFile.count()
textFile.filter(line => line.contains("Spark")).count() 

  

spark-streaming代码:

// 创建StreamingContext,1秒一个批次。
//第一个参数是指定Spark Streaming运行的集群地址
val ssc = new StreamingContext(“Spark://…”, Seconds(1));

// 获得一个DStream负责连接 监听端口:地址
val lines = ssc.socketTextStream(serverIP, serverPort);

// 对每一行数据执行Split操作
val words = lines.flatMap(_.split(" "));

// 统计word的数量 
val pairs = words.map(word => (word, 1)); 
val wordCounts = pairs.reduceByKey(_ + _);

 // 输出结果
 wordCounts.svaeastextfile;
ssc.start(); // 开始 
ssc.awaitTermination(); // 计算完毕退出

 

分享到:
评论

相关推荐

    spark安装部署.doc

    spark 安装部署 Spark 安装部署是大数据处理的重要组件,本文档将指导用户完成 Spark 的安装和配置,涵盖了 JDK、Scala、SSH 免密码登录、Hadoop 安装等步骤。 一、JDK 安装 JDK 是 Spark 运行环境的基础,需要...

    spark安装部署相关环境部署和代码编译部署文档

    ### Spark安装部署相关环境部署和代码编译部署文档 #### 一、Spark 安装部署所需依赖 **1. JDK 安装与配置** - **背景介绍:** Spark 使用 Scala 编写,但其运行环境基于 Java 虚拟机 (JVM),因此安装 JDK 是必不...

    spark伪分布.docx

    Spark伪分布(Standalone)模式安装部署 在大数据处理中,Spark是非常流行的计算引擎,它可以快速处理大量数据。然而,为了让Spark正常运行,需要安装和部署Spark伪分布(Standalone)模式。在本文中,我们将介绍...

    Spark实验:Standalone模式安装部署(带答案)1

    【Spark Standalone模式安装部署详解】 Spark是一款快速、通用且可扩展的大数据处理框架,它提供了高效的批处理、交互式查询、流处理等多种计算模式。在Standalone模式下,Spark可以独立于任何分布式资源管理系统...

    Spark生态和安装部署

    在部署Spark方面,用户可以选择不同的部署模式。最简单的方式是在单机上以独立模式运行,这种方式适合学习和小型测试。对于生产环境,则有Standalone模式、使用YARN的Hadoop集群模式和Mesos集群管理器模式。此外,...

    hdfs+spark安装指南

    ### HDFS + Spark 安装部署知识点 #### HDFS安装部署 ##### 目的 本文档旨在指导读者完成Hadoop伪分布式环境下HDFS的安装与部署。通过本指南的学习,您将能够掌握如何搭建一个基本的HDFS集群,并了解相关的配置步骤...

    hadoop&spark开发部署环境.zip

    hadoop&spark开发部署环境.ziphadoop&spark开发部署环境.ziphadoop&spark开发部署环境.ziphadoop&spark开发部署环境.ziphadoop&spark开发部署环境.ziphadoop&spark开发部署环境.ziphadoop&spark开发部署环境....

    spark集群安装部署与初步开发

    ### Spark集群安装部署与初步开发知识点详述 #### 一、Spark概述 - **定义**:Spark是一款基于内存计算的大数据并行计算框架,旨在提供高效的数据处理能力。 - **特性**: - **内存计算**:利用内存提高数据处理...

    Spark实验:On Yarn模式安装部署(带答案)1

    在这个实验中,我们将详细探讨如何在Yarn模式下安装和部署Spark集群。 首先,我们需要准备实验环境,这里包括三台虚拟机,操作系统为CentOS 7.5,Hadoop版本为2.7.3,Spark版本为2.1.1。这些版本的兼容性对于实验的...

    spark上机实验手册

    Spark是一种开源的分布式大数据处理框架,其上机实验手册是针对想要独立完成Spark安装部署和基础开发学习的用户设计的。通过这份手册,用户可以在没有任何课堂辅导的情况下,自行完成安装、配置和基础的编程实践。 ...

    Spark分布式集群安装部署 .doc

    Spark分布式集群安装部署 Spark 是一种基于内存的分布式计算框架,它提供了高效的数据处理能力和灵活的编程模型。 Spark 集群安装部署是 Spark 的一个重要组成部分,它可以帮助用户快速部署 Spark 集群,并对其...

    Spark独立部署模式

    Spark支持独立部署模式,包括一个Spark master进程和多个 Spark worker进程.独立部署模式可以运行在单机上作为测试之用,也可以部署在集群上.如果你打算部署在集群上,可以使用我们提供的部署脚本启动一个集群。

    spark1.2.1常用模式部署运行

    此外,还安装了 Hadoop 2.6.0 并正确配置,以便在 on yarn 模式下运行 Spark。 Spark Shell Spark Shell 是Spark 的交互式 shell,一般用于开发和测试。使用 Spark Shell,可以快速地运行 Spark 应用程序,并且...

    spark组件部署.doc

    首先,Spark部署有四种主要模式:Local模式(单机模式)、Standalone模式(使用Spark自带的集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。这里主要讲解的是Local模式,...

    1Spark生态和安装部署

    ### Spark 生态与安装部署详解 #### 一、Spark 是什么? Spark 是一款开源的大规模数据处理框架,它能够提供高效的数据处理能力,特别是在大规模数据集上的处理速度远远超过传统的 MapReduce 框架。Spark 的核心...

    spark集群部署及入门.docx

    Spark 集群部署及入门 Spark 集群部署是大数据处理和分析的关键组件之一,本文档旨在指导 Spark 入门级人员了解 Spark 集群的部署和环境测试。 硬件环境 在部署 Spark 集群之前,需要具备一定的硬件环境,包括: ...

    2.Spark编译与部署(下)--Spark编译安装.pdf

    2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5....

    spark11安装部署.docx

    ..spark11安装部署.docx

Global site tag (gtag.js) - Google Analytics