spark单节点local安装:
1.解压包:
scala-2.10.4.tgz
scala-intellij-bin-0.38.437.zip
spark-0.9.1-bin-hadoop1.tgz
2.配置/etc/profile
3.直接输入scala如果进入scala界面表示安装成功
4.如果是集群就要配置/etc/hosts
5.到spark/conf下面配置spark-env.sh
export JAVA_HOME=/usr/java/jdk1.6.0_32
export SPARK_MASTER_IP=127.0.0.1(配置hosts中配置的主机名)
export SPARK_MASTER_PORT=8888
export SPARK_MASTER_MEMORY=128M
export SPARK_WORKER_CORES=1
6.到sbin目录启动./start-all.sh
spark分布式集群Standalone安装:
1.app/mkdir spark
2.解压3个文件
Zip:unzip 文件名
Tar:tar –xvf文件名
3.到spark下的conf目录
4.mv spark-env.sh.template spark-env.sh
5.vi spark-env.sh
export SCALA_HOME=/home/hadoop/app/spark/scala-2.10.4
export JAVA_HOME=/home/hadoop/java/jdk1.7.0_17
export SPARK_MASTER_IP=hbase01
export SPARK_WORKER_INSTANCES=3
export SPARK_MASTER_PORT=8070
export SPARK_MASTER_WEBUI_PORT=8090
export SPARK_WORKER_PORT=8092
export SPARK_WORKER_MEMORY=500m
6.vi slaves添加内容如下:
hbase01
hbase02
hbase03
7.vi /etc/profile ,添加内容如下:
export SPARK_HOME=/home/hadoop/app/spark/spark-0.9.1-bin-hadoop1
export PATH=$SPARK_HOME/bin:$PATH
8.source /etc/profile
9.各个节点间复制:
sudo scp -r /home/hadoop/app/spark hadoop@192.168.1.164:/home/hadoop/app/
10.到spark/sbin/start-all.sh
11.启动web界面:
http://hbase01:8090/
12.配置scala环境变量
export SCALA_HOME=/home/hadoop/app/spark/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
单词统计代码:
val textFile = sc.textFile("/home/hadoop/app/spark/spark-0.9.1-bin-hadoop1/README.md") textFile.count() textFile.filter(line => line.contains("Spark")).count()
spark-streaming代码:
// 创建StreamingContext,1秒一个批次。 //第一个参数是指定Spark Streaming运行的集群地址 val ssc = new StreamingContext(“Spark://…”, Seconds(1)); // 获得一个DStream负责连接 监听端口:地址 val lines = ssc.socketTextStream(serverIP, serverPort); // 对每一行数据执行Split操作 val words = lines.flatMap(_.split(" ")); // 统计word的数量 val pairs = words.map(word => (word, 1)); val wordCounts = pairs.reduceByKey(_ + _); // 输出结果 wordCounts.svaeastextfile; ssc.start(); // 开始 ssc.awaitTermination(); // 计算完毕退出
相关推荐
spark 安装部署 Spark 安装部署是大数据处理的重要组件,本文档将指导用户完成 Spark 的安装和配置,涵盖了 JDK、Scala、SSH 免密码登录、Hadoop 安装等步骤。 一、JDK 安装 JDK 是 Spark 运行环境的基础,需要...
### Spark安装部署相关环境部署和代码编译部署文档 #### 一、Spark 安装部署所需依赖 **1. JDK 安装与配置** - **背景介绍:** Spark 使用 Scala 编写,但其运行环境基于 Java 虚拟机 (JVM),因此安装 JDK 是必不...
Spark伪分布(Standalone)模式安装部署 在大数据处理中,Spark是非常流行的计算引擎,它可以快速处理大量数据。然而,为了让Spark正常运行,需要安装和部署Spark伪分布(Standalone)模式。在本文中,我们将介绍...
【Spark Standalone模式安装部署详解】 Spark是一款快速、通用且可扩展的大数据处理框架,它提供了高效的批处理、交互式查询、流处理等多种计算模式。在Standalone模式下,Spark可以独立于任何分布式资源管理系统...
在部署Spark方面,用户可以选择不同的部署模式。最简单的方式是在单机上以独立模式运行,这种方式适合学习和小型测试。对于生产环境,则有Standalone模式、使用YARN的Hadoop集群模式和Mesos集群管理器模式。此外,...
### HDFS + Spark 安装部署知识点 #### HDFS安装部署 ##### 目的 本文档旨在指导读者完成Hadoop伪分布式环境下HDFS的安装与部署。通过本指南的学习,您将能够掌握如何搭建一个基本的HDFS集群,并了解相关的配置步骤...
hadoop&spark开发部署环境.ziphadoop&spark开发部署环境.ziphadoop&spark开发部署环境.ziphadoop&spark开发部署环境.ziphadoop&spark开发部署环境.ziphadoop&spark开发部署环境.ziphadoop&spark开发部署环境....
### Spark集群安装部署与初步开发知识点详述 #### 一、Spark概述 - **定义**:Spark是一款基于内存计算的大数据并行计算框架,旨在提供高效的数据处理能力。 - **特性**: - **内存计算**:利用内存提高数据处理...
在这个实验中,我们将详细探讨如何在Yarn模式下安装和部署Spark集群。 首先,我们需要准备实验环境,这里包括三台虚拟机,操作系统为CentOS 7.5,Hadoop版本为2.7.3,Spark版本为2.1.1。这些版本的兼容性对于实验的...
Spark是一种开源的分布式大数据处理框架,其上机实验手册是针对想要独立完成Spark安装部署和基础开发学习的用户设计的。通过这份手册,用户可以在没有任何课堂辅导的情况下,自行完成安装、配置和基础的编程实践。 ...
Spark分布式集群安装部署 Spark 是一种基于内存的分布式计算框架,它提供了高效的数据处理能力和灵活的编程模型。 Spark 集群安装部署是 Spark 的一个重要组成部分,它可以帮助用户快速部署 Spark 集群,并对其...
Spark支持独立部署模式,包括一个Spark master进程和多个 Spark worker进程.独立部署模式可以运行在单机上作为测试之用,也可以部署在集群上.如果你打算部署在集群上,可以使用我们提供的部署脚本启动一个集群。
此外,还安装了 Hadoop 2.6.0 并正确配置,以便在 on yarn 模式下运行 Spark。 Spark Shell Spark Shell 是Spark 的交互式 shell,一般用于开发和测试。使用 Spark Shell,可以快速地运行 Spark 应用程序,并且...
首先,Spark部署有四种主要模式:Local模式(单机模式)、Standalone模式(使用Spark自带的集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。这里主要讲解的是Local模式,...
### Spark 生态与安装部署详解 #### 一、Spark 是什么? Spark 是一款开源的大规模数据处理框架,它能够提供高效的数据处理能力,特别是在大规模数据集上的处理速度远远超过传统的 MapReduce 框架。Spark 的核心...
Spark 集群部署及入门 Spark 集群部署是大数据处理和分析的关键组件之一,本文档旨在指导 Spark 入门级人员了解 Spark 集群的部署和环境测试。 硬件环境 在部署 Spark 集群之前,需要具备一定的硬件环境,包括: ...
2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--IDEA搭建及实战.pdf 4.Spark运行架构.pdf 5....
### Spark的三种部署模式与基于Anaconda3的Python编程实现 #### 一、Spark的部署模式 Apache Spark作为大数据处理领域的重要工具之一,其部署模式的选择对于应用性能有着至关重要的影响。Spark支持三种主要的部署...