1. 安装JDK7
1.1 解压 tar -xvf jdk-7u79-linux-x64.tar
1.2 配置环境变量 vi .bash_profile
export JAVA_HOME=/home/spark0/soft/jdk1.7.0_79
export PATH=$JAVA_HOME/bin:$PATH
2.安装HDFS
2.1 解压 tar -zxvf hadoop-2.7.0.tar.gz
2.2 编辑 hadoop-env.sh
export JAVA_HOME=/home/spark0/soft/jdk1.7.0_79
2.3 修改配置文件 core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/spark0/temp/hadoop</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://supportsit1.core.sfp.com:9000</value>
</property>
</configuration>
2.4 修改配置文件 hdfs-site.xml:
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>supportsit1.core.sfp.com:50090</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/spark0/temp/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/spark0/temp/hadoop/dfs/data</value>
</property>
</configuration>
2.5 配置slaves
hadoop70
supportsit1.core.sfp.com
2.6 复制文件到slaves
scp jdk-7u79-linux-x64.tar hadoop70:/home/spark0/soft
tar -zcf ./hadoop-2.7.0.slave.tar.gz ./hadoop-2.7.0
scp ./hadoop-2.7.0.slave.tar.gz spark0@hadoop70:/home/spark0/soft
2.7 Slaves解压安装jdk和hadoop
2.8 执行namenode的格式化
bin/hdfs namenode -format
2.9 启动hdfs
sbin/start-dfs.sh
2.10 查看JPS
2.11 创建目录
./hdfs dfs -mkdir -p /spark/temp
2.12 放一个文件
./hdfs dfs -put ~/test1 /spark/temp/
3.安装SPARK的Standalone
3.1 解压 tar -xvf spark-1.4.1-bin-hadoop2.6.tgz
3.2 配置 slaves
加入 supportsit1.core.sfp.com
hadoop70
3.3 配置 spark-env
3.4 配置 spark-defaults.conf
3.5 复制文件到slaves
tar -zcf ./spark-1.4.1-bin-hadoop2.6.slave.tgz ./spark-1.4.1-bin-hadoop2.6
scp ./spark-1.4.1-bin-hadoop2.6.slave.tgz spark0@hadoop70:/home/spark0/soft
3.6 启动sbin/start-master.sh sbin/start-slaves.sh
val fileRdd = sc.textFile("hdfs://supportsit1.core.sfp.com:9000/spark/temp/analyData.text");
val express_indexpage = fileRdd.filter(_.contains("EXPRESS= FUNID=INDEXPAGE"))
val express_CHECKPRICE = fileRdd.filter(_.contains("EXPRESS= FUNID=CHECKPRICE"))
val express_CONFIRM = fileRdd.filter(_.contains("EXPRESS= FUNID=CONFIRM"))
val charge_indexpage = fileRdd.filter(_.contains("CHARGE= FUNID=INDEXPAGE"))
val charge_CHECKPRICE = fileRdd.filter(_.contains("CHARGE= FUNID=CHECKPRICE"))
val charge_CONFIRM = fileRdd.filter(_.contains("CHARGE= FUNID=CONFIRM"))
val sfbest_indexpage = fileRdd.filter(_.contains("SFBEST= FUNID=INDEXPAGE"))
val sfbest_load = fileRdd.filter(_.contains("LOAD"))
val sfbest_confirm = fileRdd.filter(_.contains("SFBEST= FUNID=CONFIRM"))
val sfbest = fileRdd.filter( line => (line.contains("SFBEST= FUNID=INDEXPAGE") || line.contains("LOAD") ))
val sfbestmap = sfbest.map( line=> (line.split("=")(9),line.split("=")(3).toLong ) )
val sfbestreduce = sfbestmap.reduceByKey(_-_)
sfbestreduce.saveAsTextFile("hdfs://supportsit1.core.sfp.com:9000/spark/temp/test9")
相关推荐
Apache Spark 安装步骤详解: 安装 Apache Spark 对于初学者来说可能会有些难度,但通过本篇指南,您将了解安装 Spark 2.0 所需的全部要求,以及如何安装 Spark 环境和配置 Jupyter Notebook 以便于编写代码。本...
#### Spark安装步骤详解 一旦Scala安装完成,接下来就可以安装Spark了。Spark是一个强大的分布式计算框架,用于大规模数据处理。 ##### 步骤1:下载Spark 访问Spark官方网站:[Apache Spark]...
#### 一、Spark安装步骤及配置 ##### 1. 创建Spark目录 - **步骤**: 进入`/usr/local`目录,通过命令`cd /usr/local`。 - **创建目录**: 使用命令`sudo mkdir /usr/local/spark`创建名为`spark`的目录。 ##### 2. ...
### CentOS 下 JDK、Spark 和 Scala 的安装与...以上步骤详细介绍了如何在 CentOS 系统上安装 JDK、Scala 和 Spark,并进行了基本的功能测试。按照这些步骤操作,可以帮助用户顺利搭建起一个完整的 Spark 开发环境。
### Hadoop & Spark 安装教程详述 #### 一、Hadoop 安装步骤详解 ...以上步骤详细介绍了如何安装和配置 Hadoop 与 Spark。按照这些步骤操作,可以顺利搭建起一个功能完整的 Hadoop 和 Spark 分布式计算平台。
这是我在centos7上安装hadoop单机版,和spark单机版的详细步骤,全是我自己确定能用才写好的笔记,还有一些centos7的操作,如NFS共享文件,ssh无秘登陆的详细步骤,全都做好了详细的笔记,且保证能用的。
Spark 安装与使用实验报告 本实验报告的目的是学习大数据分析引擎 Spark 的安装与使用。Spark 是一个基于内存的分布式计算框架,能够高效地处理大规模数据。 一、实验目的 本实验的目的是学习 Spark 的安装与使用...
本文将详细介绍Spark的安装过程,包括下载、解压、配置环境变量等步骤。 一、安装Hadoop ---------------- 在安装Spark之前,需要先安装Hadoop,因为Spark依赖Hadoop分布式文件系统(HDFS)。本文假设已经安装了...
通过以上步骤,我们可以成功地在一台服务器上安装并配置 Spark 2.1.0,并使其与 Spark1.3 版本共存。这不仅能够满足新项目的开发需求,还能保持对旧项目的支持。在未来的工作中,可以根据具体的应用场景灵活选择合适...
安装过程包括下载安装脚本、运行安装程序等步骤。安装完成后,还需要配置环境变量,以便系统能够识别Anaconda3的命令。 1. **下载Anaconda3安装脚本**: ```bash cd /export/server wget ...
### Spark概述 #### 什么是Spark Spark是一种高性能的大数据分析处理框架,主要特点是速度快、易于使用...通过以上步骤,可以完成一个基本的Spark集群的安装和配置工作,为后续的大数据分析处理任务提供强大的支持。
Spark是Apache基金会下的一个开源大数据处理框架,以其高效、...通过以上步骤,你可以理解并掌握Spark的基本安装、配置和使用方法。对于更深入的学习,建议参考官方文档和其他专业教程,了解更多的高级特性及实践技巧。
这个“spark安装.zip”文件显然包含了针对大数据分析初学者的Spark安装教程,以及如何使用Python进行测试的步骤。下面将详细介绍Spark的安装过程,以及如何利用Python与Spark进行交互。 首先,安装Spark需要准备...
安装步骤大致如下: 1. **设置环境**:确保你的系统上已经安装了Python、Java、Spark和Hadoop。检查版本兼容性,因为不同版本之间可能存在不兼容的问题。 2. **安装Python依赖**:使用`pip`安装`tensorflow`、`...
【Spark安装文档】在Ubuntu环境下搭建Spark基础框架是一项常见的任务,尤其对于数据处理和分析的开发者来说至关重要。Spark是一款高效、通用的并行计算框架,它支持批处理、交互式查询、流处理以及机器学习等多种...
在Ubuntu操作系统中安装Apache Spark的过程涉及到一系列详细的步骤,需要按照既定的顺序进行操作。下面是根据给定文件内容整理出来的知识点: 首先,需要了解Apache Spark是一个快速的、开源的分布式计算系统,它...
以下是安装部署Spark Standalone模式的详细步骤和相关知识点。 **一、实验描述与环境** 1. 实验描述:本实验旨在搭建一个基于Standalone模式的Spark集群,包括解压安装包、配置环境变量、启动集群及验证安装效果。...
### HDFS + Spark 安装部署知识点 #### HDFS安装部署 ##### 目的 本文档旨在指导读者完成Hadoop伪分布式环境下HDFS的安装与部署。通过本指南的学习,您将能够掌握如何搭建一个基本的HDFS集群,并了解相关的配置步骤...