`

spark安装步骤

 
阅读更多

1. 安装JDK7

1.1 解压 tar -xvf jdk-7u79-linux-x64.tar 

1.2 配置环境变量  vi .bash_profile

export JAVA_HOME=/home/spark0/soft/jdk1.7.0_79

export PATH=$JAVA_HOME/bin:$PATH

2.安装HDFS

2.1 解压 tar -zxvf hadoop-2.7.0.tar.gz 

2.2 编辑 hadoop-env.sh

export JAVA_HOME=/home/spark0/soft/jdk1.7.0_79  

2.3 修改配置文件 core-site.xml 

  <configuration>

   <property>

       <name>hadoop.tmp.dir</name>

       <value>file:/home/spark0/temp/hadoop</value>

       <description>Abase for other temporary directories.</description>

   </property>

   <property>

       <name>fs.defaultFS</name>

       <value>hdfs://supportsit1.core.sfp.com:9000</value>

   </property>

</configuration>

2.4 修改配置文件 hdfs-site.xml:

<configuration>

<property>

   <name>dfs.namenode.secondary.http-address</name>

   <value>supportsit1.core.sfp.com:50090</value>

</property>

   <property>

       <name>dfs.replication</name>

       <value>2</value>

   </property>

   <property>

       <name>dfs.namenode.name.dir</name>

       <value>file:/home/spark0/temp/hadoop/dfs/name</value>

   </property>

   <property>

       <name>dfs.datanode.data.dir</name>

       <value>file:/home/spark0/temp/hadoop/dfs/data</value>

   </property>

</configuration>

2.5 配置slaves

hadoop70

supportsit1.core.sfp.com

2.6 复制文件到slaves

scp jdk-7u79-linux-x64.tar hadoop70:/home/spark0/soft

tar -zcf ./hadoop-2.7.0.slave.tar.gz ./hadoop-2.7.0

scp ./hadoop-2.7.0.slave.tar.gz spark0@hadoop70:/home/spark0/soft

2.7 Slaves解压安装jdk和hadoop

2.8 执行namenode的格式化

bin/hdfs namenode -format

2.9 启动hdfs

sbin/start-dfs.sh

2.10 查看JPS

2.11 创建目录

./hdfs dfs -mkdir -p /spark/temp

2.12 放一个文件

./hdfs dfs -put ~/test1 /spark/temp/

3.安装SPARK的Standalone

3.1 解压 tar -xvf spark-1.4.1-bin-hadoop2.6.tgz 

3.2 配置 slaves

加入 supportsit1.core.sfp.com

hadoop70

3.3 配置 spark-env

3.4 配置 spark-defaults.conf

3.5 复制文件到slaves

tar -zcf ./spark-1.4.1-bin-hadoop2.6.slave.tgz ./spark-1.4.1-bin-hadoop2.6

scp ./spark-1.4.1-bin-hadoop2.6.slave.tgz spark0@hadoop70:/home/spark0/soft

3.6 启动sbin/start-master.sh  sbin/start-slaves.sh

 

val fileRdd = sc.textFile("hdfs://supportsit1.core.sfp.com:9000/spark/temp/analyData.text");

 

val express_indexpage = fileRdd.filter(_.contains("EXPRESS= FUNID=INDEXPAGE"))

val express_CHECKPRICE = fileRdd.filter(_.contains("EXPRESS= FUNID=CHECKPRICE"))

val express_CONFIRM = fileRdd.filter(_.contains("EXPRESS= FUNID=CONFIRM"))

 

val charge_indexpage = fileRdd.filter(_.contains("CHARGE= FUNID=INDEXPAGE"))

val charge_CHECKPRICE = fileRdd.filter(_.contains("CHARGE= FUNID=CHECKPRICE"))

val charge_CONFIRM = fileRdd.filter(_.contains("CHARGE= FUNID=CONFIRM"))

 

val sfbest_indexpage = fileRdd.filter(_.contains("SFBEST= FUNID=INDEXPAGE"))

val sfbest_load = fileRdd.filter(_.contains("LOAD"))

val sfbest_confirm = fileRdd.filter(_.contains("SFBEST= FUNID=CONFIRM"))

 

val sfbest = fileRdd.filter( line => (line.contains("SFBEST= FUNID=INDEXPAGE") ||  line.contains("LOAD") ))

val sfbestmap = sfbest.map( line=> (line.split("=")(9),line.split("=")(3).toLong  ) )

val sfbestreduce = sfbestmap.reduceByKey(_-_)

sfbestreduce.saveAsTextFile("hdfs://supportsit1.core.sfp.com:9000/spark/temp/test9")

 

分享到:
评论

相关推荐

    spark安装步骤详解

    Apache Spark 安装步骤详解: 安装 Apache Spark 对于初学者来说可能会有些难度,但通过本篇指南,您将了解安装 Spark 2.0 所需的全部要求,以及如何安装 Spark 环境和配置 Jupyter Notebook 以便于编写代码。本...

    Linux中Scala和Spark安装

    #### Spark安装步骤详解 一旦Scala安装完成,接下来就可以安装Spark了。Spark是一个强大的分布式计算框架,用于大规模数据处理。 ##### 步骤1:下载Spark 访问Spark官方网站:[Apache Spark]...

    Spark&Scala安装教程.docx

    #### 一、Spark安装步骤及配置 ##### 1. 创建Spark目录 - **步骤**: 进入`/usr/local`目录,通过命令`cd /usr/local`。 - **创建目录**: 使用命令`sudo mkdir /usr/local/spark`创建名为`spark`的目录。 ##### 2. ...

    centos下jdk+spark+scala安装

    ### CentOS 下 JDK、Spark 和 Scala 的安装与...以上步骤详细介绍了如何在 CentOS 系统上安装 JDK、Scala 和 Spark,并进行了基本的功能测试。按照这些步骤操作,可以帮助用户顺利搭建起一个完整的 Spark 开发环境。

    hadoop&spark安装教程.pdf

    ### Hadoop & Spark 安装教程详述 #### 一、Hadoop 安装步骤详解 ...以上步骤详细介绍了如何安装和配置 Hadoop 与 Spark。按照这些步骤操作,可以顺利搭建起一个功能完整的 Hadoop 和 Spark 分布式计算平台。

    hadoop,spark安装详细步骤

    这是我在centos7上安装hadoop单机版,和spark单机版的详细步骤,全是我自己确定能用才写好的笔记,还有一些centos7的操作,如NFS共享文件,ssh无秘登陆的详细步骤,全都做好了详细的笔记,且保证能用的。

    实验八、Spark的安装与使用.doc

    Spark 安装与使用实验报告 本实验报告的目的是学习大数据分析引擎 Spark 的安装与使用。Spark 是一个基于内存的分布式计算框架,能够高效地处理大规模数据。 一、实验目的 本实验的目的是学习 Spark 的安装与使用...

    完整的spark安装指南(带图)

    本文将详细介绍Spark的安装过程,包括下载、解压、配置环境变量等步骤。 一、安装Hadoop ---------------- 在安装Spark之前,需要先安装Hadoop,因为Spark依赖Hadoop分布式文件系统(HDFS)。本文假设已经安装了...

    spark2 安装教程

    通过以上步骤,我们可以成功地在一台服务器上安装并配置 Spark 2.1.0,并使其与 Spark1.3 版本共存。这不仅能够满足新项目的开发需求,还能保持对旧项目的支持。在未来的工作中,可以根据具体的应用场景灵活选择合适...

    spark三种模式部署安装(基于Anaconda3实现spark编程)

    安装过程包括下载安装脚本、运行安装程序等步骤。安装完成后,还需要配置环境变量,以便系统能够识别Anaconda3的命令。 1. **下载Anaconda3安装脚本**: ```bash cd /export/server wget ...

    Spark安装文档以及介绍

    ### Spark概述 #### 什么是Spark Spark是一种高性能的大数据分析处理框架,主要特点是速度快、易于使用...通过以上步骤,可以完成一个基本的Spark集群的安装和配置工作,为后续的大数据分析处理任务提供强大的支持。

    spark安装包+spark实验安装软件

    Spark是Apache基金会下的一个开源大数据处理框架,以其高效、...通过以上步骤,你可以理解并掌握Spark的基本安装、配置和使用方法。对于更深入的学习,建议参考官方文档和其他专业教程,了解更多的高级特性及实践技巧。

    spark安装.zip

    这个“spark安装.zip”文件显然包含了针对大数据分析初学者的Spark安装教程,以及如何使用Python进行测试的步骤。下面将详细介绍Spark的安装过程,以及如何利用Python与Spark进行交互。 首先,安装Spark需要准备...

    tensorflow on spark安装的部分资源包

    安装步骤大致如下: 1. **设置环境**:确保你的系统上已经安装了Python、Java、Spark和Hadoop。检查版本兼容性,因为不同版本之间可能存在不兼容的问题。 2. **安装Python依赖**:使用`pip`安装`tensorflow`、`...

    spark安装文档

    【Spark安装文档】在Ubuntu环境下搭建Spark基础框架是一项常见的任务,尤其对于数据处理和分析的开发者来说至关重要。Spark是一款高效、通用的并行计算框架,它支持批处理、交互式查询、流处理以及机器学习等多种...

    Ubuntu下安装spark.pdf

    在Ubuntu操作系统中安装Apache Spark的过程涉及到一系列详细的步骤,需要按照既定的顺序进行操作。下面是根据给定文件内容整理出来的知识点: 首先,需要了解Apache Spark是一个快速的、开源的分布式计算系统,它...

    Spark实验:Standalone模式安装部署(带答案)1

    以下是安装部署Spark Standalone模式的详细步骤和相关知识点。 **一、实验描述与环境** 1. 实验描述:本实验旨在搭建一个基于Standalone模式的Spark集群,包括解压安装包、配置环境变量、启动集群及验证安装效果。...

    hdfs+spark安装指南

    ### HDFS + Spark 安装部署知识点 #### HDFS安装部署 ##### 目的 本文档旨在指导读者完成Hadoop伪分布式环境下HDFS的安装与部署。通过本指南的学习,您将能够掌握如何搭建一个基本的HDFS集群,并了解相关的配置步骤...

Global site tag (gtag.js) - Google Analytics