`
功夫小当家
  • 浏览: 187026 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

spark - 部署和安装

阅读更多

本地环境:

  • hadoop3.0
  • spark2.3

注:由于测试中,换了机器,导致下面的截图,是在两个spark版本(2.2和2.3)的机器上做的,hostname略有不同(hdp1 和 hd1) ,不影响实际结果,下面的配置依然是正确的,实际测试中以自己的hostname,spark版本为准!

 

 

1.下载,解压

 

2.目录结构

bin:本地脚本

sbin:服务端脚本

conf:配置文件

examples:样例代码

jars:依赖包(1.x是在lib目录,很少的几个大包, 2.x是在jars目录下,很多个小包)



 

1.x的lib目录

 

2.x的jars目录


 

 

3.local模式(测试用):

    不用改任何配置,不用启动任何进程(开箱即用)

./spark-shell --master local[2] --name test

 

 

log4j在conf目录下,可以调节log级别,默认info级别


 

(4)standlone模式(spark集群,master/slave主从模式)

    修改conf下的spark-env.sh

export SCALA_HOME=/DATA/sdb/scala-2.11.8
export JAVA_HOME=/etc/alternatives/java_sdk_1.8.0
export SPARK_MASTER_IP=hdp1
export SPARK_WORKER_CORES=31
export SPARK_WORKER_MEMORY=120g
export HADOOP_CONF_DIR=/DATA/sdb/hadoop-3.0.0/etc/hadoop
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native

 

    修改slaves文件(hosts写上去)

hdp1
hdp2
hdp3

    

    启动

./sbin/start-all.sh

 

    jps查看有worker和master两个进程


 

    web ui是在8080



 

    这个模式,修改配置文件需要同步到其他节点

 

(5)spark on yarn模式

  • 不需要启动任何进程
  • 只是把spark作为作业提交的客户端而已
  • 修改配置文件不需要同步到其他节点
  • yarn的Resource Manager 和 Node Manager 要先启动起来
  • spark on yarn是把作业提交到yarn上运行
  • 只在1到2台机器上部署spark即可
  • 所有运行调度交给yarn,通过Resource Manager申请资源,然后再NodeManager上启动container,把spark作业泡在yarn的NodeManager上的container里

    启动命令

./spark-shell  --master yarn

 

    注意:

  • 需要配置hadoop_conf_dir或yarn_conf_dir(否则报错)
  • lib下放mysql驱动包,使用mysql做数据源
  • spark.yarn.jars或spark.yarn.archive需要配置,避免每次都上传jar包到集群

(6)参数

--jars 指定依赖包

 

(7)spark.yarn.jars配置

在spark-defaults.conf文件里添加下面参数,注意一定要写 /* ,不是 /(如果写/,会启动失败,具体如下图)

spark.yarn.jars hdfs://hd1:9000/jars/*


 

验证参数效果:启动 spark-sql --master yarn

<1>不设置这个参数,分析日志,发现会上传两个zip包,一个是conf,一个是libs

下载日志中的libs zip包hdfs://hd1:9000/user/root/.sparkStaging/application_1521429219577_0032/__spark_libs__2446030819495419882.zip 

本地解压后,查看目录里的jar包,和spark目录下的jars完全一致(210个包)


 

 

<2>设置这个参数,分析日志,只会上传一个conf的zip包(2.x版本和1.x版本配置后,日志的输出内容不太一样

 

  • 大小: 22.3 KB
  • 大小: 18.5 KB
  • 大小: 73.3 KB
  • 大小: 17.2 KB
  • 大小: 80.5 KB
  • 大小: 12.9 KB
  • 大小: 57.2 KB
  • 大小: 101.8 KB
  • 大小: 51.9 KB
  • 大小: 66.1 KB
  • 大小: 47.4 KB
分享到:
评论

相关推荐

    spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar

    - spark-3.1.2-bin-hadoop2.7.tgz:这个版本除了包含基本的Spark组件外,还集成了Hadoop 2.7的二进制依赖,方便在Hadoop集群上直接部署和运行Spark应用。 5. 安装与运行: - 解压:使用tar命令解压tgz文件,rar...

    spark-3.1.3-bin-without-hadoop.tgz

    这意味着在部署时,你需要自行配置Hadoop环境,或者在不依赖Hadoop的环境中运行Spark。 Spark的核心特性包括支持批处理、交互式查询(通过Spark SQL)、实时流处理(通过Spark Streaming)以及机器学习(通过MLlib...

    spark--bin-hadoop3-without-hive.tgz

    Spark是Apache软件基金会下的一个开源大数据处理框架,它以其高效的计算性能、易用性和灵活性而闻名。...要充分利用这个版本,理解Spark的基本概念和操作,以及如何在Hadoop环境中部署和管理Spark是至关重要的。

    spark-assembly-1.5.2-hadoop2.6.0.jar

    总结,Spark-assembly-1.5.2-hadoop2.6.0.jar是Spark生态系统的关键组成部分,它集成了所有必要的模块和依赖,使得Spark应用程序的开发和部署变得更加简单。无论是初学者还是经验丰富的开发者,理解这个组件的工作...

    spark-2.4.8-bin-hadoop2.7.tgz

    安装和配置Spark 2.4.8时,你需要根据你的环境调整配置文件,如`spark-env.sh`或`spark-defaults.conf`,以适应你的Hadoop集群或本地环境。在使用Spark时,你可以通过`spark-submit`命令提交应用程序,或者直接在...

    spark-2.3.0-bin-hadoop2-without-hive

    在大数据处理领域,Spark 和 Hive 是两个至关重要的工具。Spark 提供了高效的数据处理能力,而 Hive 则提供了基于 SQL 的数据查询和管理功能。然而,有时我们可能需要在不依赖 Hive JAR 包的情况下,使用 Spark 处理...

    spark-2.4.7-bin-hadoop2.6.tgz

    在部署和使用Spark时,需要根据实际需求配置`spark-defaults.conf`,设置如master节点地址、内存分配、日志级别等参数。此外,可以通过`spark-submit`脚本提交应用程序到Spark集群执行,或直接在Spark Shell中交互式...

    spark-3.1.2-bin-hadoop3.2.tgz

    在Linux环境下安装Spark 3.1.2涉及以下步骤: 1. 解压下载的`spark-3.1.2-bin-hadoop3.2.tgz`文件。 2. 配置环境变量,如`SPARK_HOME`和`PATH`,以便系统能够找到Spark二进制路径。 3. 可选配置,如修改`spark/conf/...

    spark-3.2.2-bin-3.0.0-cdh6.3.2

    内容概要:由于cdh6.3.2的spark版本为2.4.0,并且spark-sql被阉割,现基于cdh6.3.2,scala2.12.0,java1.8,maven3.6.3,,对spark-3.2.2源码进行编译 应用:该资源可用于cdh6.3.2集群配置spark客户端,用于spark-sql

    spark-2.2.2-bin-hadoop2.7.tgz

    在安装和部署Spark 2.2.2时,你需要设置环境变量,例如`SPARK_HOME`指向解压后的目录,并将`bin`路径添加到PATH中。如果你的环境已经配置了Hadoop,那么Spark可以自动与之交互;如果没有,你可能需要手动指定Hadoop...

    spark-3.0.0-bin-hadoop2.7.tgz

    总的来说,Spark-3.0.0-bin-hadoop2.7.tgz是一个全面的大数据处理解决方案,涵盖了从实时流处理到机器学习的各种需求,尤其适合那些已经部署了Hadoop 2.7环境的组织使用。无论是开发人员还是数据分析师,都能从中...

    spark-3.1.3-bin-hadoop3.2.tgz

    这个版本的Spark不仅提供了源码,还包含了预编译的二进制文件,使得在Linux环境下快速部署和使用Spark成为可能。 Spark 的核心特性在于它的弹性分布式数据集(Resilient Distributed Datasets,简称RDD),这是一种...

    spark-3.0.0-bin-hadoop3.2

    6. **Kubernetes原生支持**:Spark 3.0.0增强了对Kubernetes的原生支持,使用户能够更方便地在Kubernetes集群上部署和管理Spark作业。 7. **安全特性**:提供了更强大的安全特性,如加密通信、身份验证和授权,确保...

    spark-3.2.1-bin-hadoop2.7.tgz

    在Linux环境下,这样的打包方式方便用户下载、安装和运行Spark。 Spark的核心设计理念是快速数据处理,通过内存计算大幅度提高了数据处理速度,对比传统的MapReduce模型,Spark提供了更高的计算效率。在Spark 3.2.1...

    spark-3.2.0-bin-hadoop3.2.tgz

    4. **Kubernetes集成**:Spark 3.2.0增强了对Kubernetes的原生支持,可以更方便地在Kubernetes集群上部署和运行Spark作业。 5. **新功能**:引入了新的DataFrame API,如`explode`函数的改进,以及支持时间旅行...

    spark-3.1.2-bin-hadoop2.7.tgz

    Spark是Apache软件基金会下的一个开源大数据处理框架,以其高效、灵活和易用的特性而闻名。...对于运维人员来说,理解Spark的架构和组件,以及如何在Linux上部署和管理Spark,是提升大数据处理效率的关键。

    spark-3.2.0-bin-hadoop3-without-hive

    如果你的环境中已经部署了 Hive,可以单独安装 Spark 对 Hive 的支持,实现两者的协同工作。 在实际应用中,这个压缩包适合那些只需要 Spark 与 Hadoop 3 基础功能,而不需要 Hive 集成的场景。你可以通过解压这个...

    spark-2.4.7-bin-without-hadoop

    值得注意的是,随压缩包提供的"使用说明.txt"文件是引导用户正确部署和运行Spark的关键。这份文档通常会详细解释如何启动Spark的各个组件(如Master和Worker),如何提交作业,以及如何配置环境变量。务必仔细阅读并...

    spark-3.2.1 安装包 下载 hadoop3.2

    在安装Spark 3.2.1时,`spark-3.2.1-bin-hadoop3.2-scala2.13.tgz`这个压缩包包含所有必要的组件和依赖项。Scala 2.13是Spark的开发语言,因此需要匹配版本的JDK环境。解压后,你可以配置环境变量,如SPARK_HOME,...

    spark-assembly-1.5.2-hadoop2.6.0jar包

    总的来说,Spark-assembly-1.5.2-hadoop2.6.0.jar是开发和部署基于Spark的分布式大数据应用的关键组件,它的存在使得开发人员能够轻松地在Scala环境中利用Spark的强大功能。尽管随着Spark版本的更新,新的特性不断...

Global site tag (gtag.js) - Google Analytics