`

spark1.2.0版本搭建伪分布式环境

阅读更多

、下载scala2.11.5版本,下载地址为:http://www.scala-lang.org/download/2.11.5.html

2、安装和配置scala:

第一步:上传scala安装包 并解压



第二步 配置SCALA_HOME环境变量到bash_profile


第三步 source 使配置环境变量生效:


第四步 验证scala:


3、下载spark 1.2.0,具体下载地址:http://spark.apache.org/downloads.html

4、安装和配置spark:

第一步  解压spark:



第二步 配置SPARK_HOME环境变量:


 

第三步 使用source生效:


 

进入spark的conf目录:

第四步 修改slaves文件,首先打开该文件:



slaves修改后:


第五步 配置spark-env.sh

首先把spark-env.sh.template拷贝到spark-env.sh:


然后 打开“spark-env.sh”文件:


spark-env.sh文件修改后:


5、启动spark伪分布式帮查看信息:

第一步 先保证hadoop集群或者伪分布式启动成功,使用jps看下进程信息:


如果没有启动,进入hadoop的sbin目录执行 ./start-all.sh

第二步 启动spark:

进入spark的sbin目录下执行“start-all.sh”:


此刻 我们看到有新进程“Master” 和"Worker"

我们访问“http://master:8080/”,进如spark的web控制台页面:


从页面上可以看到一个Worker节点的信息。

 

我们进入spark的bin目录,使用“spark-shell”控制台:



通过访问"http://master:4040",进入spark-shell web控制台页面:


 

6、测试spark伪分布式:

我们使用之前上传到hdfs中的/data/test/README.txt文件进行mapreduce

取得hdfs文件:


对读取的文件进行一下操作:


 

使用collect命令提交并执行job:

readmeFile.collect


 

查看spark-shell web控制台:


 

states:


端口整理:

master端口是7077

master webui是8080

spark shell webui端口是4040

1
1
分享到:
评论

相关推荐

    Spark1.2.0单点或伪分布式安装总结.pdf

    综上所述,文档中涵盖了搭建Spark 1.2.0单点或伪分布式环境所需的关键知识点。从操作系统选择、Java环境配置、Scala安装、SSH配置、Hadoop安装到Spark安装,每个步骤都是环环相扣,缺一不可。在实际操作过程中,还应...

    spark安装文档

    以上就是在Ubuntu环境下搭建Spark基础框架的详细步骤,需要注意的是,根据实际的硬件资源和需求,可能还需要配置 slaves 文件、Hadoop 集群(如果使用分布式模式)以及其他相关的设置。安装完成后,用户就可以开始...

    Spark实验报告 (2).docx

    在这个实验报告中,我们将详细讨论如何在Linux环境中搭建Spark集群,以及进行基本的操作。 首先,为了运行Spark,我们需要安装Scala,因为Spark是用Scala编写的。在本例中,使用的Scala版本是2.11.4,可以从官方...

    Linux环境Hadoop2.6+Hbase1.2集群安装部署

    在构建大数据处理环境时,Linux环境下的Hadoop2.6+Hbase1.2集群安装部署是基础步骤,而Spark分布式集群的搭建则是提升数据处理效率的关键。这些技术的组合使用,可以为大规模数据处理提供高效、可靠的解决方案。 ...

    相关软件安装文档.docx

    本文档详细介绍了在Linux环境下搭建一套全面的大数据处理生态系统的过程,包括Hadoop、Zookeeper、Flume、Kafka、MySQL、Hive、Redis、Elasticsearch、RabbitMQ、HBase、Spark和Storm以及Azkaban等组件。 首先,...

    SparkR安装部署及数据分析实例

    至此,分布式SparkR的搭建已完成。 #### 二、SparkR的运行 ##### 2.1 SparkR的运行机制 SparkR是一个为Apache Spark设计的轻量级前端,它结合了Spark和R的优点。SparkR通过RShell提供了弹性分布式数据集(RDD)的...

Global site tag (gtag.js) - Google Analytics