、下载scala2.11.5版本,下载地址为:http://www.scala-lang.org/download/2.11.5.html
2、安装和配置scala:
第一步:上传scala安装包 并解压
第二步 配置SCALA_HOME环境变量到bash_profile
第三步 source 使配置环境变量生效:
第四步 验证scala:
3、下载spark 1.2.0,具体下载地址:http://spark.apache.org/downloads.html
4、安装和配置spark:
第一步 解压spark:
第二步 配置SPARK_HOME环境变量:
第三步 使用source生效:
进入spark的conf目录:
第四步 修改slaves文件,首先打开该文件:
slaves修改后:
第五步 配置spark-env.sh
首先把spark-env.sh.template拷贝到spark-env.sh:
然后 打开“spark-env.sh”文件:
spark-env.sh文件修改后:
5、启动spark伪分布式帮查看信息:
第一步 先保证hadoop集群或者伪分布式启动成功,使用jps看下进程信息:
如果没有启动,进入hadoop的sbin目录执行 ./start-all.sh
第二步 启动spark:
进入spark的sbin目录下执行“start-all.sh”:
此刻 我们看到有新进程“Master” 和"Worker"
我们访问“http://master:8080/”,进如spark的web控制台页面:
从页面上可以看到一个Worker节点的信息。
我们进入spark的bin目录,使用“spark-shell”控制台:
通过访问"http://master:4040",进入spark-shell web控制台页面:
6、测试spark伪分布式:
我们使用之前上传到hdfs中的/data/test/README.txt文件进行mapreduce
取得hdfs文件:
对读取的文件进行一下操作:
使用collect命令提交并执行job:
readmeFile.collect
查看spark-shell web控制台:
states:
端口整理:
master端口是7077
master webui是8080
spark shell webui端口是4040
相关推荐
综上所述,文档中涵盖了搭建Spark 1.2.0单点或伪分布式环境所需的关键知识点。从操作系统选择、Java环境配置、Scala安装、SSH配置、Hadoop安装到Spark安装,每个步骤都是环环相扣,缺一不可。在实际操作过程中,还应...
以上就是在Ubuntu环境下搭建Spark基础框架的详细步骤,需要注意的是,根据实际的硬件资源和需求,可能还需要配置 slaves 文件、Hadoop 集群(如果使用分布式模式)以及其他相关的设置。安装完成后,用户就可以开始...
在这个实验报告中,我们将详细讨论如何在Linux环境中搭建Spark集群,以及进行基本的操作。 首先,为了运行Spark,我们需要安装Scala,因为Spark是用Scala编写的。在本例中,使用的Scala版本是2.11.4,可以从官方...
在构建大数据处理环境时,Linux环境下的Hadoop2.6+Hbase1.2集群安装部署是基础步骤,而Spark分布式集群的搭建则是提升数据处理效率的关键。这些技术的组合使用,可以为大规模数据处理提供高效、可靠的解决方案。 ...
本文档详细介绍了在Linux环境下搭建一套全面的大数据处理生态系统的过程,包括Hadoop、Zookeeper、Flume、Kafka、MySQL、Hive、Redis、Elasticsearch、RabbitMQ、HBase、Spark和Storm以及Azkaban等组件。 首先,...
至此,分布式SparkR的搭建已完成。 #### 二、SparkR的运行 ##### 2.1 SparkR的运行机制 SparkR是一个为Apache Spark设计的轻量级前端,它结合了Spark和R的优点。SparkR通过RShell提供了弹性分布式数据集(RDD)的...