`
nxw_tsp
  • 浏览: 18681 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

大数据时代--windows下spark的安装与配置教程

 
阅读更多
 Spark作为一个基于内存的开源计算框架,在这个大数据时代背景下,受到越来越多的开发者的喜爱,相对于Hadoop,Spark拥有对大量数据更快的处理速度,并且易于使用(支持多种开发语言)。比Hadoop具有更多的优点,怎能不让人想去尝试一下Spark的魅力呢?
 了解Spark的都知道Spark是用Scala写的,那么要想在windows下来运行Spark少不了的就要先安装Scala。
首先的在一个大前提下就是我们本机已经安装并配置好JDk环境变量了。
那么,我们就可以安装Scala了

一、安装Scala
下载地址:http://www.scala-lang.org/download/all.html

这里写图片描述

进入页面后选择一个Scala版本进行下载,我选择的是Scala2.12.0版本。特别注意的是看帖子又的说Scala版本与Spark版本之间是有一定关联的,比如说你的Scala版本是2.12.0,那么就应该下载Spark版本为从1.3.0到Spark 1.6.2之间的各个版本。这种说法不知道准不准确,但是还是注意一下比较好。
Scala安装好之后呢,它会自动在环境变量PATH里面配置。我们不需要进行手动配置了。下面就打开cmd输入Scala看下安装后控制台的输出效果。这里写图片描述
如果出现一下信息,那么就证明Scala已经安装成功了。
需要注意的是:如果在控制台输入scala之后输出没有出现版本信息,那么就需要你手动替换掉安装Scala时自动配置的变量。

既然Scala已经安装成功了, 那么我们就可以继续安装我们的主角Spark了
二、安装Spark
同样的我会附上Spark下载地址:http://spark.apache.org/downloads.html
这里写图片描述
这里引用了别人的一张图片,因为公司网络有限制,导致访问页面布局错误,所以网上找了一张图片来给大家展示一下。

那么,当我们下载好之后,Spark是不需要进行安装的,直接解压到Spark目录,然后配置一下Path环境变量就可以了
这里写图片描述
我的Spark目录为E:\spark\bin
下面我们来验证一下看spark是否能正常启动。
在控制台输入一下命令:spark-shell
注意spark-shell之间是没有空格的,千万不要输错了。
情况看图片
这里写图片描述
到这里就说明我们的准备工作已经做完了吗?显然不是,虽然控制台已经输出了Spark信息,但是并不是已经完全ok的,等待10秒钟左右控制台会继续输出信息。如下
这里写图片描述
看到图中报错信息是不是快要崩溃了?别着急,听我慢慢道来
这里主要是因为Spark是基于Hadoop的,所以这里也有必要配置一个Hadoop的运行环境。
三、Hadoop下载
地址:https://archive.apache.org/dist/hadoop/common/
进去之后尽量往下翻,越是下面的版本越新。
这里写图片描述
由于我们之前选择下载spark的时候是基于Hadoop2.6版本的,所以我这里选择的是hadoop2.6.4版本
下载完毕后我们直接解压,解压完毕后开始设置我们的环境变量
需要设置的变量有
HADOOP_HOME:E:\hadoop-2.6.4 (解压目录)
PATH:E:\hadoop-2.6.4\bin
上诉内容都准备好之后再次重新打开控制台输入spark-shell如果还有以上错误日志,那么请找到你的hadoop\bin目录找下里面有没有winutils.exe文件,如果没有的话,我们需要去下载。
winutils.exe下载地址https://github.com/steveloughran/winutils
进入目录后找到你相应的hadoop目录–进入bin—找到winutils.exe文件下载。下载好之后我们把它放到E:\hadoop-2.6.4\bin 里面,确保该目录中有winutils.exe文件。

这里写图片描述

那么下面就需要在控制台输入一下命令来修改权限

E:\hadoop-2.6.4\bin\winutils.exe chmod 777 /tmp/hive

注意该命令需要根据你实际的hadoop所在目录。
好了,经过这么多的准备工作,我想我们的spark到此已经安装完毕了。下面我们重新打开一个控制台窗口输入spark-shell看下结果吧。
这里写图片描述
这里写图片描述
如果你看到上诉两图所圈住的日志信息,那么,恭喜您,spark已经安装成功了!

<script type="text/javascript"> $(function () { $('pre.prettyprint code').each(function () { var lines = $(this).text().split('\n').length; var $numbering = $('<ul/>').addClass('pre-numbering').hide(); $(this).addClass('has-numbering').parent().append($numbering); for (i = 1; i <= lines; i++) { $numbering.append($('<li/>').text(i)); }; $numbering.fadeIn(1700); }); }); </script>
分享到:
评论

相关推荐

    大数据-- Apache Spark Semi-Structured data

    ### 大数据与Apache Spark处理半结构化数据 在当今的大数据时代,处理各种类型的数据变得至关重要。数据的种类繁多,从结构化的数据库到完全无结构化的文本、媒体文件等,都对数据管理和分析提出了挑战。Apache ...

    大数据组件-监控-spark-driver/executor性能的prometheus-grafana模板插件

    大数据组件-监控-spark-driver/executor性能的prometheus-grafana模板插件

    大数据--Apache Spark

    ### 大数据——Apache Spark 入门知识 在当今信息化高度发达的时代,数据量的爆炸性增长已经成为一种常态。随着互联网、移动设备、科学实验等各个领域的数据不断涌现,如何高效处理这些海量数据成为了亟待解决的...

    大数据--Apache Spark实用详解

    ### 大数据与Apache Spark实用详解 在当前的数据驱动时代,大数据已经成为企业成功的关键因素之一。随着数据量的不断增长,传统的数据处理方法已经无法满足需求。为了应对这些挑战,分布式计算框架应运而生,其中...

    大数据--Apache Spark编程详解

    ### 大数据——Apache Spark编程详解 #### 一、引言与背景介绍 在当今数字化时代,随着数据量的爆炸性增长,如何高效地处理这些海量数据成为了企业和研究机构面临的一项重大挑战。Apache Spark作为一款开源的大...

    完整版大数据课件集合12-大数据导论-第十二章-Spark(共22页).ppt

    通过集成DataFrame,Spark SQL将SQL查询与Spark的其他组件无缝对接,提升了数据分析的灵活性。 【Spark的部署和应用方式】 Spark的部署方式多样,可以根据应用场景选择合适的模式。在独立模式下,Spark可以自成...

    大数据与云计算基础入门教程 大数据技术知识系列教程大数据导论 全部PPT课件资源 共12个章节.rar

    【课程简介】 本课程适合所有需要学习大数据技术知识的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 【全部课程列表】 1-大数据导论-第一章-大数据概述...12-大数据导论-第十二章-Spark(共22页).ppt

    大数据hadoop-spark-storm全套视频教程

    大数据全套视频教程。linux,hadoop,spark,storm,hive,flume,oozie,,hbase,zookeeper,mysql,mongodb,redis,多个项目实践等等,应有尽有。

    大数据---电商数据分析.zip

    在当前的数字化时代,大数据已经成为了企业决策的重要驱动力,特别是在电商行业中,通过对海量数据的分析,企业可以深入了解消费者行为,优化运营策略,提高销售额。本资料包“大数据---电商数据分析.zip”似乎是一...

    大数据实验报告Windows环境下安装Spark及RDD编程和Spark编程实现wordcount.doc

    大数据实验报告 Windows 环境下安装 Spark 及 RDD 编程和 Spark 编程实现 wordcount 本实验报告主要介绍了在 Windows 环境下安装 Spark 及 RDD 编程和 Spark 编程实现 wordcount 的步骤和过程。实验中首先安装了 ...

    基于HBase和SimHash的大数据K-近邻算法简

    针对大数据K-近邻(K-nearest neighbors,K-NN)...与基于MapReduce的K-NN和基于Spark的K-NN在运行时间和测试精度两方面进行试验比较。试验结果显示,在保持分类能力的前提下,提出的算法的运行时间远远低于其他两种方法。

    spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar

    - 配置:根据环境修改conf目录下的配置文件,如`spark-defaults.conf`和`spark-env.sh`。 - 启动:启动Spark的Master和Worker节点,准备运行任务。 - 运行应用:使用Spark Shell或提交Spark应用程序到集群执行。 ...

    最全面的大数据Spark-Core实战案例数据集

    对于大数据Spark-Core的实战案例数据集,全面性和具体性可能因不同的应用场景、业务需求和数据源而异。然而,我可以为你提供一个概述和一些常见的实战案例数据集的示例,以帮助你理解其可能的应用范围。 Spark-Core...

    大数据开发--hadoop全套学习课程--百度网盘

    这个压缩包中的学习资料和视频将帮助你理解这些工具的工作原理、安装配置、操作使用以及最佳实践。通过深入学习,你将能够掌握如何利用这些技术处理和分析大数据,从而在大数据解决方案的设计和实施中发挥关键作用。

    大数据-电商用户行为分析大数据平台-数据分析.zip

    在当前的数字化时代,大数据已经成为了企业决策的重要支撑,特别是在电商行业中。"大数据-电商用户行为分析大数据平台-数据分析.zip"这个压缩包文件显然聚焦于如何利用大数据技术来理解和洞察电商用户的购买行为,以...

    Spark_SQL大数据实例开发教程.pdf by Spark_SQL大数据实例开发教程.pdf (z-lib.org)1

    《Spark SQL大数据实例开发教程》是一本专注于Spark SQL学习的指南,由王家林和祝茂农等人编著。本书旨在帮助企业级开发人员深入理解和掌握Spark SQL,它在Spark生态系统中扮演着至关重要的角色,是处理大规模数据的...

    大数据最新spark-pdf链接

    大数据最新spark-pdf链接大数据最新spark-pdf链接大数据最新spark-pdf链接

    46488-Spark大数据技术与应用(1-3).pdf

    大数据时代的来临,使得高效处理海量数据的需求不断增长,Apache Spark凭借其卓越的性能和丰富的生态系统成为大数据处理领域的首选技术。本文将详细介绍Spark的技术架构、编程模型、生态系统组件、性能优化以及集群...

    厦门大学林子雨老师主讲大数据教程.rar

    Chapter10--大数据技术原理与应用-第10讲-Spark.pdf Chapter11--大数据技术原理与应用-第11讲-流计算.pdf Chapter12--大数据技术原理与应用-第12讲-图计算.pdf Chapter13--大数据技术原理与应用-第13讲-大数据在不同...

Global site tag (gtag.js) - Google Analytics