基于eclipse的spark开发环境搭建-python篇

wsppstwo

明兜3号

czmmiao

luojianbing

huhanyu

博客

微博

相册

留言

关于我

博客分类：

软件版本说明

windows下python的安装

windows下spark的安装

到http://spark.apache.org/downloads.html页面下载对应的spark版本，当前最新的spark版本2.1.0不支持windows的安装，因此这里我选择spark1.6.3版本进行安装
将下载spark-1.6.0-bin-hadoop2.6.tgz的压缩包，进行解压缩
将G:\java\software\spark-1.6.0-bin-hadoop2.6\bin添加到环境变量Path中去
配置环境变量SPARK_HOME G:\java\software\spark-1.6.0-bin-hadoop2.6
下载spark-1.6对应的hadoop-2.6,下载地址为http://www.barik.net/archive/2015/01/19/172716/
解压下载的hadoop-2.6.0.tar.gz
将G:\java\software\hadoop-2.6.0\bin添加到环境变量Path中去
创建HADOOP_HOME值为:G:\java\software\hadoop-2.6.0
将spark目录下的pyspark文件夹整个文件夹G:\java\software\spark-1.6.0-bin-hadoop2.6\python\pyspark拷贝到python安装目录C:\Python27\Lib\site-packages中
在cmd命令窗口运行pyspark,检查spark是否正常安装成功
在cmd命令行中运行pip install py4j安装相关库,如下图

eclipse安装pyDev插件

访问http://www.pydev.org/history_pydev.html页面去pydev的官网查看eclipse与pydev的版本对应信息，
访问http://www.pydev.org/download.html 页面获取对应pydev的在线安装的URL
当前eclipse为4.3,选择pyDev5.20进行安装，因此URL为http://www.pydev.org/update_sites/5.2.0/
打开eclipse,选择Help->Install New Software

选择安装插件:这里不建议将“Contact all update sites during install to find required software”前面的勾去掉，以免造成插件缺少依赖的软件导致不能正常使用