`
wsppstwo
  • 浏览: 14368 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

基于eclipse的spark开发环境搭建-python篇

阅读更多

软件版本说明

  1. java版本 :64位jdk-8u111-windows-x64.exe
  2. eclipse版本:64位scala-SDK-3.0.3-2.10-win32.win32.x86_64.zip
    下载地址:
  3. python版本:python2.7
    下载地址:https://www.python.org/downloads/windows/
  4. spark版本spark-1.6.0-bin-hadoop2.6
    下载地址:http://spark.apache.org/downloads.html
  5. hadoop版本hadoop-2.6.0
    下载地址:http://www.barik.net/archive/2015/01/19/172716/
  6. 操作系统版本WIN7

windows下python的安装

  1. 到https://www.python.org/downloads/windows/页面选择需要下载的python版本,我这里下载的是python2.7
  2. 安装python
  3. 将C:\Python27;C:\Python27\Scripts;添加到环境变量Path中
  4. 配置环境变量PYTHON_HOME:C:\Python27
  5. 配置环境变量PYTHON_EASY_HOME:C:\Python27\Scripts

windows下spark的安装

  1. 到http://spark.apache.org/downloads.html页面下载对应的spark版本,当前最新的spark版本2.1.0不支持windows的安装,因此这里我选择spark1.6.3版本进行安装
  2. 将下载spark-1.6.0-bin-hadoop2.6.tgz的压缩包,进行解压缩
  3. 将G:\java\software\spark-1.6.0-bin-hadoop2.6\bin添加到环境变量Path中去
  4. 配置环境变量SPARK_HOME G:\java\software\spark-1.6.0-bin-hadoop2.6
  5. 下载spark-1.6对应的hadoop-2.6,下载地址为http://www.barik.net/archive/2015/01/19/172716/
  6. 解压下载的hadoop-2.6.0.tar.gz
  7. 将G:\java\software\hadoop-2.6.0\bin添加到环境变量Path中去
  8. 创建HADOOP_HOME值为:G:\java\software\hadoop-2.6.0
  9. 将spark目录下的pyspark文件夹整个文件夹G:\java\software\spark-1.6.0-bin-hadoop2.6\python\pyspark拷贝到python安装目录C:\Python27\Lib\site-packages中
  10. 在cmd命令窗口运行pyspark,检查spark是否正常安装成功
  11. 在cmd命令行中运行pip install py4j安装相关库,如下图


     

eclipse安装pyDev插件

  1. 访问http://www.pydev.org/history_pydev.html页面去pydev的官网查看eclipse与pydev的版本对应信息,
  2. 访问http://www.pydev.org/download.html 页面获取对应pydev的在线安装的URL
  3. 当前eclipse为4.3,选择pyDev5.20进行安装,因此URL为http://www.pydev.org/update_sites/5.2.0/
  4. 打开eclipse,选择Help->Install New Software


     

     


    选择安装插件:这里不建议将“Contact all update sites during install to find required software”前面的勾去掉,以免造成插件缺少依赖的软件导致不能正常使用


     

     

     
  • 大小: 14 KB
  • 大小: 14.5 KB
  • 大小: 34.2 KB
  • 大小: 9.8 KB
  • 大小: 37.7 KB
  • 大小: 9.5 KB
  • 大小: 25.6 KB
  • 大小: 41 KB
分享到:
评论

相关推荐

    Spark入门基础--简介及环境搭建

    ## Spark开发环境搭建 在本地或开发环境中,通常使用集成开发环境(IDE)如IntelliJ IDEA或Eclipse,配合Scala、Java、Python或R语言进行Spark应用开发。以下是一般步骤: 1. **安装编程语言**: 根据选择的语言...

    老汤spark开发.zip

    在"老汤spark开发.zip"这个压缩包中,我们主要关注的是如何在Windows环境下搭建Spark开发环境,这对于想要入门或者深入学习Spark的开发者至关重要。 首先,Spark开发环境的搭建涉及以下几个关键步骤: 1. **安装...

    Spark项目计划书v1.0版2

    总结,本项目计划书详细规划了基于Spark的软件项目,涵盖了项目的目标、范围、预期交付物、开发环境、团队组织、实施计划等多个方面,旨在构建一个高效、稳定、易用的大数据处理平台,服务于企业的数据处理和分析...

    Spark 编程基础(Scala 版)-机房上机实验指南

    - **环境搭建**: - **安装Scala**:确保Scala版本与Spark兼容。 - **安装Spark**:下载并解压Spark二进制包,配置环境变量。 - **IDE支持**:推荐使用IntelliJ IDEA或Eclipse with the Scala plugin。 - **配置...

    Centos64位Linux版本的eclipse

    通过使用Xshell等工具,开发者可以在本地机器上与远程虚拟机进行交互,实现开发环境的搭建和维护。如果你是一位在CentOS上进行Java或Hadoop相关开发的程序员,这个Eclipse版本将是一个非常实用的工具。

    spark零基础入门线路指导

    官方文档和网络上有大量关于如何在Eclipse和IDEA中配置Spark开发环境的教程,这里不再赘述。 Spark开发过程中,编程语言是重中之重。虽然Spark支持多种编程语言,但其最核心的API是用Scala语言编写的。因此,如果你...

    spark-gradle-template:使用gradle在IDE中使用Apache Spark

    在标题和描述中提到的 "spark-gradle-template" 是一个使用 Gradle 配置 Apache Spark 项目的模板,它简化了在集成开发环境中(IDE)如 IntelliJ IDEA 或 Eclipse 中设置 Spark 项目的过程。通过这个模板,开发者...

    动力节点-Java基础视频教程

    2. **Java开发环境搭建** - JDK下载与安装 - JDK版本选择 - JDK安装步骤详解 - 配置环境变量 - JAVA_HOME设置 - Path路径配置 - 验证JDK安装 - 使用`java -version`命令验证 - 开发工具选择 - Eclipse简介...

    开源力量spark公开课的ppt

    7. **工具与实践**:可能涵盖开发环境的搭建,如IntelliJ IDEA或Eclipse的Spark插件,以及监控和调试工具,如Spark History Server和Spark UI的使用。 8. **案例研究**:可能包含一些实际应用案例,展示Spark在大...

    百度去BMR解决方案,百度云平台

    - 安装开发环境:如Java开发工具。 - 编写MapReduce程序:定义Map函数和Reduce函数。 **3.2.3 集群准备** - 创建BMR集群:通过百度云平台提供的工具创建集群。 - 配置集群参数:设置资源分配、网络配置等。 **...

    Hadoop应用开发技术详解

    - **Eclipse插件与IntelliJ IDEA支持**: 开发者可以使用这些集成开发环境(IDE)配合Hadoop插件进行便捷的开发。 - **Hadoop SDK与API**: 提供Java、Python、Perl等语言的SDK,方便开发者编写MapReduce程序。 3. ...

    大数据实训室方案建议书.zip

    3. 开发工具:安装如Eclipse、IntelliJ IDEA等开发环境,以及Hadoop、Spark、Flink等大数据处理框架的开发工具。 4. 数据可视化工具:如Tableau、PowerBI等,帮助学生将数据转化为直观的图表和仪表板。 5. 网络设备...

    「Linux」安全数据科学分享 - 业务风控.zip

    Linux提供了丰富的数据分析工具,如Python的Pandas库和R语言,以及大数据处理框架如Hadoop和Spark。通过机器学习算法,可以自动化地检测和预测风险,提高风险管理的效率和准确性。 五、基础架构安全 基础架构安全...

Global site tag (gtag.js) - Google Analytics