`
xdlliutao
  • 浏览: 37983 次
  • 性别: Icon_minigender_2
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

Jupyter配置Spark开发环境

 
阅读更多
兄弟连大数据培训(www.lampbrother.net

)和大家一起探究Jupyter配置

Spark
开发环境

简介

  为Jupyter配置Spark开发环境,可以安装全家桶–Spark Kernel或Toree,也可按需安装相关组件。

  考虑到一般人更喜欢一步到位,并且Toree将会代替Spark Kernel,故直接且仅需安装Toree即可,不过下面还是给出了所有的安装方法。

  Spark Kernel的安装

  参照Spark Kernel支持的语言,安装好Spark Kernel后,其默认可以支持Scala,Python,R,SQL,对应的Spark实现分别是Scala with Spark,Python with PySpark,R With SparkR,Spark SQL。

  参照上述链接,要切换语言时,只需简单的在语句前面加上%%scala/%%pyspark即可。当然,什么都不加时,默认语言为Scala。

  另外,启动Jupyter后,可直接在http://localhost:4040/jobs/监控所有作业。

  Spark Kernel(旧的项目)

  参照下面的安装步骤进行即可,就是有些繁琐。

  Getting Started with theSpark Kernel

  Guide to Integrating theSpark Kernel with Jupyter

  Toree(新项目)

  根据Spark Kernel的介绍,自从Spark Kernel变成Apache的孵化项目后,其最新仓库已经 迁移到了incubator-toree。

  安装时,参照Quick Start What isApache Toree ,仅需两条命令即可完成安装。

  pip install toree

  jupyter toree install--spark_home=your-spark-home12

  值得注意的是:

  Toree虽然还在孵化中,但已经能完成上述Spark Kernel的全部功能,即可支持PySpark,Spark SQL等。

  该kernel安装在/usr/local/share/jupyter/kernels/apache_toree_scala目录下

  Spark组件单独安装

  除了安装上面的方法安装Spark的全家桶外,还可以按需对各组件进行安装。

  Scala Kernel的安装

  参照jupyter-scala安装即可。

  PySpark的安装

  PySpark: How to install andIntegrate with the Jupyter Notebook

  Integrate Apache Spark withlatest IPython Notebook (Jupyter 4.x)

  Running Spark ApplicationsUsing IPython and Jupyter Notebooks


分享到:
评论

相关推荐

    Jupyter notebook运行Spark+Scala教程

    标题中提到的是使用 Jupyter Notebook 运行 Spark+Scala 教程,这意味着我们将使用 Jupyter Notebook 作为开发环境,来编写和运行 Spark+Scala 代码。 描述:主要介绍了 Jupyter Notebook 运行 Spark+Scala 教程,...

    jupyter-Scala_2.11.11_kernel_Windows.zip

    如果Jupyter Notebook无法找到对应的Scala环境,可能需要设置环境变量或者修改内核配置文件中的路径信息。 此外,对于大数据处理,Scala常常与Apache Spark结合使用。如果你计划在Jupyter Notebook中进行Spark编程...

    spark-jupyter-docker:轻松设置带有PySpark集群的Jupyter Notebook游乐场

    此存储库可以轻松地使用PySpark集群(使用 )设置Jupyter Notebook,仅用于单个主机上的操场或开发环境。 默认情况下,jupyter容器映像包括: 大熊猫 麻木 科学的 scikit学习 matplotlib 张量流 张量流公园 您...

    Windows本地pyspark环境搭载_spark环境搭载.doc

    在Windows系统上搭建本地Pyspark开发环境是一个重要的步骤,特别是对于那些希望在数据分析和机器学习项目中使用Apache Spark的用户。以下是一个详细的步骤指南,包括配置Java、Scala、Spark、Hadoop以及整合Anaconda...

    在虚拟机中安装anaconda

    ### 在虚拟机中安装Anaconda并配置Spark集群下的Python开发环境 #### 一、安装Anaconda 在虚拟机环境中安装Anaconda是进行大数据处理及数据分析的重要步骤之一,尤其是在需要使用Python进行Spark集群开发的情况下。...

    ansible-kubernetes集群:在Kubernetes集群上部署Kubernetes,JupyterHub,Jupyter Enterprise Gateway和Spark的Ansible角色

    5. **部署Spark on Kubernetes**:利用Kubernetes的Spark Operator或Helm图表安装Spark,配置Spark作业提交、调度和监控。 6. **Elyra**:可能还涉及Elyra,这是一个开源项目,提供了JupyterLab的扩展,用于提升...

    300页PPT讲述Spark DevOps进阶技巧

    从PPT的标签来看,本课程的核心焦点是Spark DevOps,这代表了利用DevOps方法学在Apache Spark环境中进行开发、部署和运维的一系列实践。DevOps是一个将软件开发人员(Dev)和IT运维人员(Ops)的工作协同化,以加快...

    spark-standalone-cluster-on-docker:通过在Docker上使用JupyterLab接口构建自己的集群,学习Scala,Python(PySpark)和R(SparkR)中的Apache Spark

    在本项目中,"spark-standalone-cluster-on-docker" 提供了一种高效且便捷的方式来在Docker环境中搭建Apache Spark的独立集群,并结合JupyterLab接口进行多语言编程,包括Scala、Python(PySpark)和R(SparkR)。...

    Learning Apache Spark with Python.pdf

    在设置开发环境时,可选择使用文本编辑器或集成开发环境(IDE),如PyCharm或Jupyter Notebook。PySparkling Water是结合了Apache Spark和H2O框架的工具,它能方便地将H2O的机器学习功能集成到Spark的生态系统中。 ...

    Spark生态和安装部署

    4. 配置环境变量:将Spark的安装路径添加到系统环境变量中,以便能够从任何地方运行Spark。 5. 启动Spark:按照不同的部署模式启动Spark集群。 关于Spark的实用工具,有许多第三方工具可以和Spark配合使用,比如...

    spark三种模式部署安装(基于Anaconda3实现spark编程)

    **Local模式**是最简单的部署方式,适用于开发测试环境。它不依赖任何集群管理工具,所有的计算都在单个节点上进行。Local模式又可以细分为几种不同的启动方式: - **local**: 默认启动方式,表示使用单个线程在...

    pyspark_notes:Jupyter Notebook的Spark简介

    Pyspark是Python编程语言与Spark接口的结合,使得数据科学家和分析师能够在Python环境中轻松地使用Spark功能。本篇文章将探讨如何在Jupyter Notebook中设置和使用Pyspark。 **Jupyter Notebook与Pyspark的结合** ...

    Linux下远程连接Jupyter+pyspark部署教程

    接着,编辑Jupyter配置文件`jupyter_notebook_config.py`,设置`c.NotebookApp.ip='0.0.0.0'`使其监听所有IP地址,`c.NotebookApp.password`设置为之前生成的密码哈希,`c.NotebookApp.open_browser=False`防止在...

    Linux下搭建Spark 的 Python 编程环境的方法

    在Linux系统中搭建Spark的Python...以上就是在Linux环境下搭建Spark的Python编程环境的详细步骤,以及在Jupyter中使用PySpark的方法。通过这些步骤,你可以顺利地开始Spark与Python的结合开发,进行大数据处理和分析。

    Spark AI Summit Europe 2018 全部PPT - part1

    10. **社区贡献与工具**:介绍Spark社区的发展,鼓励参会者参与到开源项目中,同时提及一些辅助开发和管理Spark应用的工具,如Spark JobServer、Zeppelin和Jupyter Notebook等。 通过Spark AI Summit Europe 2018的...

    Spark项目计划书v1.0版2

    总结,本项目计划书详细规划了基于Spark的软件项目,涵盖了项目的目标、范围、预期交付物、开发环境、团队组织、实施计划等多个方面,旨在构建一个高效、稳定、易用的大数据处理平台,服务于企业的数据处理和分析...

    spark程序

    5. **交互式数据分析**:Spark的Shark和Spark Notebook(例如Jupyter with PySpark)提供了交互式的SQL和Python编程环境,方便数据探索和验证。 了解这些基本概念和技术后,开发者可以构建复杂的Spark应用程序,...

    基于Spark框架的新闻网大数据实时分析可视化系统项目.zip

    在实际操作中,开发者需要设置和配置Hadoop或HDFS环境来存储和读取大数据,以及配置Spark集群以实现分布式计算。同时,还需要编写Python或Scala代码来实现上述功能,并利用Jupyter Notebook或IntelliJ IDEA等开发...

    spark-notebook-demo:演示如何使用Spark笔记本

    Spark Notebook 是一个基于 Jupyter Notebook 的交互式环境,专为 Apache Spark 设计,提供了一个高效、易用的平台,用于数据科学家和开发人员进行数据探索、建模和可视化。在本教程中,我们将深入探讨如何利用 ...

Global site tag (gtag.js) - Google Analytics