`

spark standalone模式 zeppelin安装

阅读更多
1.  前置条件
None root account
Apache Maven
Java 1.7
2. 源码
   git clone https://github.com/apache/incubator-zeppelin
3. 编译
本地模式:mvn clean package -DskipTests
集群模式:  mvn clean package -Pspark-1.4 -Dspark.version=1.4.1 -Dhadoop.version=2.3.0-cdh5.1.0 -Phadoop-2.3 -DskipTests
 
在安装过程中 可能会出现各种问题,但是一般都是网络问题导致,但可重新执行下编译命令,如果编译出现oom,增加如下命令:
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m
 
但是在编译zeppelin-web模块 会遇到各种诡异的问题,web模块使用了node, grunt, bower工具
修改zeppelin-web项目的pom.xml
[html] view plaincopy
 
  1. <plugin>  
  2.         <groupId>com.github.eirslett</groupId>  
  3.         <artifactId>frontend-maven-plugin</artifactId>  
  4.         <version>0.0.23</version>  
  5.         <executions>  
  6.   
  7.   
  8.           <execution>  
  9.             <id>install node and npm</id>  
  10.             <goals>  
  11.               <goal>install-node-and-npm</goal>  
  12.             </goals>  
  13.             <configuration>  
  14.               <nodeVersion>v0.10.18</nodeVersion>  
  15.               <npmVersion>1.3.8</npmVersion>  
  16.             </configuration>  
  17.           </execution>  
  18.           <execution>  
  19.             <id>npm install</id>  
  20.             <goals>  
  21.               <goal>npm</goal>  
  22.             </goals>  
  23.           </execution>  
  24.   
  25.   
  26.           <execution>  
  27.             <id>bower install</id>  
  28.             <goals>  
  29.                 <goal>bower</goal>  
  30.             </goals>  
  31.             <configuration>  
  32.               <arguments>--allow-root install</arguments>  
  33.             </configuration>  
  34.           </execution>  
  35.   
  36.   
  37.           <execution>  
  38.             <id>grunt build</id>  
  39.             <goals>  
  40.                 <goal>grunt</goal>  
  41.             </goals>  
  42.             <configuration>  
  43.               <arguments>--no-color --force</arguments>  
  44.             </configuration>  
  45.           </execution>  
  46.         </executions>  
  47.     </plugin>  


 
有网友推荐我这样做,但感觉没啥效果
nodeVersion & npmVersion 版本分别改成v0.12.4,2.10.1,但我感觉用处不大
 
[html] view plaincopy
 
  1.    
  2. <configuration>  
  3.   <nodeVersion>v0.12.4</nodeVersion>  
  4.   <npmVersion>2.10.1</npmVersion>  
  5. </configuration>  
 
安装顺序: 
1. 首先需要提前安装好npm和node。 sudo apt-get install npm和npm install -g node。 
2. 进入zeppelin-web目录下,执行 npm install。它会根据package.json的描述安装一些grunt的组件,安装bower,然后再目录下生产一个node_modules目录。 
3. 执行 bower -–alow-root install,会根据bower.json安装前段库依赖,有点类似于java的mvn。见http://bower.io/ 
4. 执行 grunt –force,会根据Gruntfile.js整理web文件。 
5. 最好执行 mvn install -DskipTests,把web项目打包,在target目录下会生成war。


mvn可能会出错,因为web.xml不在默认路径下,需要在pom.xml里添加:

[html] view plaincopy
 
  1. <plugin>  
  2.         <groupId>org.apache.maven.plugins</groupId>  
  3.         <artifactId>maven-war-plugin</artifactId>  
  4.         <configuration>  
  5.           <webXml>app\WEB-INF\web.xml</webXml>  
  6.         </configuration>  
  7. </plugin>  


 
4. 配置
进入zeppelin_home/conf/
将 zeppelin-env.sh.template 修改为 zeppelin-env.sh
将 zeppelin-site.xml.template 修改为 zeppelin-site.xml


   编译zeppelin-site.xml文件,
zeppelin.server.port 端口改成8089
[html] view plaincopy
 
  1. <property>  
  2.   <name>zeppelin.server.port</name>  
  3.   <value>8089</value>  
  4.   <description>Server port. port+1 is used for web socket.</description>  
  5. </property>  




我现在使用伪分布式模式,所以就不修改 zeppelin-env.sh文件中 MASTER,使用默认配置,即为local模式
如果要是使用spark standalone 分布式模式,那就改成如下
export MASTER=spark://master:7077
 
5. 启动
 在zeppelin_home目录下执行如下命令:
bin/zeppelin-daemon.sh start
 
Pid dir doesn't exist, create /home/cluster/apps/incubator-zeppelin-0.5.0/run
Zeppelin start                                             [  OK  ]
 
启动成功~
 

可以在localhost:8089 访问到zepplin主页了。如果没有出主页,可以看浏览器console,是缺少了什么文件,八成是web项目打包的时候漏了,很可能是bower和grunt命令执行的时候缺少依赖出错的。
 
主界面:

 
 
    zeppelin home目录下会看到一个notebook文件夹,按notebook的名字命名区分了多个子目录。目录下是一个note.json文件,记录了每个notebook里输入的代码和执行结果,启动的时候会加载起来。
 
6.测试
  zeppelin为spark做了更好的支持,比如默认是scala环境,默认sc已经创建好,即spark local可跑,默认spark sql有可视化效果。
  
 
通过标识%md, %sh, %sql, %spark, %hive, %tajo来区分要执行的是什么,默认不写的话,执行环境是scala。在 http://127.0.0.1:8089/#/interpreter 页面里有详细的参数说明。
 
 
 
   
 简单测试下 %sh,scala,%spark
 
  
 好吧 ,先搞到这吧,稍后会有一篇 关于详细使用zeppelin 以及 zeppelin on yarn方式编译
 
尊重原创,拒绝转载
0
1
分享到:
评论

相关推荐

    Spark实验:Standalone模式安装部署(带答案)1

    【Spark Standalone模式安装部署详解】 Spark是一款快速、通用且可扩展的大数据处理框架,它提供了高效的批处理、交互式查询、流处理等多种计算模式。在Standalone模式下,Spark可以独立于任何分布式资源管理系统...

    Spark Standalone架构设计.docx

    Spark Standalone 架构设计 Spark 是一个开源的通用集群计算系统,提供了 High-...Spark 集群模式架构,如下图所示:Spark 集群 Cluster Manager 目前支持如下三种模式:Standalone 模式、YARN 模式和 Mesos 模式。

    Spark Standalone模式集成HDFS配置清单

    Spark Standalone模式集成HDFS配置清单,教你如何配置spark和hdfs平台。由于Linux的防火墙限制,初学者嫌麻烦可以关闭防火墙。

    springboot整合spark连接远程服务计算框架使用standAlone模式

    当需要在Spring Boot应用中整合Spark进行远程服务计算时,通常会采用Spark的Standalone模式。本文将深入探讨如何将Spring Boot与Spark集成,并使用Standalone模式来实现远程服务计算。 首先,我们需要了解Spark ...

    Spark Standalone 单机版部署

    Spark standalone 单机版部署,看了网上很多方法,事实证明都是错误的,本人亲身经历,在导师的指导下,成功配置成功单机版。

    spark 分布式集群搭建

    Spark Standalone 是 Apache Spark 提供的一种自带的集群管理模式,主要用于管理 Spark 应用程序的执行环境。这种模式简单易用,适合于开发测试以及中小型生产环境。 #### Spark Standalone 部署配置 ##### ...

    spark之Standalone模式部署配置详解

    Spark 之 Standalone 模式部署配置详解 Spark 是一个基于内存的集群计算引擎,它可以在多种模式下运行,包括本地模式、伪分布式模式、集群模式等。在这些模式中,Standalone 模式是 Spark 的自带模式,对于大多数...

    Spark的安装(Standalone模式,高可用模式,基于Yarn模式)

    spark的Standalone模式安装  一、安装流程 1、将spark-2.2.0-bin-hadoop2.7.tgz 上传到 /usr/local/spark/ 下,然后解压 2、进入到conf中修改名字 改为 .sh 结尾的 3、编辑 spark-env.sh 4、修改slaves 的...

    基于Akka模拟实现Spark Standalone.pdf

    ### 基于Akka模拟实现Spark Standalone #### 一、Akka介绍与核心概念 Akka 是一款采用Scala语言编写的库,主要用于简化在JVM平台上构建高并发、可伸缩且具备容错能力的应用程序的过程。它支持Java与Scala两种语言...

    独立部署模式standalone下spark的配置

    独立部署模式standalone下spark配置,从乌班图到jak,scala,hadoop,spark的安装 部署

    spark1.2.1常用模式部署运行

    此外,还安装了 Hadoop 2.6.0 并正确配置,以便在 on yarn 模式下运行 Spark。 Spark Shell Spark Shell 是Spark 的交互式 shell,一般用于开发和测试。使用 Spark Shell,可以快速地运行 Spark 应用程序,并且...

    spark在虚拟机的安装

    使用`pyspark --master spark://master:7077 --num-executors 1 --total-executor-cores 3 --executor-memory 512m`命令启动Spark Standalone模式下的pyspark。 6. **读取本地文件** 在pyspark中使用`sc.text...

    spark三种模式部署安装(基于Anaconda3实现spark编程)

    Spark支持三种主要的部署模式:Local模式、Standalone模式以及YARN模式。 ##### 1.1 Local模式 **Local模式**是最简单的部署方式,适用于开发测试环境。它不依赖任何集群管理工具,所有的计算都在单个节点上进行。...

    Spark环境搭建——standalone集群模式

    这篇博客,Alice为大家带来的是Spark集群环境搭建之——standalone集群模式。 文章目录集群角色介绍集群规划修改配置并分发启动和停止查看web界面测试 集群角色介绍  Spark是基于内存计算的大数据并行计算框架,...

    Spark的运行模式.xmind

    该资源主要是描述spark运行模式中的spark standalone模式和spark on yarn模式。详细内容可参见本人博客

    spark伪分布.docx

    Spark伪分布(Standalone)模式安装部署 在大数据处理中,Spark是非常流行的计算引擎,它可以快速处理大量数据。然而,为了让Spark正常运行,需要安装和部署Spark伪分布(Standalone)模式。在本文中,我们将介绍...

    nacos的 standalone模式启动bat

    startup_nacos_by_standalone.bat,windows下nacos的standalone模式启动

    内存计算框架Spark实战

    具体而言,Spark集群模式分为独立模式(Standalone)、YARN模式和Mesos模式。在这之中,独立模式(Standalone)是Spark自带的资源调度模式,它允许用户在没有任何外部依赖的情况下启动Spark集群。而在分布式模式节点...

    spark-2.0.1集群安装及编写例子提交任务

    本文将详细介绍如何在集群环境中安装Spark 2.0.1,并提供编写Spark应用程序的实例以及如何将任务提交到Spark Standalone集群。 首先,我们来看【spark集群安装.doc】。这份文档应该包含详细的Spark集群安装步骤。...

Global site tag (gtag.js) - Google Analytics