`
greemranqq
  • 浏览: 977095 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类
最新评论
阅读更多

一.序言

     spark 现在用得比较多了,但是开始连接spark 的的时候有些小问题,这里简单记录一下,  我用的spark1.4.1  hadoop2.7 hive1.2.1, 目的想用spark-sql 连接 hive 的metastore,关于集群配置 这暂时不介绍了,例子很多,这里仅仅记录java/scala 连接部分。

 

二.连接配置

     2.1 maven 配置:

     

   <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.10</artifactId>
            <version>1.4.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>1.2.1</version>
        </dependency>
    </dependencies>

 

   2.2 java 连接

   

 public static final String master = "spark://master:7077";
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("demo").setMaster(master);
        JavaSparkContext sc = new JavaSparkContext(conf);
        System.out.println(sc);
        sc.stop();
    }

 

    基本上 获取到sc,就算连接成功了

 

3.连接问题:

    异常1:连接的时候控制台:

   

15/09/07 11:24:54 INFO ui.SparkUI: Started SparkUI at http://10.1.50.190:4040
15/09/07 11:24:54 INFO client.AppClient$ClientActor: Connecting to master akka.tcp://sparkMaster@master:7077/user/Master...
15/09/07 11:24:54 WARN remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@master:7077] has failed, address is now gated for [5000] ms. Reason is: [Disassociated].
15/09/07 11:25:14 INFO client.AppClient$ClientActor: Connecting to master akka.tcp://sparkMaster@master:7077/user/Master...
15/09/07 11:25:14 WARN remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@master:7077] has failed, address is now gated for [5000] ms. Reason is: [Disassociated].

    spark log 出现:

    

ERROR Remoting: org.apache.spark.deploy.Command; local class incompatible: stream classdesc serialVersionUID = -7098307370860582211, local class serialVersionUID = -3335312719467547622
java.io.InvalidClassException: org.apache.spark.deploy.Command; local class incompatible: stream classdesc serialVersionUID = -7098307370860582211, local class serialVersionUID = -3335312719467547622

   

    这个是连接到了服务器,但是class 不匹配,也就是版本不对,用spark-core_2.11 版本会出现这个异常,因为启动spark-shell 启动的的时候,info 信息表示用的scala-2.10.4 版本。

 

   异常二:

    

出现类似的:
scala.collection.immutable.HashSet$.empty()Lscala/collection/immutable/HashS

   这里也是因为我本例用的scala 2.11 的SDK,然后我换成了2.10 就好了

 

   异常三:

client.AppClient$ClientActor: Connecting to master akka.tcp://sparkMaster@10.10.1.1:7077/user/Master...

    一直连接不上spark,因为这里使用ip:10.1.1.1 进行连接,而spark_master_ip 配置是master 的映射,因此通过ip 他会找不到,要客户端配置10.1.1.1 master 映射,用master 连接 就行,这里有点怪- -!

 

   其他异常:

    还有包含防火墙,集群之间网络等问题,差不多 都是这些引起的。

 

小结:

      1.先保证集群之间连通,一般也是网络  防火墙 等问题造成的,我是直接关闭了 防火墙

      2.客户端连接 一般是网络  域名  版本造成的,要看日志

      3.日志 通过spark/conf/log.propertis 设置成debug 就能看到很详细的日志,如果没看到日志,那么说明客户端还没连接到服务器

      4.可以通过spark-shell --master spark://ip:7070  尝试连接,然后再通过客户端连接

   

    

0
2
分享到:
评论
1 楼 Carvendy许 2016-11-18  
16/11/18 16:21:17 ERROR SparkDeploySchedulerBackend: Application has been killed. Reason: All masters are unresponsive! Giving up.
16/11/18 16:21:17 ERROR TaskSchedulerImpl: Exiting due to error from cluster scheduler: All masters are unresponsive! Giving up.
16/11/18 16:21:17 WARN SparkDeploySchedulerBackend: Application ID is not initialized yet.

相关推荐

    spark笔记整理文档

    本篇笔记将深入探讨Spark的核心概念、架构设计以及实际应用,旨在帮助读者全面理解并掌握Spark。 1. Spark概述: Spark最初由加州大学伯克利分校AMPLab开发,其设计理念是提供一个快速、通用且可扩展的大数据处理...

    spark笔记.zip

    "Spark笔记"可能涵盖了以下几个关键知识点: 1. Spark架构:Spark采用Master-Worker模式,Master节点管理任务调度,Worker节点运行任务。Spark的核心组件包括Driver、Executor和Cluster Manager。Driver负责解析并...

    spark 笔记、学习笔记、资料

    而在集群环境中,通常使用`spark-submit`命令提交应用程序,并在那里指定主节点URL。 使用Spark的交互式shell,如Scala shell(`bin/spark-shell`)或Python shell(`bin/pyspark`),可以直接试验和运行Spark代码...

    笔记20230425关于spark-sql

    cmd = "ssh root@10.195.11.200 \"/usr/local/spark-3.1.2-bin-hadoop2.7/bin/spark-sql --master spark://gpmaster:7077 --executor-memory 2G --total-executor-cores 2 --conf spark.sql.storeAssignmentPolicy=...

    Spark-Core学习知识笔记整理

    Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark...

    spark-streaming-bench:spark-streaming-bench

    HDFSTopK 卡夫卡托普依赖库kafka-clients-0.8.2.1.jar kafka_2.10-0.8.2.1.jar 指标核心2.2.0.jar spark-assembly-1.3.0-hadoop2.4.0.jar spark-streaming-kafka_2.10-1.3.0.jar zkclient-0.3.jar笔记该脚本是硬编码...

    Spark笔记1

    根据“Spark笔记1”的描述,要在Hadoop集群上运行Spark任务,首先需要确保Spark能够正确识别到Hadoop集群。这通常涉及到一些环境变量的设置,例如: - `YARN_HOME`: 指定Hadoop的安装路径。 - `YARN_CONF_DIR`: 指定...

    大数据入门spark3.0入门到精通 1-8day 代码-笔记.zip

    2021贺岁大数据入门spark3.0入门到精通资源简介...共课程包含9个章节:Spark环境搭建,SparkCore,SparkStreaming,SparkSQL,StructuredStreaming,Spark综合案例,Spark多语言开发,Spark3.0新特性,Spark性能调优 。

    spark-cassandra-bulkloader:使用 spark 将数据上传到 cassandra 的测试应用程序

    spark-submit --master &lt;master&gt; --class uk.co.pinpointlabs.App --input &lt;path&gt; --host &lt;host&gt; --keyspace &lt;keyspace&gt; --table 使用 CqlBulkOutputFormat 使用 datastax cassandra 连接器(当前不起作用) ...

    spark 2 笔记

    通常情况下,不建议在程序中硬编码 `master` 参数,而是使用 `spark-submit` 脚本来启动应用程序,并在那里指定参数。 2. **使用 Shell** 在 Spark shell 中,已经预先创建了一个名为 `sc` 的特殊解释器感知型 ...

    spark学习笔记

    ### Spark学习笔记 #### Apache Spark简介 Apache Spark是一款专为大规模数据处理而设计的高性能、通用的计算引擎。它的核心特点在于提供了强大的内存计算能力,从而显著提升了数据处理的速度。Spark最初采用Scala...

    Spark笔记1.docx

    Spark笔记1.docx Spark 是什么? Spark 是一个基于内存的统一分析引擎,用于大规模数据处理,包括离线计算、实时计算和快速查询(交互式查询)。它具有快、易用和通用等特点,可以进行离线计算、交互式查询、实时...

    spark-scala-jupyter:Jupyter笔记本服务器,准备在远程Spark主服务器上运行带有Scala内核的Spark

    火花Scala朱比特 Jupyter笔记本服务器准备在远程Spark... image : flaviostutz/spark-scala-jupyter ports : - 8888:8888 - 6006:6006 # volumes: # - /notebooks:/notebooks environment : - JUPYTER_TOKEN=fla

    本地调试所需spark-x.x.x-bin-hadoop包

    在本地运行Spark应用程序,你可以使用Spark Shell(交互式 Scala shell)、PySpark(Python版本的shell)或者直接通过Java、Scala或Python编写Spark程序并使用spark-submit脚本提交。在调试过程中,注意监控日志输出...

    spark-notebook-demo:演示如何使用Spark笔记本

    接着,从项目源代码仓库克隆或下载 `spark-notebook-demo-master` 压缩包,并解压到本地。 启动 Spark Notebook,你可以通过命令行运行以下命令(假设 Spark Notebook 已经配置好): ```bash $ cd spark-notebook...

    dl4j-spark-ml-examples

    dl4j-spark-ml-examples 例子 该存储库包含将Deeplearning4j与Spark ML结合使用的示例。 笔记本电脑 基于Spark Notebook的许多示例: 使用深信度网络(Scala)演示虹膜分类 应用领域 许多独立的示例应用程序: ml....

    Spark学习笔记

    Spark学习笔记 Spark学习笔记 Spark学习笔记 Spark学习笔记

    Spark-SourceCode-Analysis:Apache Spark笔记本-spark source code

    Spark-SourceCode分析 Apache Spark笔记本作者:祁传宏军 Spark简介 Spark起源自科研院所,加州大学伯克利分校UC Berkeley的AMP实验室。该校在edx上开设了系列课程:)“使用Spark XSeries进行数据科学与工程”。 08...

Global site tag (gtag.js) - Google Analytics