`
smarthhl
  • 浏览: 28785 次
社区版块
存档分类
最新评论

hive on spark的安装及问题

阅读更多

配置hive

hive-site

<property>

   <name>hive.metastore.uris</name>

   <value>thrift://database:9083</value>

</property> 

<property>

   <name>hive.metastore.client.socket.timeout</name>

   <!--<value>600s</value>-->

    <value>600</value>

</property>

把hive-site.xml 放到spark/conf目录下

 

Mysql驱动放到spark/lib目录下

 

启动:hive --service metastore

 

配置spark

 

Slaves

spark04
spark02

 

Spark-env.sh

SPARK_MASTER_IP=spark02

JAVA_HOME=/usr/local/jdk1.7.0_75

SPAKR_HIVE=true

HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/hadoop

spark-defaults.conf

# Default system properties included when running spark-submit.
# This is useful for setting default environmental settings.

# Example:
# spark.master                     spark://master:7077
spark.eventLog.enabled           true
#spark.eventLog.dir               hdfs://mycluster:8021/spark/logs/events
# spark.eventLog.dir               hdfs://namenode:8021/directory
# spark.serializer                 org.apache.spark.serializer.KryoSerializer
# spark.driver.memory              5g
# spark.executor.extraJavaOptions  -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

 

Scp到其它机器上

 

测试spark-hive

spark-shell--master spark://spark02:7077

valsqlContext = new org.apache.spark.sql.hive.HiveContext(sc);

sqlContext.sql("selectcount(*) from ods_app.dev_location").collect().foreach(println);

相关问题

 

1、hive metastore 问题

java.lang.RuntimeException: Unable to instantiateorg.apache.hadoop.hive.metastore.HiveMetaStoreClient

解决方法:

在hive-site.xml配置hive.metastore.uris,并启动hive metastore

<property>

   <name>hive.metastore.uris</name>

   <value>thrift://database:9083</value>

</property>



2、Ha mycluster的问题

java.lang.IllegalArgumentException:java.net.UnknownHostException: mycluster

解决方法:

在spark-env.sh,配置HADOOP_CONF_DIR

HADOOP_CONF_DIR=/usr/local/hadoop-2.6.0/etc/hadoop




分享到:
评论

相关推荐

    Hive on Spark源码分析DOC

    Hive on Spark源码分析 Hive on Spark 源码分析是指将 Hive 默认的执行...通过对 Hive on Spark 的源码分析,我们可以更好地理解 Hive on Spark 的运行机理和实现原理,从而更好地应用 Hive on Spark 解决实际问题。

    基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

    ### 基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优 #### 概述 随着大数据技术的发展,Hadoop生态系统不断成熟与完善,其中Apache Hive作为数据仓库工具,支持通过SQL语句进行查询、分析存储在Hadoop文件系统...

    Hive on Spark EXPLAIN statement

    Hive on Spark EXPLAIN statement : 讲述了 Common Join / Map join / Bucket Map Join / Sorted Merge Bucket Map Join / skew join 在explain 中的 树结构 。In Hive, command EXPLAIN can be used to show the ...

    spark2.0编译版-适用于hive2.3的hive on spark

    这是因为Hive on Spark模式下,Spark作为Hive的执行引擎,但为了避免版本冲突和依赖问题,需要独立编译Spark,不包含Hive的内置库。 首先,Hive on Spark的目的是利用Spark的分布式计算能力来加速HQL(Hive查询语言...

    Hive on Spark安装配置详解.pdf

    《Hive on Spark安装配置详解》 在大数据处理领域,Hive作为一个基于Hadoop的数据仓库工具,常用于大规模数据集的查询和分析。然而,Hive默认使用MapReduce作为执行引擎,由于MapReduce的磁盘I/O特性,其性能相对较...

    hive on spark mr 数据开发常见问题解决

    在Hive on Spark MR(MapReduce)数据开发中,开发者经常遇到各种问题,这些问题往往阻碍了工作效率。以下是一些常见的问题及其解决方案: 1. **Shuffle in Fetcher#6 错误** 当Hive作业处理大数据量时,可能会...

    大数据Spark纯净版安装包,用于快速集成Hive on Spark

    Spark纯净版安装包是一个用于安装Apache Spark的软件包,该软件包提供了Spark的基本功能和组件,但不包含任何额外的扩展或依赖项。纯净版安装包旨在提供一个轻量级、简单易用的Spark安装选项,适用于用户希望快速...

    Hive on Spark实施笔记1

    《Hive on Spark实施详解》 ...总之,Hive on Spark的实施涉及多个步骤,包括编译、安装、配置和测试。通过遵循上述步骤,可以在Ubuntu环境下成功搭建和运行Hive on Spark,从而提升大数据处理的效率。

    hive3.x编译spark3.x包

    在IT行业中,Hive和Spark是两个非常重要的大数据处理框架。Hive主要提供了一种基于Hadoop的数据仓库工具,使得用户...此外,对于大规模集群,还需要考虑性能优化和资源管理策略,以确保高效稳定地运行Hive on Spark。

    Spark不能使用hive自定义函数.doc

    ### Spark与Hive自定义函数兼容性问题解析 在大数据处理领域,Apache Spark 和 Apache Hive 都是非常重要的工具。Spark 是一种快速通用的大规模数据处理系统,而Hive 则是一种数据仓库工具,主要用于对存储在 ...

    hive-spark-client-3.1.2.jar

    hive-on-spark客户端

    Hive on Spark 离线数仓生成的原始数据

    在大数据处理领域,Hive on Spark 是一种将 Apache Hive 的执行引擎替换为 Apache Spark 的解决方案,从而提升数据处理性能和效率。Hive 提供了一种SQL-like 的查询语言(HQL)来操作大规模数据,而Spark则是一个...

    Hive3.1.2编译源码

    使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高...

    win10下搭建Hadoop环境(jdk+mysql+hadoop+scala+hive+spark) 3.docx

    Hadoop 2.8.4的安装包括下载解压、替换`hadooponwindows-master`文件、配置环境变量以及配置Hadoop的配置文件如`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`和`mapred-site.xml`。在这些文件中指定HDFS的名称...

    spark-2.3.1-bin-hadoop2-without-hive.tgz

    这意味着它没有集成Hive Metastore服务,因此不能直接用于执行Hive查询,但可以作为基础来实现Hive on Spark的配置。 在Hadoop 2.x环境中运行Spark,需要确保Spark与Hadoop之间的版本兼容性。Hadoop 2.x引入了YARN...

    spark--bin-hadoop3-without-hive.tgz

    Hive on Spark是Hive的一种执行引擎选项,它允许用户利用Spark的计算能力来执行HQL(Hive查询语言)查询。这样做的好处在于,相比使用默认的MapReduce执行引擎,Hive on Spark可以提供更快的查询速度和更低的延迟,...

    【hive on spark Error】return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask.

    当我提个任务(spark on yarn)并且看到并发及资源的分配情况正如自己先前所料的时候,我长舒了一口气,端起杯子拿上手机起身打算去接杯水消遣一下。 然而我一杯温水接完凑在嘴边,眼睛扫了一下手机刚打算痛饮一番的...

    spark-2.3.0-bin-hadoop2-without-hive

    Hive on Spark 是一种将 Hive 查询引擎替换为 Spark 的方式,这样可以利用 Spark 的高性能计算能力进行大规模数据处理。尽管此版本的 Spark 没有内置 Hive JAR,但我们仍然可以通过配置来实现 Hive on Spark。用户...

    apache-hive-3.1.2-bin.tar.gz

    Apache Hive 是一个基于Hadoop的数据仓库工具,它允许用SQL-like查询语言(称为HQL)对存储在Hadoop分布式文件系统(HDFS)中的大量数据进行处理和分析...同时,确保Hadoop、Spark和Hive的版本兼容性,避免潜在的问题。

    项目实战——Spark将Hive表的数据写入ElasticSearch(Java版本)

    在本项目实战中,我们将探讨如何使用Java编程语言,结合Spark和Hive,将Hive中的数据高效地导入到ElasticSearch(ES)中,并利用ES的别名机制实现数据更新的平滑过渡。以下是对这个流程的详细解析: 1. **Hive数据...

Global site tag (gtag.js) - Google Analytics