`
qindongliang1922
  • 浏览: 2188504 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117660
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:126069
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:60017
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71398
社区版块
存档分类
最新评论

hive on spark 测试

阅读更多

基础环境:

Apache Hadoop2.7.1
Centos6.5
Apache Hadoop2.7.1
Apache Hbase0.98.12
Apache Hive1.2.1
Apache Tez0.7.0
Apache Pig0.15.0
Apache oozie4.2.0
Apache Spark1.6.0
Cloudrea Hue3.8.1



经测试,spark1.6.0和spark1.5.x集成hive on spark有问题,
相关链接:http://apache-spark-user-list.1001560.n3.nabble.com/Issue-with-spark-on-hive-td25372.html

所以只能下载spark-1.4.1然后执行如下命令,重新编译:

dev/change-scala-version.sh 2.11
mvn -Pyarn -Phadoop-2.7.1 -Dscala-2.11 -DskipTests clean package

编译完成后,拷贝ssembly/target/scala-2.11/spark-assembly-1.4.1-hadoop2.7.1.jar 到hive的lib目录下
即可,
然后启动hive:
set hive.execution.engine=spark;
执行一个查询:









可以执行没有问题,但在测试hive关联hbase表使用spark模式运行的时候,会出现一个异常,spark的kvro序列化总是找不到hbase的一个类,但明明已经启动的时候,加入到hive的class path里面了,经查资料,貌似是hive的一个bug,
但hive on tez模式是可以正常读取hbase表里面的数据的,后续在测试下,看看是否正常。



扫码关注微信公众号:我是攻城师(woshigcs),我们一起学习,进步和交流!(woshigcs)
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园,有什么问题随时都可以留言,欢迎大家来访!



  • 大小: 27.9 KB
  • 大小: 12.9 KB
0
3
分享到:
评论

相关推荐

    Hive on Spark实施笔记1

    本文将详细介绍如何在Ubuntu 14.04环境下编译和配置Hive on Spark,以及测试其运行效果。 首先,我们需要准备合适的编译环境。操作系统应为Ubuntu 14.04,同时需要安装Maven和Scala(用于Spark的编译)。确保已设置...

    hive3.x编译spark3.x包

    在IT行业中,Hive和Spark是两个非常重要的大数据处理框架。Hive主要提供了一种基于Hadoop的数据仓库工具,使得用户...此外,对于大规模集群,还需要考虑性能优化和资源管理策略,以确保高效稳定地运行Hive on Spark。

    Hive on Spark安装配置详解.pdf

    《Hive on Spark安装配置详解》 在大数据处理领域,Hive作为一个基于Hadoop的数据仓库工具,常用于大规模数据集的查询和分析。然而,Hive默认使用MapReduce作为执行引擎,由于MapReduce的磁盘I/O特性,其性能相对较...

    Spark不能使用hive自定义函数.doc

    5. **测试与验证**:完成上述配置后,需要通过编写测试代码来验证 Hive UDF 是否可以在 Spark 中正常工作。可以通过简单的 SQL 查询或者 DataFrame API 来调用 Hive UDF,观察是否能够得到预期的结果。 #### 四、...

    spark-2.3.1-bin-hadoop2-without-hive.tgz

    这意味着它没有集成Hive Metastore服务,因此不能直接用于执行Hive查询,但可以作为基础来实现Hive on Spark的配置。 在Hadoop 2.x环境中运行Spark,需要确保Spark与Hadoop之间的版本兼容性。Hadoop 2.x引入了YARN...

    win10下搭建Hadoop环境(jdk+mysql+hadoop+scala+hive+spark) 3.docx

    在Windows 10环境下搭建Hadoop生态系统,包括JDK、MySQL、Hadoop、Scala、Hive和Spark等组件,是一项繁琐但重要的任务,这将为你提供一个基础的大数据处理平台。下面将详细介绍每个组件的安装与配置过程。 **1. JDK...

    CDH6.3.2之升级spark-3.3.1.doc

    然而,在升级过程中发现并没有与之匹配的spark-hive包,因此决定直接将Spark升级到3.3.1版本。 #### 二、升级前准备 1. **环境备份**: - 在进行任何修改之前,强烈建议先对当前环境进行备份。这一步骤非常重要,...

    hive3.1.2编译.doc

    在本文中,我们将深入探讨如何在Hive 3.1.2版本中进行源码编译,以便使其兼容Spark 3.x。这个过程涉及到解决依赖冲突、修改源代码以及适应新版本的Spark和Hadoop。以下是一步步的详细步骤: 首先,确保你已经准备好...

    hive测试数据

    10. **Hive的最新发展**:随着技术的发展,Hive现在支持ACID事务、实时查询(如Hive on Tez和Hive on Spark)和更高效的查询处理。 通过上述知识点,我们可以理解Hive测试数据在学习和实践中如何发挥作用,以及如何...

    spark-2.0.0-bin-hadoop2-without-hive.tgz

    3. **测试连接**:启动Spark Shell或Spark应用程序,并尝试连接到Hive Metastore,确认配置正确。 不包含Hive的Spark发行版适合那些只需要Spark核心功能的用户,或者已经有独立Hive环境并且希望分开管理的场景。这...

    TPC-H_on_Hive_2009-08-14.tar.gz

    TPC-H_on_Hive_2009-08-14.tar.gz 是一个压缩包文件,其中包含了针对Hive的TPC-H测试工具。TPC-H是一个标准的决策支持系统(OLAP Online Analytical Processing)基准测试,主要用于评估大数据分析平台在处理复杂...

    hive 20160130

    - 2016年,Hive 2.x版本发布,带来了性能上的显著提升,如Tez执行引擎和Hive on Spark。 - Tez:一个低延迟、高并发的执行框架,比传统的MapReduce更高效。 - Hive on Spark:利用Spark的内存计算能力,进一步...

    apache-hive-2.0.0-bin.tar.gz.zip

    - **Hive on Spark**:除了MapReduce,Hive也开始支持Apache Spark作为执行引擎,利用Spark的内存计算能力提升性能。 在部署Hive之前,确保你的系统已经安装了Hadoop(因为Hive依赖HDFS进行数据存储)。接着,你...

    hive如何去安装与配置

    GRANT ALL PRIVILEGES ON metastore.* TO 'hive'@'localhost' IDENTIFIED BY 'password'; ``` ### 五、初始化Hive元数据 运行Hive的metastore服务,初始化元数据: ```bash /usr/local/hive/bin/schematool -...

    大数据处理平台性能优化探究.pdf

    通过对Hive、Spark和Kylin的基准性能测试,可以总结出不同平台的特点和适用场景。性能优化不仅关注查询速度,还包括数据存储、计算模型、内存管理等多个方面。了解这些因素有助于选择合适的处理平台,并优化大数据...

    Spark 2.0.2 Spark 2.2 中文文档 本资源为网页,不是PDF

    Spark on YARN 上运行 准备 Spark on YARN 配置 调试应用 Spark 属性 重要提示 在一个安全的集群中运行 用 Apache Oozie 来运行应用程序 Kerberos 故障排查 Spark 配置 Spark 监控 指南 作业调度 ...

    SparkCore源码阅读

    2. **兼容性**:由于 YARN 已成为 Hadoop 生态系统中的标准资源管理器,因此 Spark on YARN 能够与 Hadoop 生态中的其他组件无缝协作,如 HDFS、Hive 等。 3. **多租户支持**:YARN 支持多租户环境下的资源分配和...

    hadoop2.6.3-spark1.5.2-hbase-1.1.2-hive-1.2.1-zookeeper-3.4.6安装指南

    - 最后,启动Spark相关服务,如Spark History Server,如果需要,配置Spark on YARN。 8. **测试与优化** - 测试安装是否成功,可以上传文件到HDFS,运行Hadoop MapReduce作业,启动Hive会话,创建HBase表并插入...

    hive-1.1.0-cdh5.7.0.tar.gz.rar

    8. **Hive-on-Spark**:尽管Hive-1.1.0-cdh5.7.0主要基于MapReduce,但已经开始支持Spark作为执行引擎,提供更快的查询速度和更低的延迟。 9. **数据倾斜优化**:Hive通过数据倾斜优化策略,尽量避免在JOIN等操作中...

Global site tag (gtag.js) - Google Analytics