hive on spark 测试 - 有任何问题请关注公众号留言: 我是攻城师（woshigcs） - ITeye博客

`

qindongliang1922

浏览: 2205604 次
性别:
来自: 北京

最近访客更多访客>>

北风norther

godandghost

youhere

tanss

博主相关

博客

微博

相册

收藏

留言

关于我

博客专栏

: 证道Lucene4
浏览量：118188

: 证道Hadoop
浏览量：126570

: 证道shell编程
浏览量：60568

: ELK修真
浏览量：71811

文章分类

社区版块

存档分类

最新评论

qindongliang1922：粟谷_sugu 写道不太理解“分词字段存储docvalue是没 ...
浅谈Lucene中的DocValues
粟谷_sugu：不太理解“分词字段存储docvalue是没有意义的”，这句话， ...
浅谈Lucene中的DocValues
yin_bp：高性能elasticsearch ORM开发库使用文档http ...
为什么说Elasticsearch搜索是近实时的？
hackWang：请问博主,有用solr做电商的搜索项目?
Solr中Group和Facet的用法
章司nana：遇到的问题同楼上为什么会返回null
Lucene4.3开发之第八步之渡劫初期(八)

hive on spark 测试

博客分类：

Spark

hadoop hive spark

阅读更多

基础环境：

Apache Hadoop2.7.1
Centos6.5
Apache Hadoop2.7.1
Apache Hbase0.98.12
Apache Hive1.2.1
Apache Tez0.7.0
Apache Pig0.15.0
Apache oozie4.2.0
Apache Spark1.6.0
Cloudrea Hue3.8.1

经测试，spark1.6.0和spark1.5.x集成hive on spark有问题，
相关链接:http://apache-spark-user-list.1001560.n3.nabble.com/Issue-with-spark-on-hive-td25372.html

所以只能下载spark-1.4.1然后执行如下命令，重新编译：

dev/change-scala-version.sh 2.11
mvn -Pyarn -Phadoop-2.7.1 -Dscala-2.11 -DskipTests clean package

编译完成后，拷贝ssembly/target/scala-2.11/spark-assembly-1.4.1-hadoop2.7.1.jar 到hive的lib目录下
即可，
然后启动hive：
set hive.execution.engine=spark;
执行一个查询：

可以执行没有问题，但在测试hive关联hbase表使用spark模式运行的时候，会出现一个异常，spark的kvro序列化总是找不到hbase的一个类，但明明已经启动的时候，加入到hive的class path里面了，经查资料，貌似是hive的一个bug，
但hive on tez模式是可以正常读取hbase表里面的数据的，后续在测试下，看看是否正常。

扫码关注微信公众号：我是攻城师(woshigcs)，我们一起学习，进步和交流!（woshigcs）
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享，也是一个温馨的技术互动交流的小家园，有什么问题随时都可以留言，欢迎大家来访！

查看图片附件

0
顶

3
踩

分享到：

Spark SQL+Hive历险记 | Hive集成Tez让大象飞起来

2016-01-18 18:06
浏览 1835
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive on Spark整合过程中，需要修改的hive源码文件: 在Hive与Spark整合的过程中，涉及的源码修改是一项...通过上述知识点的学习与掌握，开发者可以更加深入地理解Hive on Spark整合过程中的关键步骤，并能够更好地进行源码级别的修改工作，以实现Hive与Spark的有效整合。

hive3.x编译spark3.x包: 在IT行业中，Hive和Spark是两个非常重要的大数据处理框架。Hive主要提供了一种基于Hadoop的数据仓库工具，使得用户...此外，对于大规模集群，还需要考虑性能优化和资源管理策略，以确保高效稳定地运行Hive on Spark。

Hive on Spark实施笔记1: 本文将详细介绍如何在Ubuntu 14.04环境下编译和配置Hive on Spark，以及测试其运行效果。首先，我们需要准备合适的编译环境。操作系统应为Ubuntu 14.04，同时需要安装Maven和Scala（用于Spark的编译）。确保已设置...

Hive on Spark安装配置详解.pdf: 《Hive on Spark安装配置详解》在大数据处理领域，Hive作为一个基于Hadoop的数据仓库工具，常用于大规模数据集的查询和分析。然而，Hive默认使用MapReduce作为执行引擎，由于MapReduce的磁盘I/O特性，其性能相对较...

Spark不能使用hive自定义函数.doc: 5. **测试与验证**：完成上述配置后，需要通过编写测试代码来验证 Hive UDF 是否可以在 Spark 中正常工作。可以通过简单的 SQL 查询或者 DataFrame API 来调用 Hive UDF，观察是否能够得到预期的结果。 #### 四、...

spark-2.3.1-bin-hadoop2-without-hive.tgz: 这意味着它没有集成Hive Metastore服务，因此不能直接用于执行Hive查询，但可以作为基础来实现Hive on Spark的配置。在Hadoop 2.x环境中运行Spark，需要确保Spark与Hadoop之间的版本兼容性。Hadoop 2.x引入了YARN...

win10下搭建Hadoop环境（jdk+mysql+hadoop+scala+hive+spark） 3.docx: 在Windows 10环境下搭建Hadoop生态系统，包括JDK、MySQL、Hadoop、Scala、Hive和Spark等组件，是一项繁琐但重要的任务，这将为你提供一个基础的大数据处理平台。下面将详细介绍每个组件的安装与配置过程。 **1. JDK...

CDH6.3.2之升级spark-3.3.1.doc: 然而，在升级过程中发现并没有与之匹配的spark-hive包，因此决定直接将Spark升级到3.3.1版本。 #### 二、升级前准备 1. **环境备份**： - 在进行任何修改之前，强烈建议先对当前环境进行备份。这一步骤非常重要，...

hive3.1.2编译.doc: 在本文中，我们将深入探讨如何在Hive 3.1.2版本中进行源码编译，以便使其兼容Spark 3.x。这个过程涉及到解决依赖冲突、修改源代码以及适应新版本的Spark和Hadoop。以下是一步步的详细步骤：首先，确保你已经准备好...

hive测试数据: 10. **Hive的最新发展**：随着技术的发展，Hive现在支持ACID事务、实时查询（如Hive on Tez和Hive on Spark）和更高效的查询处理。通过上述知识点，我们可以理解Hive测试数据在学习和实践中如何发挥作用，以及如何...

spark-2.0.0-bin-hadoop2-without-hive.tgz: 3. **测试连接**：启动Spark Shell或Spark应用程序，并尝试连接到Hive Metastore，确认配置正确。不包含Hive的Spark发行版适合那些只需要Spark核心功能的用户，或者已经有独立Hive环境并且希望分开管理的场景。这...

TPC-H_on_Hive_2009-08-14.tar.gz: TPC-H_on_Hive_2009-08-14.tar.gz 是一个压缩包文件，其中包含了针对Hive的TPC-H测试工具。TPC-H是一个标准的决策支持系统（OLAP Online Analytical Processing）基准测试，主要用于评估大数据分析平台在处理复杂...

hive 20160130: - 2016年，Hive 2.x版本发布，带来了性能上的显著提升，如Tez执行引擎和Hive on Spark。 - Tez：一个低延迟、高并发的执行框架，比传统的MapReduce更高效。 - Hive on Spark：利用Spark的内存计算能力，进一步...

apache-hive-2.0.0-bin.tar.gz.zip: - **Hive on Spark**：除了MapReduce，Hive也开始支持Apache Spark作为执行引擎，利用Spark的内存计算能力提升性能。在部署Hive之前，确保你的系统已经安装了Hadoop（因为Hive依赖HDFS进行数据存储）。接着，你...

hive如何去安装与配置: GRANT ALL PRIVILEGES ON metastore.* TO 'hive'@'localhost' IDENTIFIED BY 'password'; ``` ### 五、初始化Hive元数据运行Hive的metastore服务，初始化元数据： ```bash /usr/local/hive/bin/schematool -...

大数据处理平台性能优化探究.pdf: 通过对Hive、Spark和Kylin的基准性能测试，可以总结出不同平台的特点和适用场景。性能优化不仅关注查询速度，还包括数据存储、计算模型、内存管理等多个方面。了解这些因素有助于选择合适的处理平台，并优化大数据...

Spark 2.0.2 Spark 2.2 中文文档本资源为网页，不是PDF: Spark on YARN 上运行准备 Spark on YARN 配置调试应用 Spark 属性重要提示在一个安全的集群中运行用 Apache Oozie 来运行应用程序 Kerberos 故障排查 Spark 配置 Spark 监控指南作业调度 ...

Spark实战高手之路-第3章Spark架构设计与编程模型（4）: 此外，Spark架构设计中包括了Spark on Yarn的使用，这允许Spark应用程序在YARN集群管理器上运行，使得资源管理和任务调度更加高效。在分布式计算框架中，实时流处理和图计算是两大核心组件。Spark Streaming提供了...

SparkCore源码阅读: 2. **兼容性**：由于 YARN 已成为 Hadoop 生态系统中的标准资源管理器，因此 Spark on YARN 能够与 Hadoop 生态中的其他组件无缝协作，如 HDFS、Hive 等。 3. **多租户支持**：YARN 支持多租户环境下的资源分配和...

hadoop2.6.3-spark1.5.2-hbase-1.1.2-hive-1.2.1-zookeeper-3.4.6安装指南: - 最后，启动Spark相关服务，如Spark History Server，如果需要，配置Spark on YARN。 8. **测试与优化** - 测试安装是否成功，可以上传文件到HDFS，运行Hadoop MapReduce作业，启动Hive会话，创建HBase表并插入...

Global site tag (gtag.js) - Google Analytics