作者: H.E. | 您可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
网址: http://www.javabloger.com/article/apache-hadoop-hive-hbase-integration.html
开场白:
Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类 (Hive Storage Handlers), 大致意思如图所示:
口水:
对 hive_hbase-handler.jar 这个东东还有点兴趣,有空来磋磨一下。
一、2个注意事项:
1、需要的软件有 Hadoop、Hive、Hbase、Zookeeper,Hive与HBase的整合对Hive的版本有要求,所以不要下载.0.6.0以前的老版本,Hive.0.6.0的版本才支持与HBase对接,因此在Hive的lib目录下可以看见多了hive_hbase-handler.jar这个jar包,他是Hive扩展存储的Handler ,HBase 建议使用 0.20.6的版本,这次我没有启动HDFS的集群环境,本次所有测试环境都在一台机器上。
2、运行Hive时,也许会出现如下错误,表示你的JVM分配的空间不够,错误信息如下:
Invalid maximum heap size: -Xmx4096m
The specified size exceeds the maximum representable size.
Could not create the Java virtual machine.
解决方法:
/work/hive/bin/ext# vim util/execHiveCmd.sh 文件中第33行
修改,
HADOOP_HEAPSIZE=4096
为
HADOOP_HEAPSIZE=256
另外,在 /etc/profile/ 加入 export $HIVE_HOME=/work/hive
二、启动运行环境
1启动Hive
hive --auxpath /work/hive/lib/hive_hbase-handler.jar,/work/hive/lib/hbase-0.20.3.jar,/work/hive/lib/zookeeper-3.2.2.jar -hiveconf hbase.master=127.0.0.1:60000
加载 Hive需要的工具类,并且指向HBase的master服务器地址,我的HBase master服务器和Hive运行在同一台机器,所以我指向本地。
2启动HBase
/work/hbase/bin/hbase master start
3启动Zookeeper
/work/zookeeper/bin/zkServer.sh start
三、执行
在Hive中创建一张表,相互关联的表
CREATE TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val") TBLPROPERTIES ("hbase.table.name" = "xyz");
在运行一个在Hive中建表语句,并且将数据导入
建表
CREATE TABLE pokes (foo INT, bar STRING);
数据导入
LOAD DATA LOCAL INPATH '/work/hive/examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
在Hive与HBase关联的表中 插入一条数据
INSERT OVERWRITE TABLE hbase_table_1 SELECT * FROM pokes WHERE foo=98;
运行成功后,如图所示:
插入数据时采用了MapReduce的策略算法,并且同时向HBase写入,如图所示:
在HBase shell中运行 scan 'xyz' 和describe "xyz" 命令,查看表结构,运行结果如图所示:
xyz是通过Hive在Hbase中创建的表,刚刚在Hive的建表语句中指定了映射的属性 "hbase.columns.mapping" = ":key,cf1:val" 和 在HBase中建表的名称 "hbase.table.name" = "xyz"
在hbase在运行put命令,插入一条记录
put 'xyz','10001','cf1:val','www.javabloger.com'
在hive上运行查询语句,看看刚刚在hbase中插入的数据有没有同步过来,
select * from hbase_table_1 WHERE key=10001;
如图所示:
最终的效果
以上整合过程和操作步骤已经执行完毕,现在Hive中添加记录HBase中有记录添加,同样你在HBase中添加记录Hive中也会添加, 表示Hive与HBase整合成功,对海量级别的数据我们是不是可以在HBase写入,在Hive中查询 喃?因为HBase 不支持复杂的查询,但是HBase可以作为基于 key 获取一行或多行数据,或者扫描数据区间,以及过滤操作。而复杂的查询可以让Hive来完成,一个作为存储的入口(HBase),一个作为查询的入口(Hive)。如下图示。
呵呵,见笑了,以上只是我面片的观点。
先这样,稍后我将继续更新,感谢你的阅读。
相关文章:
Apache Hive入门2
Apache Hive入门1
HBase入门篇4
HBase入门篇3
HBase入门篇2
HBase入门篇
–end–
3. 启动hive:
bin/hive --auxpath /home/hadoop/hive/hive-new-version/hive_hbase_lib/hive_hbase-handler.jar,/home/hadoop/hive/hive-new-version/hive_hbase_lib/hbase-0.20.4.jar,/home/hadoop/hive/hive-new-version/hive_hbase_lib/zookeeper-3.2.2.jar -hiveconf hbase.zookeeper.quorum=eb149
后两个jar包可以从hbase路径下获得,务必保证输入完全路径
4. 建表:
HBase表Mtime4有三个family:businfo,taginfo,userinfo
“:key,businfo:,taginfo:,userinfo:”
格式:a mapping entry must be either :key or of the form column-family-name:[column-name]
务必创建external的hive表,使用map类型对应hbase中的一个family,hbase中family的columnName为key,columnValue为value。
CREATE EXTERNAL TABLE hbase_table_6(key int, businfo map<string,string>, taginfo map<string,string>, userinfomap<string,string>)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,businfo:,taginfo:,userinfo:")
TBLPROPERTIES ("hbase.table.name" = "Mtime4");
分享到:
相关推荐
【Hive与HBase整合详解】 Hive和HBase是两个大数据处理的重要组件。Hive提供了基于SQL的查询语言(HQL)来处理大规模的数据,适合于离线批处理;而HBase则是一个NoSQL数据库,它基于Google的Bigtable设计,提供高...
3. **安装HBase的Hive连接器**:例如,安装`Hive-HBase-Connector`,这是一个允许Hive与HBase通信的库。将其添加到Hive的类路径中。 4. **创建HBase表**:在HBase中创建所需的数据表,并定义列族和列。 5. **在...
#### 四、Hive与HBase的整合 Hive和HBase的整合使得Hive能够直接操作存储在HBase中的数据,而无需将数据导出到HDFS中再进行处理。 - **配置Hive连接HBase**: - 设置Hive连接HBase所需的配置项: - `SEThbase....
Hive与其它大数据组件,如HBase、Pig、Spark等,共同构成了大数据生态系统,为企业的大数据战略提供全面的支持。 "apache"标签表明Apache Hive是开源项目,由全球社区维护和开发,用户可以免费使用并参与改进。这...
标题 "Hive整合HBase资源文件.zip" 指向的是一个关于如何将Apache Hive与Apache HBase集成的教程或工具包。Hive是大数据处理领域的一个重要组件,主要用于结构化数据的查询和分析,而HBase则是一个分布式、列式存储...
### 大数据工具篇之Hive与HBase整合完整教程 #### 一、引言 在大数据处理领域,Hive 和 HBase 是两种非常重要的工具。Hive 是一种数据仓库工具,可以用来进行数据提取、转换和加载(ETL),同时提供了一种 SQL ...
3.集群能正常运行的条件是集群可节点宕机数应保证有超过集群机器总数一半的机器在运行,因此从经济和实用性来说,集群的节点一般是奇数个,本文部署4台机器,其容灾能力与部署3台机器一致,即只能宕机1台
7. **连接Hadoop生态系统**:Hive与Hadoop生态系统的其他组件紧密集成,如HDFS、HBase、Oozie等,提供了一站式的大数据分析平台。 8. **Hive on Tez/Spark**:Hive 2.3.9 版本中,用户可以选择使用Tez或Spark作为...
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:name,cf1:age") TBLPROPERTIES ("hbase.table.name" = "hbase_table", "hbase.mapred....
### Hive与HBase的核心知识点详解 #### 一、Hive概览 **1.1 定义** Apache Hive 是一个建立在 Hadoop 上的数据仓库工具,它为在大规模数据集上进行复杂的查询提供了便利。Hive 的核心设计是让用户能够通过类似 SQL...
7. **Hive与大数据生态集成**:Hive可以与Hadoop生态系统中的其他组件如Pig、HBase、Spark等无缝集成,形成强大的数据分析平台。 8. **Hive外部表**:外部表并不删除源数据,仅删除元数据,适合处理用户需要保留源...
Apache Hive 的事务操作设计仍然存在一些限制,例如不能用于外部表和存储处理程序,例如 HBase 和 Druid。同时,事务表也需要 ORC 文件格式来支持 AcidInputFormat 和 AcidOutputFormat。未来,Apache Hive 计划继续...
本文档详细记录了一次从自建Hadoop集群到华为云MRS(Managed Service for Big Data)的大规模数据迁移项目,涉及到了Hive、Kudu和HBase这三种不同类型的数据存储系统。以下是针对这些系统的迁移策略、流程和解决方案...
"HIVE和HBASE区别" HIVE和HBASE是两种基于Hadoop的不同技术,分别是数据仓库和Key/Value系统。它们之间有很多区别,包括设计理念、应用场景、查询语言等方面。 HIVE HIVE是一个构建在Hadoop基础设施之上的数据...
Apache Hive 是一个基于Hadoop的数据仓库工具,它允许用户通过SQL-like语言(称为HQL,Hive Query Language)对大规模数据集进行分析和查询。在0.14.0版本中,Hive提供了多种增强的功能和性能优化,使得大数据处理变...
BulkLoadHive2Hbase 是一种使用 Spark 实现 Hive 到 HBase 批量写入数据的解决方案。在工作中遇到批量写入数据的问题时,这种方法可以快速地将 Hive 表存储在 HBase 中。下面是该解决方案的详细知识点。 BulkLoad...
标签"apache-hive-"进一步强调了主题,可能用于搜索或分类,帮助用户找到与Apache Hive相关的内容。 在压缩包子文件的文件名称列表中,有两个文件: 1. "hive安装.docx":这很可能是Hive的安装指南,详细介绍了如何...
9. **Hive与HBase的集成**:Hive可以与NoSQL数据库HBase进行交互,提供对实时数据的快速访问。 10. **Hive Server2**:Hive Server2是Hive的网络服务接口,允许远程客户端通过HTTP或HTTPS协议提交查询,支持多用户...
Hive还提供了多种连接器(connectors)来与不同类型的存储系统交互,如HDFS、Amazon S3、HBase等。此外,Hive还可以通过HiveServer2和WebHCat(也称为Templeton)提供远程访问接口,使得用户可以通过Beeline、JDBC/...