最近研究了一下hive与hbase的整合,使用的都是各自的最新release, hive0.13, hbase0.96.2,整合的过程其实挺简单的,大致需要注意的地方如下:
1. hive的配置文件hive-site.xml需要添加的内容:
<property>
<name>hive.aux.jars.path</name>
<value>file:///home/grid/hive/lib/hive-hbase-handler-0.13.0.jar,file:///home/grid/hive/lib/hbase-client-0.96.2-hadoop2.jar,file:///home/grid/hive/lib/hbase-common-0.96.2-hadoop2.jar,file:///home/grid/hive/lib/hbase-common-0.96.2-hadoop2-tests.jar,file:///home/grid/hive/lib/hbase-protocol-0.96.2-hadoop2.jar,file:///home/grid/hive/lib/hbase-server-0.96.2-hadoop2.jar,file:///home/grid/hive/lib/htrace-core-2.04.jar,file:///home/grid/hive/lib/zookeeper-3.4.6.jar,file:///home/grid/hive/lib/protobuf-java-2.5.0.jar,file:///home/grid/hive/lib/guava-11.0.2.jar</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>server1,server2</value>
</property>
2.安装hbase的过程不再累述,可以参考http://blog.csdn.net/codestinity/article/details/6947464
最后在双方查询都能查到数据,但是在hive中向hbase插入数据的时候出现了问题,错误信息如下:
java.io.FileNotFoundException: File does not exist: hdfs://*.*.*.*:9000/home/grid/hbase/lib/hbase-hadoop-compat-0.96.2-hadoop2.jar
at org.apache.hadoop.hdfs.DistributedFileSystem$17.doCall(DistributedFileSystem.java:1110)
at org.apache.hadoop.hdfs.DistributedFileSystem$17.doCall(DistributedFileSystem.java:1102)
at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1102)
at org.apache.hadoop.mapreduce.filecache.ClientDistributedCacheManager.getFileStatus(ClientDistributedCacheManager.java:288)
at org.apache.hadoop.mapreduce.filecache.ClientDistributedCacheManager.getFileStatus(ClientDistributedCacheManager.java:224)
at org.apache.hadoop.mapreduce.filecache.ClientDistributedCacheManager.determineTimestamps(ClientDistributedCacheManager.java:99)
at org.apache.hadoop.mapreduce.filecache.ClientDistributedCacheManager.determineTimestampsAndCacheVisibilities(ClientDistributedCacheManager.java:57)
at org.apache.hadoop.mapreduce.JobSubmitter.copyAndConfigureFiles(JobSubmitter.java:264)
at org.apache.hadoop.mapreduce.JobSubmitter.copyAndConfigureFiles(JobSubmitter.java:300)
at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:387)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1268)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1265)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:1265)
at org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:562)
at org.apache.hadoop.mapred.JobClient$1.run(JobClient.java:557)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:557)
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:548)
at org.apache.hadoop.hive.ql.exec.mr.ExecDriver.execute(ExecDriver.java:420)
at org.apache.hadoop.hive.ql.exec.mr.ExecDriver.main(ExecDriver.java:740)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at org.apache.hadoop.util.RunJar.main(RunJar.java:212)
Job Submission failed with exception 'java.io.FileNotFoundException(File does not exist: hdfs://*.*.*.*:9000/home/grid/hbase/lib/hbase-hadoop-compat-0.96.2-hadoop2.jar)'
Execution failed with exit status: 1
Obtaining error information
Task failed!
Task ID:
Stage-0
Logs:
/tmp/root/hive.log
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
这是需要将使用的jar包上传到hdfs文件系统中,所以,需要哪个就上传哪个吧,用put命令。
最后成功实现hive与hbase的整合。
相关推荐
【Hadoop2.2.0】 Hadoop2.2.0是Apache Hadoop项目的一个稳定版本,提供了改进的性能和稳定性。它引入了YARN(Yet Another Resource Negotiator),这是一个资源管理和调度器,用于更好地管理和优化分布式计算任务。...
### Hadoop2.2.0 + HBase0.98.1 + Sqoop1.4.4 + Hive0.13 完全安装手册 #### 前言 随着大数据技术的发展,Hadoop已经成为处理海量数据的核心框架之一。本文旨在为读者提供一套最新的Hadoop2.2.0、HBase0.98.1、...
Hadoop-2.2.0+Hbase-0.96.2+Hive-0.13.1分布式整合,Hadoop-2.X使用HA方式
7. 兼容性与扩展性:Hadoop 2.2.0保持了对Hadoop 1.x的兼容性,同时也提供了API和工具,方便开发者构建基于Hadoop的新应用和框架,如HBase、Hive、Pig等。 8. 安全性:Hadoop 2.2.0增强了安全性,支持Kerberos认证...
本文将详细介绍如何在Linux环境下搭建Hadoop2.2.0、HBase0.96和Hive0.12的集群环境。 首先,我们从Hadoop的安装开始。Hadoop2.2.0是Apache官方稳定版,可以从官方网站或镜像站点下载。下载完成后,将其上传到Linux...
软件方面,需要安装jdk-7u55-linux-x64.rpm、apache-maven-3.1.1-bin.tar、hadoop-2.2.0-src.tar.gz、protobuf-2.5.0.tar.gz、zookeeper-3.4.5.tar.gz和hbase-0.96.2-hadoop2-bin.tar.gz等软件。 Hadoop2.2安装和...
叶梓老师整理的Hadoop2.2.0+Hbase0.98.4+sqoop-1.4.4+hive-0.98.1安装手册,非常实用
一、Hadoop2.2.0、ZooKeeper3.4.5、HBase0.96.2、Hive0.13.1是什么? Hadoop2.2.0是一个大数据处理框架,具有许多新特性,如支持Windows平台、改进了安全性、提高了性能等。 ZooKeeper3.4.5是一个分布式应用程序...
Hadoop 2.2.0 不只是MapReduce和HDFS,还包括一系列生态系统项目,如HBase(分布式NoSQL数据库)、Hive(数据仓库工具)、Pig(数据流处理语言)、Oozie(工作流调度系统)和Zookeeper(分布式协调服务)。...
文档作者王扬庭分享的这份资料详细介绍了如何在云计算环境中集成和配置Hadoop-2.2.0、HBase-0.96.2以及Hive-0.13.1,形成一个完全分布式的计算环境。这个文档是《云计算之Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive...
Hadoop的生态系统还包括许多其他项目,如Hive(基于SQL的数据仓库工具)、Pig(数据分析平台)、HBase(NoSQL数据库)、Spark(快速数据处理引擎)等,它们共同构成了强大的大数据处理框架。 总之,Hadoop 2.2.0是...
这些工具和库不仅服务于HDFS和MapReduce,还为其他Hadoop生态系统中的项目如HBase、Hive等提供支持。 在解压后的“hadoop-common-2.2.0-bin-master”文件夹中,你可以找到各种配置文件、脚本和可执行程序。例如: ...
在【描述】中提到的最佳组合是Hadoop 2.2.0+HBase 0.96+hive 0.13,这是一个经典的大数据处理架构。HBase是一个构建在HDFS之上的分布式列式数据库,适合实时读写操作,而Hive则是一个基于Hadoop的数据仓库工具,用于...
大巴塔大数据Hbase是数据库,Hive是数据仓库hadoop2.2.0分布式服务器1、准备Linux环境2、CentOS卸载OpenJDK并安装Sun JDK3、安装Hadoop4、修改windows系统的hosts文件5、配置ssh免登陆HDFS分布式文件系统Hadoop 全...
- **其他Hadoop组件支持**:如Hive、HBase等,Spark 2.2.0与这些组件的集成更为紧密,提供了更多的互操作性和功能。 ### Hadoop 2.7 的关键特性 #### 1. HDFS改进 - **高可用性**:Hadoop 2.7版本加强了NameNode的...
4,Hadoop2.2.0 5,Hbase0.96.2 6,Zookeeper3.4.5 7,Hive0.13.13 全是Java有关的框架,主要目的在于安装Hadoop,其他的都是附带的基本配置 本脚本能够快速在Linux上安装JAVA环境,并部署hadoop,其中关于hadoop,...
首先,确保你的环境中已经正确安装了32位的Hadoop 2.2.0,因为Hive依赖于Hadoop的HDFS和MapReduce服务。在安装Hive之前,需要确保Hadoop的HDFS和MapReduce功能正常运行,因为它们是Hive进行数据存储和计算的基础。...
它是一个大数据的生态圈,不仅包括基本框架,还包括周边框架,如Flume、Hive、Hbase等。Hadoop的主要特点是扩容能力、低成本、高效率和可靠性。 Hadoop的定义是指一个用于大数据分布式存储、分布式计算和资源调度的...
2. **版本匹配**:文档指出,由于使用的是CentOS 6.5 32位系统和Hadoop 2.2.0,因此选择了Hive 0.12.0版本。通常,不同组件之间需要匹配合适的版本以确保稳定运行。 3. **Hive安装**:Hive的安装过程相对简单,只...