`
yinhudongtian
  • 浏览: 11735 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Impala整合HBase

阅读更多
   将HBase配置文件hbase-site.xml拷贝到$IMPALA_HOME/conf目录下,或者手工创建一个hbase-site.xml文件,只需添加hbase.zookeeper.quorum属性值即可。

    在HBase中创建与Hive关联的表,可以通过HBase Shell或者程序创建,此文通过shell创建,命令如下:
>create ‘table_name’,’d’

     在Hive中创建与HBase中表相关联的外部表,命令如下:
CREATE TABLE hbase_ table_name (key type, col1 type,col2 type)  
STORED BY
'org.apache.hadoop.hive.hbase.HBaseStorageHandler' 
WITH SERDEPROPERTIES ( 
"hbase.columns.mapping" = ":key,d: col1,d: col2"  )
TBLPROPERTIES("hbase.table.name" = " table_name "); 

注意:
1.因为在Hive创建的外部表需要在Impala中使用,因此只能定义为boolean, tinyint, smallint, int, bigint, float, double, timestamp, string;
2.如果数据是从HBase中插入的,key的定义类型只能为string,否则该字段会为空;如果数据是从Hive中Load导入的,key的定义类型只要与Hive导入文件的该字段定义一致即可,但建议定义为string。

   从Impala-Shell查看Impala与HBase整合结果,记得查询之前先要刷新元数据。

分享到:
评论

相关推荐

    简单之美 Impala与HBase整合实践

    对于复杂的查询统计类需求,如果直接基于HBase API来实现,性能非常差,或者,可以通过实现MapReduce程序来进行查询分析,这也继承了MapReduce所具备的延迟性。

    大数据平台CDH和Impala的使用

    Cloudera版本(Cloudera’sDistributionIncludingApacheHadoop,简称CDH),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、HBase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度...

    impala实用参考手册

    1. Impala概念和重要性:文档提到的Cloudera Impala是由Cloudera公司开发的一个开源的大规模并行处理(MPP)查询引擎,它能够直接在Apache Hadoop的分布式文件系统(HDFS)、Amazon S3或者HBase上执行SQL查询,而...

    Impala大数据分析引擎课程

    简言之impala作为大数据实时查询分析工具,具有查询速度快,灵活性高,易整合,可伸缩性强等特点。 但是在一些实时性要求很高的场景中,一方面满足实时性要求,一方面提升用户体验。Impala因其快速的响应能力...

    impala_jdbc_2.5.45.1065.zip

    描述中提到,从2.6版本开始,Impala的JDBC驱动会包含更多的jar包,这可能是因为后续版本为了增强功能和兼容性而整合了更多的库。"impalajdbc41.jar"是一个特定版本的Impala JDBC驱动,而"2.5的版本"仅包含"impala41....

    Getting Started with Impala

    Impala作为大数据生态系统的一部分,能够无缝整合到Hadoop的存储框架中,比如HDFS(Hadoop Distributed File System)和HBase等。它与其他大数据组件相比,特别强化了灵活性和高性能分析的能力。这使得Impala不仅...

    Impala与Hive的比较

    与传统的Hive+MapReduce批处理方式相比,Impala采用了一种类似于商用并行关系数据库中的分布式查询引擎,能够直接从HDFS或HBase中执行复杂的SQL查询,如SELECT、JOIN以及统计函数等操作。 ##### 1.2 Impala架构组成...

    HADOOP-IMAPALA JDBC -impala_jdbc_2.5.42.106.zip

    总的来说,"HADOOP-IMAPALA JDBC -impala_jdbc_2.5.42.106.zip" 提供了与Impala交互的关键组件,使Java开发者能够无缝地将Impala的能力整合到他们的应用中,进行大规模数据处理和分析。这个压缩文件的上传者考虑到了...

    impala的原理架构介绍及应用场景

    简言之impala作为大数据实时查询分析工具,具有查询速度快,灵活性高,易整合,可伸缩性强等特点。1.查询速度快。Impala不同于hive,hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程。不同于hive,impala...

    code-memo:代码备忘录, 包含mybatis、spring、spring-boot、hbase、hive、guava、jdk等示例代码

    包括mybatis、spring、spring-boot、hbase、hive、impala、guava、jdk等 包含的模块 spring-demo mybatis-demo spring-mybatis-jetty springboot-demo opensource-utils spring-demo spring依赖注入相关demo,包括...

    大数据驱动的信贷智能决策实践与展望.pdf

    农业银行通过建设“智慧中枢”,整合结构化与非结构化数据,并利用Hadoop生态圈中的技术,如Impala、Hbase和Kylin等,对海量数据进行分析建模,不仅克服了这些问题,还构建了覆盖公司治理、生产经营、信用状况等在内...

    Hadoop和Spark大数据项目案例分析.docx

    未来,HBase 和 Phoenix 将在大数据整合方面扮演重要的角色,打开一个新的局面,创建出全新的数据美丽新世界。 项目二:专业分析 专业分析项目实际上是从特殊的需求和某一数据集系统的分析开始的。这些项目往往是...

    厦门大学林子雨版大数据基础入门培训课程 教师培训交流讲义-模块11-基于Hadoop的数据仓库Hive 共48页.ppt

    Impala是另一种基于Hadoop的数据分析工具,相比Hive,它提供了更接近实时的查询性能,因为它是基于C++实现的,直接与HDFS和HBase交互,减少了对MapReduce的依赖。 ### 14.6 Hive编程实践 Hive编程实践涵盖了创建表...

    明略大数据产品演进介绍.pdf

    性能问题则可能源于大数据处理框架的选择,如Hadoop、HBase、Spark、Storm、Impala等;而权限管理、集群统一和数据分析则需要更精细的解决方案。 3. **明略的应对策略**:明略数据提出了全面的解决方案,包括数据...

    大数据科普

    各层分别采用了不同的技术和方法,如Hadoop、Impala和Storm+HBase等,共同构建了一个完整的大数据处理框架。这种架构不仅能够处理大规模数据集,还能够应对实时性需求较高的场景,为大数据处理提供了灵活且高效的...

    kudu cm安装方式文档

    目前,kudu beta 版本对 Impala 支持较为完善,支持用 Impala 进行创建表、删改数据等大部分操作。 六、使用 CM 安装 Kudu 使用 CM 安装 Kudu 需要满足一定的硬件要求,包括一个或多个服务器,操作系统的选择、...

Global site tag (gtag.js) - Google Analytics