`
gaojingsong
  • 浏览: 1197500 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

大数据之Impala介绍

阅读更多

一、介绍

Cloudera 发布实时查询开源项目 Impala (黑斑羚)!多款产品实测表明,比原来基于MapReduce的Hive SQL查询速度提升3~90倍。Impala是Google Dremel的模仿,但在SQL功能上青出于蓝胜于蓝。Impala采用与Hive相同的元数据、SQL语法、ODBC驱动程序和用户接口(Hue Beeswax),这样在使用CDH产品时,批处理和实时查询的平台是统一的。目前支持的文件格式是文本文件和SequenceFiles(可以压缩为Snappy、GZIP和BZIP,前者性能最好)。其他格式如Avro, RCFile, LZO文本和Doug Cutting的Trevni将在正式版中支持。



 

二、概述  

1. Impala是参照谷歌新三篇论文Dremel的开源实现,和Shark、Drill功能相似。Impala 是Cloudera公司主导开发并开源。基于Hive并使用内存进行计算,兼顾数据仓库,具有实时、批处理、多并发等优点。是使用CDH的首选PB级大数据实时查询分析引擎。 

2. Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata, 意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。   

 

三、 特点  

1. 基于内存进行计算,能够对PB级数据进行交互式实时查询、分析  

2. 摒弃了MR计算改用C++编写,有针对性的硬件优化,例如使用SSE指令 

3. 兼容HiveSQL,无缝迁移  

4. 通过使用LLVM来统一编译运行时代码,避免了为支持通用编译而带来的不必要开销。 

5. 支持sql92标准,并具有自己的解析器和优化器。 

6. 具有数据仓库的特性,对hive原有数据做数据分析。 

7. 使用了支持Data locality的I/O调度机制。 

8. 支持列式存储。  

9. 支持jdbc/odbc远程访问。

 

 

 

四、缺点 

1. 基于内存进行计算,对内存依赖性较大 

2. 改用C++编写 ,意味着对C++普通用户不可见。 

3. 基于Hive,与Hive共存亡 

4. 实践中impala的分区数超过一万,性能严重下降,容易出现问题。 

5. 稳定性不如Hive

  • 大小: 32.1 KB
0
2
分享到:
评论

相关推荐

    大数据技术之impala.docx

    "大数据技术之Impala" Impala 是 Cloudera 公司推出的高性能、低延迟的交互式 SQL 查询引擎,基于 Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。Impala 是 CDH 平台首选的 PB 级大数据实时...

    尚硅谷大数据技术之 Impala1

    【尚硅谷大数据技术之 Impala1】主要涵盖了Impala的基本概念、优缺点、架构以及安装方法,以下是关于这些知识点的详细说明: 1. **Impala的基本概念** - Impala是由Cloudera公司开发的,设计目标是提供对HDFS...

    大数据Impala架包

    标题中的“大数据Impala架包”指的是一个专为处理大数据分析而设计的工具包,它主要服务于Impala,这是一个由Cloudera开发的快速、分布式、SQL查询引擎,用于Hadoop生态系统。Impala允许用户无需将数据从HDFS或HBase...

    4-5+Impala在腾讯金融大数据场景中的应用.pdf

    4-5+Impala在腾讯金融大数据场景中的应用

    大数据Impala二次开发.pdf

    本文档主要介绍了如何进行大数据Impala的二次开发,特别是针对华为FusionInsight HD产品的Impala组件。该文档适合已经安装并运行FusionInsight HD产品Impala组件的用户,尤其是具备Java和SQL开发经验的开发人员,...

    大数据Impala架构原理.pdf

    《大数据Impala架构原理》 Impala是一款专为大数据分析设计的MPP(大规模并行处理)架构的SQL查询引擎,由Cloudera公司开发,旨在提供高效的交互式数据分析能力。它与Hadoop生态系统紧密集成,尤其与Hive元数据共享...

    kafka集群企业级管理工具

    《Kafka集群企业级管理工具深度解析》 在大数据处理领域,Apache Kafka作为一个高效、可扩展的分布式消息系统,已经成为实时...通过持续了解和熟练运用CMAK,我们可以更好地驾驭Kafka,为企业的大数据战略保驾护航。

    适合初学者-大数据技术与应用介绍(含各种组件).docx

    【大数据技术与应用介绍】 大数据技术是现代信息技术领域的一个重要组成部分,它主要涉及对海量、高增长速度和多样性的信息资产的捕获、管理和处理。大数据的关键技术包括云计算、NoSQL数据库、分布式文件系统以及...

    大数据平台CDH和Impala的使用

    Cloudera版本(Cloudera’sDistributionIncludingApacheHadoop,简称CDH),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、HBase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度...

    大数据基础操作说明-HADOOP HIVE IMPALA

    大数据基础操作说明-HADOOP HIVE IMPALA Hadoop 是一个基于分布式存储和计算的开源框架,Hive 是基于 Hadoop 的一个数据仓库工具,Impala 是一个高性能的分布式SQL查询引擎。在这篇文章中,我们将会了解 Hadoop ...

    大数据+kerberos+impala源码

    Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。 它是一个用C ++和Java编写的开源软件。 与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟。 换句话说,Impala是性能最高的...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 36.Impala(共20页).pptx

    其中,"36.Impala(共20页).pptx"是关于Impala的大数据查询系统的介绍,它是Cloudera公司为解决Hadoop生态中Hive的交互性不足而设计的。 Impala的核心优势在于其高速查询能力。它摒弃了Hive基于MapReduce的批处理...

    大数据及其常用组件介绍

    ### 大数据及其常用组件介绍 #### 一、大数据概览 大数据(Big Data)指的是那些超出常规软件工具处理能力范围的数据集合。这类数据不仅规模庞大、增长迅速,还具有多样化的特点,要求采用新的处理模式来提升决策能力...

    impala基础介绍

    ### Impala基础知识详解 #### 一、Impala简介与核心价值 **Impala**是由Cloudera开发的一款高性能、水平可扩展的SQL查询引擎,它为Hadoop平台...随着技术的不断发展,Impala将继续成为大数据领域不可或缺的一部分。

    明略大数据产品演进介绍.pdf

    【明略大数据产品演进介绍】的文档主要探讨了大数据解决方案在实际落地过程中遇到的挑战、应对策略以及明略数据公司的核心产品与服务。以下是基于文档内容的关键知识点: 1. **大数据的价值**:大数据的核心价值...

    hadoop之impala简单使用共8页.pdf.zip

    【标题】:“Hadoop之Impala简单使用共8页.pdf” 【内容概览】: 本资料主要涵盖了Hadoop生态系统中的Impala的简单使用方法。Impala是Cloudera公司开发的一种开源、分布式、大规模并行处理(MPP)查询引擎,它与...

    springboot集成impala(包含yml、impala配置类、pom.xml、impala jar)

    通过这种方式,开发者可以轻松地在SpringBoot应用中利用Impala的强大分析能力处理大数据任务。在实际项目中,还需要考虑错误处理、事务管理、性能优化等更多细节。如果你在集成过程中遇到问题,可以参考提供的readme...

    Impala在大数据中的使用和优化实践.pdf

    下面将详细介绍 Impala 在大数据中的使用和优化实践。 1. Impala 的定位和优势 Impala 是一个基于 MPP(Massive Parallel Processing)的查询引擎,可以处理大量的数据。它的优势在于可以提供高性能的查询服务,...

Global site tag (gtag.js) - Google Analytics