`
guiyu0856
  • 浏览: 39265 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

impala的最大优势亦即最大致命弱点,并不像cloudera描述的那么强大

阅读更多

        impala的最大优势,也是它最大致命弱点。它将要处理的数据全部(有一定的优化和加载规则)加载至内存,在内存中实现数据处理,在所处理的数据较小时,其性能非常显著,但是当数据很大时,它就慢如蜗牛,甚至崩溃,在此时,它远不如hive+mapreduce。

        今天的测试:

       Impala简单测试汇总:

 

       一、软件环境:

       Hadoop 2.0.0-cdh4.2.1

       impalad version 1.0 RELEASE

        

       二、硬件环境:

       CPU     :  24核,型号:Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz

内    存:   32G

硬盘空间:     6.6T,9块数据磁盘

操作系统:   Cent OS 6.3       

服 务 器  :同一网段,7台主机,其中6  台数据节点,6个impalad,1个statestored

 

       三、测试数据:

       记录行数:8亿多条

记录大小:349.2G

表 信 息:约180个基本类型字段、2个分区、lzo压缩

 

四 、测试结果:

涉及具体数据,不便公布。不过可以告知的是,一般count或排序或distinct都得6分钟以上,当加载数据大于有效物理内存时,直接崩溃,其他很多情况下容易造成impalad崩溃退出。impala有待继续改进优化。

 

 

如果有impala查询数据的同仁,非常欢迎一起交流,我的QQ:214814466

 

 

 

0
6
分享到:
评论
1 楼 guiyu0856 2013-05-24  
impala没有执行一个命令就全部关闭impalad,我找到一个停止impalad的高效方法,哈哈,不用每台机器上去kill,只需要搞一张猛表自关联一下,立马全部干掉所有的impalad。  

相关推荐

    cloudera-impala官方手册

    ### Cloudera Impala 官方手册解析 #### 一、引言 Cloudera Impala 是一款由 Cloudera 开发的企业级分布式 SQL 查询引擎,它能够在 Hadoop 分布式文件系统 (HDFS) 或者 HBase 上实现对大规模数据集的快速查询。与...

    cloudera-impala.pdf )

    ### Cloudera Impala:高性能实时查询引擎 #### 引言 Cloudera Impala 是一款由 Cloudera 开发的高性能分布式 SQL 查询系统,它为大数据提供了接近于传统数据库性能的速度,同时保持了 Hadoop 的扩展性和灵活性。...

    cloudera-hive/impala-odbc

    标题中的"cloudera-hive/impala-odbc"指的是Cloudera提供的Hive和Impala的ODBC(Open Database Connectivity)驱动程序。ODBC是用于在不同数据库系统之间建立连接的标准接口,使得应用程序可以访问多种类型的数据库...

    Cloudera JDBC Driver for Impala

    Cloudera JDBC Driver for Impala 是...总的来说,Cloudera JDBC Driver for Impala是Java开发者连接和操作Impala数据仓库的强大工具,通过理解和掌握上述知识点,能够有效地在Java应用中集成和利用Impala的分析能力。

    cloudera impala安装使用中文版

    ### Cloudera Impala 安装与使用 #### 一、概述 Cloudera Impala 是一款基于 Apache Hadoop 的 SQL 查询引擎,旨在为用户提供快速、交互式的查询体验。Impala 支持直接对存储在 Hadoop 分布式文件系统 (HDFS) 或 ...

    Cloudera Impala

    Cloudera Impala is an open source project that is opening up the Apache Hadoop software stack to a wide audience of database analysts, users, and developers. The Impala massively parallel processing ...

    基于Hadoop的实时查询 Cloudera Impala.zip

    虽然标签中提到了“Python”,但通常情况下,Python在Cloudera Impala中的应用并不直接。不过,可以通过Python库如`pyimpala`来连接和操作Impala数据库,进行数据导入导出、执行SQL查询等操作。此外,Python也可以...

    Cloudera-JDBC-Driver-for-Impala-Install-Guide.pdf

    2. 版本和版权声明:文档中提到了Cloudera JDBC Driver for Impala的版本号为2.5.28,并强调了版权声明,表明文档中的所有商标、服务名称、口号等知识产权除了在其他地方明确声明外,都是Cloudera及其供应商或许可方...

    Impala的JDBC编程驱动

    标题中的“Impala的JDBC编程驱动”指的是Impala(一个开源的、高性能的SQL查询引擎,用于处理存储在Hadoop集群中的数据)与Java应用程序之间的桥梁,即JDBC(Java Database Connectivity)驱动。JDBC驱动是Java...

    impala数据库JDBC驱动集

    Impala是Cloudera公司开发的一种高性能、实时分析数据库,它是Apache Hadoop生态系统的一部分,专为大规模数据仓库和在线分析处理(OLAP)工作负载设计。JDBC(Java Database Connectivity)驱动则是连接数据库的一...

    Cloudera Impala ODBC Connector 2.5.36 for windows 32bit

    Cloudera Impala ODBC Connector 2.5.36 for windows 32bit

    dbeaver impala jdbc连接包

    标题 "dbeaver impala jdbc连接包" 涉及到的是在数据管理工具DBeaver中连接Impala数据库所必需的Java Database Connectivity (JDBC)驱动。Impala是Cloudera Data Hub (CDH)中的一种分布式分析引擎,用于处理大规模的...

    com.cloudera.ImpalaJDBC41

    ImpalaJDBC41是Cloudera提供的一种用于交互式查询和分析大数据的关键组件,它基于Java Database Connectivity (JDBC) 标准,允许应用程序与Cloudera Impala进行通信。Impala是一款高性能、低延迟的SQL查询引擎,专为...

    Cloudera_ImpalaJDBC41_2.5.41.zip

    标题 "Cloudera_ImpalaJDBC41_2.5.41.zip" 提供的是 Cloudera 的 Impala JDBC 4.1 版本的驱动程序包,这是一个用于连接 Impala 数据仓库服务的 Java Database Connectivity (JDBC) 驱动。描述 "DBeaver impala jdbc ...

    DBeaver 连接 hadoop Impala 驱动包

    Impala 驱动包 Cloudera_ImpalaJDBC4_2.5.41.zip Cloudera_ImpalaJDBC41_2.5.41.zip Cloudera-JDBC-Driver-for-Impala-Install-Guide.pdf Cloudera-JDBC-Driver-for-Impala-Release-Notes.pdf

    impala_jdbc驱动包

    Impala是Cloudera公司开发的一款开源、高性能的分布式SQL查询引擎,它主要用于处理大规模的数据集。Impala与Hadoop生态系统紧密集成,可以直接读取HDFS(Hadoop Distributed File System)和HBase的数据,为大数据...

    JDBC-impala驱动包

    在本主题中,我们关注的是"JDBC-impala驱动包",它专门用于连接Cloudera的Impala服务,这是一个快速、高性能的SQL查询引擎,常用于大数据分析。 "JDBC-impala驱动包"包含了两个主要的JAR文件:ImpalaJDBC41.jar和...

    impala驱动jar包

    ClouderaImpalaJDBC4_2.5.43.jar是Impala的JDBC驱动程序的一个特定版本,该版本号表示它可能是Cloudera公司发布的,版本号2.5.43意味着它可能包含了多项性能优化、错误修复和新功能。JDBC驱动程序使得Java开发者能够...

    jdbc 通过impala 连接hive库

    对于Hive和Impala这样的大数据处理系统,它们都提供了JDBC驱动,使得开发者可以像操作传统关系型数据库一样进行操作。 在Impala中,ImpalaJDBC4是其提供的JDBC驱动,用于Java应用程序与Impala进行通信。要将...

Global site tag (gtag.js) - Google Analytics