`
guiyu0856
  • 浏览: 39386 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

impala的最大优势亦即最大致命弱点,并不像cloudera描述的那么强大

阅读更多

        impala的最大优势,也是它最大致命弱点。它将要处理的数据全部(有一定的优化和加载规则)加载至内存,在内存中实现数据处理,在所处理的数据较小时,其性能非常显著,但是当数据很大时,它就慢如蜗牛,甚至崩溃,在此时,它远不如hive+mapreduce。

        今天的测试:

       Impala简单测试汇总:

 

       一、软件环境:

       Hadoop 2.0.0-cdh4.2.1

       impalad version 1.0 RELEASE

        

       二、硬件环境:

       CPU     :  24核,型号:Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz

内    存:   32G

硬盘空间:     6.6T,9块数据磁盘

操作系统:   Cent OS 6.3       

服 务 器  :同一网段,7台主机,其中6  台数据节点,6个impalad,1个statestored

 

       三、测试数据:

       记录行数:8亿多条

记录大小:349.2G

表 信 息:约180个基本类型字段、2个分区、lzo压缩

 

四 、测试结果:

涉及具体数据,不便公布。不过可以告知的是,一般count或排序或distinct都得6分钟以上,当加载数据大于有效物理内存时,直接崩溃,其他很多情况下容易造成impalad崩溃退出。impala有待继续改进优化。

 

 

如果有impala查询数据的同仁,非常欢迎一起交流,我的QQ:214814466

 

 

 

0
6
分享到:
评论
1 楼 guiyu0856 2013-05-24  
impala没有执行一个命令就全部关闭impalad,我找到一个停止impalad的高效方法,哈哈,不用每台机器上去kill,只需要搞一张猛表自关联一下,立马全部干掉所有的impalad。  

相关推荐

    cloudera-impala官方手册

    ### Cloudera Impala 官方手册解析 #### 一、引言 Cloudera Impala 是一款由 Cloudera 开发的企业级分布式 SQL 查询引擎,它能够在 Hadoop 分布式文件系统 (HDFS) 或者 HBase 上实现对大规模数据集的快速查询。与...

    cloudera-hive/impala-odbc

    标题中的"cloudera-hive/impala-odbc"指的是Cloudera提供的Hive和Impala的ODBC(Open Database Connectivity)驱动程序。ODBC是用于在不同数据库系统之间建立连接的标准接口,使得应用程序可以访问多种类型的数据库...

    cloudera-impala.pdf )

    ### Cloudera Impala:高性能实时查询引擎 #### 引言 Cloudera Impala 是一款由 Cloudera 开发的高性能分布式 SQL 查询系统,它为大数据提供了接近于传统数据库性能的速度,同时保持了 Hadoop 的扩展性和灵活性。...

    Cloudera JDBC Driver for Impala

    Cloudera JDBC Driver for Impala 是...总的来说,Cloudera JDBC Driver for Impala是Java开发者连接和操作Impala数据仓库的强大工具,通过理解和掌握上述知识点,能够有效地在Java应用中集成和利用Impala的分析能力。

    cloudera impala安装使用中文版

    ### Cloudera Impala 安装与使用 #### 一、概述 Cloudera Impala 是一款基于 Apache Hadoop 的 SQL 查询引擎,旨在为用户提供快速、交互式的查询体验。Impala 支持直接对存储在 Hadoop 分布式文件系统 (HDFS) 或 ...

    Cloudera Impala

    Cloudera Impala is an open source project that is opening up the Apache Hadoop software stack to a wide audience of database analysts, users, and developers. The Impala massively parallel processing ...

    基于Hadoop的实时查询 Cloudera Impala.zip

    虽然标签中提到了“Python”,但通常情况下,Python在Cloudera Impala中的应用并不直接。不过,可以通过Python库如`pyimpala`来连接和操作Impala数据库,进行数据导入导出、执行SQL查询等操作。此外,Python也可以...

    Cloudera-JDBC-Driver-for-Impala-Install-Guide.pdf

    2. 版本和版权声明:文档中提到了Cloudera JDBC Driver for Impala的版本号为2.5.28,并强调了版权声明,表明文档中的所有商标、服务名称、口号等知识产权除了在其他地方明确声明外,都是Cloudera及其供应商或许可方...

    Impala的JDBC编程驱动

    标题中的“Impala的JDBC编程驱动”指的是Impala(一个开源的、高性能的SQL查询引擎,用于处理存储在Hadoop集群中的数据)与Java应用程序之间的桥梁,即JDBC(Java Database Connectivity)驱动。JDBC驱动是Java...

    Cloudera Impala ODBC Connector 2.5.36 for windows 32bit

    Cloudera Impala ODBC Connector 2.5.36 for windows 32bit

    impala数据库JDBC驱动集

    Impala是Cloudera公司开发的一种高性能、实时分析数据库,它是Apache Hadoop生态系统的一部分,专为大规模数据仓库和在线分析处理(OLAP)工作负载设计。JDBC(Java Database Connectivity)驱动则是连接数据库的一...

    dbeaver impala jdbc连接包

    标题 "dbeaver impala jdbc连接包" 涉及到的是在数据管理工具DBeaver中连接Impala数据库所必需的Java Database Connectivity (JDBC)驱动。Impala是Cloudera Data Hub (CDH)中的一种分布式分析引擎,用于处理大规模的...

    com.cloudera.ImpalaJDBC41

    ImpalaJDBC41是Cloudera提供的一种用于交互式查询和分析大数据的关键组件,它基于Java Database Connectivity (JDBC) 标准,允许应用程序与Cloudera Impala进行通信。Impala是一款高性能、低延迟的SQL查询引擎,专为...

    Cloudera_ImpalaJDBC41_2.5.41.zip

    标题 "Cloudera_ImpalaJDBC41_2.5.41.zip" 提供的是 Cloudera 的 Impala JDBC 4.1 版本的驱动程序包,这是一个用于连接 Impala 数据仓库服务的 Java Database Connectivity (JDBC) 驱动。描述 "DBeaver impala jdbc ...

    DBeaver 连接 hadoop Impala 驱动包

    Impala 驱动包 Cloudera_ImpalaJDBC4_2.5.41.zip Cloudera_ImpalaJDBC41_2.5.41.zip Cloudera-JDBC-Driver-for-Impala-Install-Guide.pdf Cloudera-JDBC-Driver-for-Impala-Release-Notes.pdf

    impala_jdbc驱动包

    Impala是Cloudera公司开发的一款开源、高性能的分布式SQL查询引擎,它主要用于处理大规模的数据集。Impala与Hadoop生态系统紧密集成,可以直接读取HDFS(Hadoop Distributed File System)和HBase的数据,为大数据...

    JDBC-impala驱动包

    在本主题中,我们关注的是"JDBC-impala驱动包",它专门用于连接Cloudera的Impala服务,这是一个快速、高性能的SQL查询引擎,常用于大数据分析。 "JDBC-impala驱动包"包含了两个主要的JAR文件:ImpalaJDBC41.jar和...

    impala驱动jar包

    ClouderaImpalaJDBC4_2.5.43.jar是Impala的JDBC驱动程序的一个特定版本,该版本号表示它可能是Cloudera公司发布的,版本号2.5.43意味着它可能包含了多项性能优化、错误修复和新功能。JDBC驱动程序使得Java开发者能够...

    jdbc 通过impala 连接hive库

    对于Hive和Impala这样的大数据处理系统,它们都提供了JDBC驱动,使得开发者可以像操作传统关系型数据库一样进行操作。 在Impala中,ImpalaJDBC4是其提供的JDBC驱动,用于Java应用程序与Impala进行通信。要将...

Global site tag (gtag.js) - Google Analytics