impala的最大优势,也是它最大致命弱点。它将要处理的数据全部(有一定的优化和加载规则)加载至内存,在内存中实现数据处理,在所处理的数据较小时,其性能非常显著,但是当数据很大时,它就慢如蜗牛,甚至崩溃,在此时,它远不如hive+mapreduce。
今天的测试:
Impala简单测试汇总:
一、软件环境:
Hadoop 2.0.0-cdh4.2.1
impalad version 1.0 RELEASE
二、硬件环境:
CPU : 24核,型号:Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz
内 存: 32G
硬盘空间: 6.6T,9块数据磁盘
操作系统: Cent OS 6.3
服 务 器 :同一网段,7台主机,其中6 台数据节点,6个impalad,1个statestored
三、测试数据:
记录行数:8亿多条
记录大小:349.2G
表 信 息:约180个基本类型字段、2个分区、lzo压缩
四 、测试结果:
涉及具体数据,不便公布。不过可以告知的是,一般count或排序或distinct都得6分钟以上,当加载数据大于有效物理内存时,直接崩溃,其他很多情况下容易造成impalad崩溃退出。impala有待继续改进优化。
如果有impala查询数据的同仁,非常欢迎一起交流,我的QQ:214814466
相关推荐
### Cloudera Impala 官方手册解析 #### 一、引言 Cloudera Impala 是一款由 Cloudera 开发的企业级分布式 SQL 查询引擎,它能够在 Hadoop 分布式文件系统 (HDFS) 或者 HBase 上实现对大规模数据集的快速查询。与...
### Cloudera Impala:高性能实时查询引擎 #### 引言 Cloudera Impala 是一款由 Cloudera 开发的高性能分布式 SQL 查询系统,它为大数据提供了接近于传统数据库性能的速度,同时保持了 Hadoop 的扩展性和灵活性。...
标题中的"cloudera-hive/impala-odbc"指的是Cloudera提供的Hive和Impala的ODBC(Open Database Connectivity)驱动程序。ODBC是用于在不同数据库系统之间建立连接的标准接口,使得应用程序可以访问多种类型的数据库...
Cloudera JDBC Driver for Impala 是...总的来说,Cloudera JDBC Driver for Impala是Java开发者连接和操作Impala数据仓库的强大工具,通过理解和掌握上述知识点,能够有效地在Java应用中集成和利用Impala的分析能力。
### Cloudera Impala 安装与使用 #### 一、概述 Cloudera Impala 是一款基于 Apache Hadoop 的 SQL 查询引擎,旨在为用户提供快速、交互式的查询体验。Impala 支持直接对存储在 Hadoop 分布式文件系统 (HDFS) 或 ...
Cloudera Impala is an open source project that is opening up the Apache Hadoop software stack to a wide audience of database analysts, users, and developers. The Impala massively parallel processing ...
虽然标签中提到了“Python”,但通常情况下,Python在Cloudera Impala中的应用并不直接。不过,可以通过Python库如`pyimpala`来连接和操作Impala数据库,进行数据导入导出、执行SQL查询等操作。此外,Python也可以...
2. 版本和版权声明:文档中提到了Cloudera JDBC Driver for Impala的版本号为2.5.28,并强调了版权声明,表明文档中的所有商标、服务名称、口号等知识产权除了在其他地方明确声明外,都是Cloudera及其供应商或许可方...
标题中的“Impala的JDBC编程驱动”指的是Impala(一个开源的、高性能的SQL查询引擎,用于处理存储在Hadoop集群中的数据)与Java应用程序之间的桥梁,即JDBC(Java Database Connectivity)驱动。JDBC驱动是Java...
Impala是Cloudera公司开发的一种高性能、实时分析数据库,它是Apache Hadoop生态系统的一部分,专为大规模数据仓库和在线分析处理(OLAP)工作负载设计。JDBC(Java Database Connectivity)驱动则是连接数据库的一...
Cloudera Impala ODBC Connector 2.5.36 for windows 32bit
标题 "dbeaver impala jdbc连接包" 涉及到的是在数据管理工具DBeaver中连接Impala数据库所必需的Java Database Connectivity (JDBC)驱动。Impala是Cloudera Data Hub (CDH)中的一种分布式分析引擎,用于处理大规模的...
ImpalaJDBC41是Cloudera提供的一种用于交互式查询和分析大数据的关键组件,它基于Java Database Connectivity (JDBC) 标准,允许应用程序与Cloudera Impala进行通信。Impala是一款高性能、低延迟的SQL查询引擎,专为...
标题 "Cloudera_ImpalaJDBC41_2.5.41.zip" 提供的是 Cloudera 的 Impala JDBC 4.1 版本的驱动程序包,这是一个用于连接 Impala 数据仓库服务的 Java Database Connectivity (JDBC) 驱动。描述 "DBeaver impala jdbc ...
Impala 驱动包 Cloudera_ImpalaJDBC4_2.5.41.zip Cloudera_ImpalaJDBC41_2.5.41.zip Cloudera-JDBC-Driver-for-Impala-Install-Guide.pdf Cloudera-JDBC-Driver-for-Impala-Release-Notes.pdf
Impala是Cloudera公司开发的一款开源、高性能的分布式SQL查询引擎,它主要用于处理大规模的数据集。Impala与Hadoop生态系统紧密集成,可以直接读取HDFS(Hadoop Distributed File System)和HBase的数据,为大数据...
在本主题中,我们关注的是"JDBC-impala驱动包",它专门用于连接Cloudera的Impala服务,这是一个快速、高性能的SQL查询引擎,常用于大数据分析。 "JDBC-impala驱动包"包含了两个主要的JAR文件:ImpalaJDBC41.jar和...
ClouderaImpalaJDBC4_2.5.43.jar是Impala的JDBC驱动程序的一个特定版本,该版本号表示它可能是Cloudera公司发布的,版本号2.5.43意味着它可能包含了多项性能优化、错误修复和新功能。JDBC驱动程序使得Java开发者能够...
对于Hive和Impala这样的大数据处理系统,它们都提供了JDBC驱动,使得开发者可以像操作传统关系型数据库一样进行操作。 在Impala中,ImpalaJDBC4是其提供的JDBC驱动,用于Java应用程序与Impala进行通信。要将...