`
无尘道长
  • 浏览: 160511 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

impala条件查询问题

阅读更多

  使用impala查询hbase时,如果是“=”条件查询,如果不添加is not null条件,则会把该列没有值的记录也查询出来(空字符串不会),比如:

   Select * from user where name=’xiao wang’,该语句会查询出name等于xiao wangnull的数据。

   Select * from user where name=’xiao wang’ and name is not null 则不会查询出namenull的记录

 

  在hbase中通过SingleColumnValueFilter过滤器实现“=”条件时如果不设置filterIfMissing也会有如此效果,当设置setFilterIfMissing(true);后会过滤掉null的记录,比如:

    SingleColumnValueFilter filter = new SingleColumnValueFilter("fml".getBytes(), "name".getBytes(),        CompareOp.EQUAL, "xiao wang".getBytes());

   filter.setFilterIfMissing(true);//默认值为false,需设置为true

 

 

  但是impala似乎不是采用的hbase的过滤器实现的条件查询,看impala的架构介绍应该是内存比较,从现象看匪夷所思,具体原因还需后续调查,先记录在案。

分享到:
评论
1 楼 billjoincheer 2014-01-20  
关注

相关推荐

    1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(二)

    在Hive和Impala中,查询性能的比较通常包括几种常见查询类型,如计算总数、按特定条件过滤和时间区间查询等。从文中给出的SQL语句可以看出,作者分别对TextFile、ORCFile和ParquetFile进行了这些查询,以量化它们的...

    impala的安装

    这一步骤是安装Impala前的必要条件。 接着是Impala的安装步骤,这里以rpm包的安装为例进行说明。首先需要下载Impala的安装包,安装地址通常可以在Cloudera提供的URL中找到。然后在目标机器(例如node02和node03)上...

    cloudera impala安装使用中文版

    在实际部署 Cloudera Impala 之前,需要确保环境满足以下条件: - **操作系统**: 支持的操作系统包括但不限于 Red Hat Enterprise Linux 7.x 或更高版本。 - **Hadoop 版本**: 需要与 CDH 版本兼容的 Hadoop 配置。...

    Impala用户指南

    Impala的设计目标是为了提供一种比传统Hive更快捷的查询方式,特别是对于那些需要实时或接近实时的数据分析场景。 除了共享存储平台之外,Impala还与Hive使用相同的元数据、SQL语法(Hive SQL)、ODBC驱动以及用户...

    impala-jdbc驱动

    6. **性能优化**:利用JDBC驱动,可以根据网络条件、数据量等因素调整查询参数,例如设置批大小、超时限制等。 7. **安全连接**:支持SSL加密,确保数据传输过程中的安全性,同时支持Kerberos等认证机制,增强系统...

    impala.jar.zip

    在使用Impala的过程中,我们常常需要处理各种依赖问题,其中之一就是Java Archive (JAR) 文件。本文将围绕"impala.jar.zip"这个压缩包,深入探讨Impala在RPM安装过程中的JAR包依赖以及其重要性。 首先,"impala.jar...

    基于 Impala 构建实时用户行为分析引擎

    - **数据过滤**:通过对查询条件的设置,可以过滤出特定的用户行为数据,如筛选出某个地区的用户行为记录。 - **复杂查询**:Impala支持复杂的查询操作,包括子查询、连接查询等高级功能,满足不同场景下的需求。 ...

    10-1+Impala+落地&优化:神策数据多维分析平台构建实战.pdf

    【案例分析】:文中提到的SQL查询示例展示了如何使用Impala进行全表连接,并通过特定条件筛选数据。这种查询对于多维分析至关重要,能帮助用户深入了解用户行为和业务模式。 综上所述,该分享主要涵盖了Impala在...

    多级部门查询性能问题解决方案.docx

    - 如果查询涉及到 Impala,可以尝试将 `IN` 查询转换为多个 `OR` 条件的组合,或者创建索引以加速查询。例如: ```sql -- 原始查询 SELECT * FROM organization WHERE company_id = 100000 AND org_id IN (child...

    HBase高性能复杂条件查询引擎

    该方案由一个智能交通解决方案演变而来,设计之初仅寄希望于通过二级索引提升查询性能,由于在前期架构时充分考虑了通用性以及对复杂条件的支持,在后来的演变中逐渐被剥离出来形成了一个通用的查询引擎。...

    Oracle SQL调优

    JOIN操作是数据库查询中最常见的操作之一,也是最容易引起性能问题的部分。选择正确的JOIN类型(如INNER JOIN、LEFT JOIN),并确保JOIN条件中的列有合适的索引,可以显著提升性能。 #### 六、减少函数依赖 在...

    mybatis-plus分页查询的实现示例.docx

    // 传递 page 和筛选条件 List<User> records = page.getRecords(); // 获取数据集合 long total = page.getTotal(); // 获取总数 ``` 4. **配置分页插件** 为了使 MyBatis-Plus 能够识别并使用分页插件 `...

    大数据分析关键技术概述.pptx

    首先,即席查询(Ad-Hoc Query)是一种允许用户根据自身需求自由设定查询条件的数据分析方式。与传统的预定义查询不同,即席查询更加灵活,能快速响应用户的变化需求。在实际应用中,如经营分析和决策支持等场景,...

    DTCC2015-Wing-新一代百度大数据查询引擎-刘成

    近年来,随着大数据处理需求的增长,各种QueryEngine系统应运而生,包括用于批处理的Hive/Pig、用于交互式查询的SparkSQL/Dremel/Impala/ApacheDrill以及用于流式计算的Storm等。 QueryEngine与MapReduce等分布式...

    MySQL千万级大表深度分页为什么慢,以及优化的方法、原理

    - **引入OLAP系统:** 对于分析类查询,可以考虑使用如Hive、Impala或ClickHouse等专门的分析型数据库。 总结来说,优化千万级大表的深度分页查询,需要结合索引策略、查询优化、硬件配置调整以及架构设计等多个...

    AutoCheck.tar.gz

    "AutoCheck.tar.gz" 是一个包含Java自动化测试程序的压缩包,专用于自动化测试Impala数据库的各种操作,如创建数据库、表、索引,以及数据的加载和查询等。这个压缩包文件的名称表明,它是一个针对Impala数据库进行...

    SQL语句全面学习

    - **EXCEPT**:返回仅在第一个查询中出现的行,去除重复行(可选`EXCEPT ALL`保留重复行)。 - **INTERSECT**:返回两个查询结果的交集,去除重复行(可选`INTERSECT ALL`保留重复行)。 12. **外连接**: - **...

    大数据分析关键技术39.pptx

    即席查询允许用户根据实际需求自由选择查询条件,系统能够迅速生成相应的统计报告。这种查询方式灵活性高,适用于自然人交互式的经营分析,如市场营销、客户行为分析等场景。即席查询通常依赖于分布式文件系统、列式...

    MyBatis 分页插件PageHelper Demo

    动态SQL生成意味着可以根据数据库类型自动生成高效的分页SQL,而物理分页则通过在数据库层面实现分页,避免一次性加载大量数据导致内存溢出的问题。 **安装与配置** 在项目中使用PageHelper,首先需要将其依赖引入...

Global site tag (gtag.js) - Google Analytics