今天在使用hive 进行数据统计时,发现了一个问题使用类似如下的两个sql统计出的结果不一致:
select count(*) from tbl_simpledata where column = '-1';
select count(column) from tbl_simpledata where column = '-1';
查询hive的参考文档发现如下的信息:
count(*) - Returns the total number of retrieved rows, including rows containing NULL values;
count(expr) - Returns the number of rows for which the supplied expression is non-NULL;
count(DISTINCT expr[, expr]) - Returns the number of rows for which the supplied expression(s) are unique and non-NULL.
也就是说count(*)计算的时候包含了NULL值,而count(expr)则不包含空值。
分享到:
相关推荐
5. **启动Hive**:启动Hive Server2和Hive Metastore服务,可以通过`hive`命令进入交互式shell。 **MySQL介绍** MySQL是一种快速、可靠且易于使用的开源数据库,支持ACID(原子性、一致性、隔离性和持久性)特性,...
在大数据处理领域,Hive是一个不可或缺的工具,尤其对于初学者而言,理解并掌握Hive的结构、原理和操作使用是至关重要的。本课件"hive课件.rar"旨在为学习者提供关于Hive的全面知识,帮助大家深入理解这个大数据仓库...
1. **Apache Hive**: Apache Hive是由Facebook开源的一个数据仓库工具,可将大规模数据集(如PB级)组织成数据库表的形式,然后使用SQL进行查询和分析。Hive设计为对批处理的离线分析友好,而非实时查询。 2. **...
**1.2 从稳定版本安装Hive** - **下载稳定版本**:访问Apache官网下载最新的稳定版本。 - **解压**:将下载的压缩包解压至指定位置。 - **配置环境变量**:设置`HIVE_HOME`指向Hive安装目录,并将`$HIVE_HOME/bin`...
Missing Hive Execution Jar: /hive/hive1.2.1/lib/hive-exec-*.jar
elasticsearch-hadoop-hive-2.3.4.jar包下载
总的来说,《Hive数据仓库案例教程》是一门旨在培养学生运用Hive进行大数据分析能力的课程,通过理论与实践的结合,帮助学生掌握Hive的核心技术和应用策略。对于大数据专业的学生来说,这门课程是他们理解和掌握大...
7. **配置和调试 Hive** - **更改运行时配置**:可以在提交作业前通过 SET 命令动态调整某些参数。 - **调试技巧**:利用日志记录、性能监控等手段优化 Hive 应用程序。 8. **使用 Hue** - **准备工作**:安装...
### Hive简明教程知识点概述 #### 一、Hive简介 - **定义**: Hive是一种基于Hadoop的数据仓库工具,它可以将结构...- **启动Hive**: - 启动Hive服务。 - **测试hive**: - 使用Hive CLI执行简单查询以验证安装成功。
- 包括数学函数(如 SQRT, LOG, EXP)和聚合函数(如 COUNT, SUM, AVG),还有自定义函数(UDF)可以扩展功能。 16. **CREATE AS 与外部表**: - 使用 `CREATE TABLE AS SELECT` 创建的表是内部表,不能用于外部...
- **COUNT(DISTINCT)**:在使用该函数时可能会遇到性能瓶颈。 - **JOIN操作**:处理JOIN操作时需要考虑数据分布和大小。 - **DML操作**:Hive不支持标准的DML操作,如UPDATE和DELETE。 - **HAVING子句**:HAVING子句...
- **缓存和重用执行计划**:Hive可以缓存元数据和查询结果,减少重复计算。 **6. Hive在实际场景的应用** Hive广泛应用于数据分析、日志处理、广告推荐、用户行为分析等领域。例如,互联网公司可以通过Hive对用户...
Hive是建立在Hadoop生态系统之上的一种数据仓库工具,它允许用户通过SQL-like语言(HQL)对分布式存储的数据进行查询和管理,极大地简化了大数据分析的工作。 1. **Hive基本概念**: - **数据仓库**:Hive提供了一...
**Hive** 是一个基于 **Hadoop** 的数据仓库工具,它能够将结构化的数据文件映射成一张表,并提供类似于SQL的查询功能,即 **Hive Query Language (HQL)**。通过这种方式,Hive使得用户能够更方便地使用Hadoop进行...
Hive是Apache软件基金会开发的一个数据仓库工具,它允许用户使用SQL-like语言(HQL,Hive Query Language)对大规模存储在Hadoop分布式文件系统(HDFS)中的数据进行查询、分析和处理。Hive-1.1.0-cdh5.7.0是...
HIVE是一种基于Hadoop的数据仓库工具,主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么?HIVE是一种数据仓库工具,主要用于处理和分析大规模数据。它将结构化数据文件转换为...
Hive 是一个基于 Hadoop 的数据仓库系统,它主要设计用于处理和管理大规模数据集。Hive 提供了一个类似 SQL 的查询语言——HiveQL,使得非 MapReduce 开发者也能方便地进行大数据分析。此外,Hive 还允许 MapReduce ...
1. **配置Hive**:修改`conf/hive-site.xml`,配置Hive与Hadoop的连接信息,如HDFS的地址、Hive Metastore的数据库连接信息等。 2. **启动Hive**:运行`bin/hive`启动Hive CLI,或者启动Hive Server以供远程连接。 3...
7. **启动Hive**:通过命令行启动Hive服务器,如`hive --service metastore`启动metastore服务,然后使用`hive`命令进入Hive shell。 **三、Hive基本操作** 1. **创建表**:可以定义列名、列类型和分区等,如`...
Apache Hive 是一个基于Hadoop的数据仓库工具,它允许用户通过SQL-like语法(称为HQL,Hive Query Language)对大规模数据集进行分析和查询。在本案例中,我们讨论的是"apache-hive-2.0.0-bin.tar.gz.zip"这个压缩包...