hive的count(*) 和 count(expr) - jbm - ITeye博客

`

jbm3072

浏览: 211657 次
性别:
来自: 北京

最近访客更多访客>>

dongcaoheneric

raoliv

yun_weiguo

pf8123829456

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

sky88088：感谢分享~
自定义的RPC的Java实现
a2773945：好东西，谢谢大哥
自定义的RPC的Java实现
beer2008cn：写的很棒
自定义的RPC的Java实现
shuangjue：不能跨平台，和RMI相比有何优势呢？能否提供个跨平台的方案，比 ...
自定义的RPC的Java实现
god333666：写得很不错受启发
自定义的RPC的Java实现

hive的count(*) 和 count(expr)

博客分类：

hadoop

阅读更多

今天在使用hive 进行数据统计时，发现了一个问题使用类似如下的两个sql统计出的结果不一致：

select count(*) from tbl_simpledata where column = '-1';
select count(column) from tbl_simpledata where column = '-1';

查询hive的参考文档发现如下的信息：

count(*) - Returns the total number of retrieved rows, including rows containing NULL values; 

count(expr) - Returns the number of rows for which the supplied expression is non-NULL; 

count(DISTINCT expr[, expr]) - Returns the number of rows for which the supplied expression(s) are unique and non-NULL.

也就是说count(*)计算的时候包含了NULL值，而count(expr)则不包含空值。

0
顶

0
踩

分享到：

[输入一个字符串，输出该字符串中对称的子 ... | Hadoop HDFS权限控制

2011-05-30 16:52
浏览 17358
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据入门HIVE和MySQL安装包: 5. **启动Hive**：启动Hive Server2和Hive Metastore服务，可以通过`hive`命令进入交互式shell。 **MySQL介绍** MySQL是一种快速、可靠且易于使用的开源数据库，支持ACID（原子性、一致性、隔离性和持久性）特性，...

hive课件.rar: 在大数据处理领域，Hive是一个不可或缺的工具，尤其对于初学者而言，理解并掌握Hive的结构、原理和操作使用是至关重要的。本课件"hive课件.rar"旨在为学习者提供关于Hive的全面知识，帮助大家深入理解这个大数据仓库...

windows hive cmd 下载: 1. **Apache Hive**: Apache Hive是由Facebook开源的一个数据仓库工具，可将大规模数据集（如PB级）组织成数据库表的形式，然后使用SQL进行查询和分析。Hive设计为对批处理的离线分析友好，而非实时查询。 2. **...

Hive语法详解.docx (排版清晰,覆盖全面,含目录): **1.2 从稳定版本安装Hive** - **下载稳定版本**：访问Apache官网下载最新的稳定版本。 - **解压**：将下载的压缩包解压至指定位置。 - **配置环境变量**：设置`HIVE_HOME`指向Hive安装目录，并将`$HIVE_HOME/bin`...

hive-exec-*.jar包: Missing Hive Execution Jar: /hive/hive1.2.1/lib/hive-exec-*.jar

《Hive数据仓库案例教程》教学大纲.pdf: 总的来说，《Hive数据仓库案例教程》是一门旨在培养学生运用Hive进行大数据分析能力的课程，通过理论与实践的结合，帮助学生掌握Hive的核心技术和应用策略。对于大数据专业的学生来说，这门课程是他们理解和掌握大...

Apache-Hive-Cookbook: 7. **配置和调试 Hive** - **更改运行时配置**：可以在提交作业前通过 SET 命令动态调整某些参数。 - **调试技巧**：利用日志记录、性能监控等手段优化 Hive 应用程序。 8. **使用 Hue** - **准备工作**：安装...

elasticsearch-hadoop-hive-2.3.4.jar包下载: elasticsearch-hadoop-hive-2.3.4.jar包下载

Hive教程.pdf: ### Hive简明教程知识点概述 #### 一、Hive简介 - **定义**: Hive是一种基于Hadoop的数据仓库工具，它可以将结构...- **启动Hive**: - 启动Hive服务。 - **测试hive**: - 使用Hive CLI执行简单查询以验证安装成功。

Hive学习笔记: - 包括数学函数（如 SQRT, LOG, EXP）和聚合函数（如 COUNT, SUM, AVG），还有自定义函数（UDF）可以扩展功能。 16. **CREATE AS 与外部表**： - 使用 `CREATE TABLE AS SELECT` 创建的表是内部表，不能用于外部...

Hive用户指南 Hive user guide 中文版: - **COUNT(DISTINCT)**：在使用该函数时可能会遇到性能瓶颈。 - **JOIN操作**：处理JOIN操作时需要考虑数据分布和大小。 - **DML操作**：Hive不支持标准的DML操作，如UPDATE和DELETE。 - **HAVING子句**：HAVING子句...

大数据与云计算技术 Hadoop之Hive详解三.rar: - **缓存和重用执行计划**：Hive可以缓存元数据和查询结果，减少重复计算。 **6. Hive在实际场景的应用** Hive广泛应用于数据分析、日志处理、广告推荐、用户行为分析等领域。例如，互联网公司可以通过Hive对用户...

Hive 编程指南: Hive是建立在Hadoop生态系统之上的一种数据仓库工具，它允许用户通过SQL-like语言（HQL）对分布式存储的数据进行查询和管理，极大地简化了大数据分析的工作。 1. **Hive基本概念**： - **数据仓库**：Hive提供了一...

尚硅谷 hive 课程教学文档: **Hive** 是一个基于 **Hadoop** 的数据仓库工具，它能够将结构化的数据文件映射成一张表，并提供类似于SQL的查询功能，即 **Hive Query Language (HQL)**。通过这种方式，Hive使得用户能够更方便地使用Hadoop进行...

配置后的hive-1.1.0-cdh5.7.0.tar.gz: Hive是Apache软件基金会开发的一个数据仓库工具，它允许用户使用SQL-like语言（HQL，Hive Query Language）对大规模存储在Hadoop分布式文件系统（HDFS）中的数据进行查询、分析和处理。Hive-1.1.0-cdh5.7.0是...

HIVE安装及详解: HIVE是一种基于Hadoop的数据仓库工具，主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么？HIVE是一种数据仓库工具，主要用于处理和分析大规模数据。它将结构化数据文件转换为...

hive的学习资料: Hive 是一个基于 Hadoop 的数据仓库系统，它主要设计用于处理和管理大规模数据集。Hive 提供了一个类似 SQL 的查询语言——HiveQL，使得非 MapReduce 开发者也能方便地进行大数据分析。此外，Hive 还允许 MapReduce ...

hive安装包: 1. **配置Hive**：修改`conf/hive-site.xml`，配置Hive与Hadoop的连接信息，如HDFS的地址、Hive Metastore的数据库连接信息等。 2. **启动Hive**：运行`bin/hive`启动Hive CLI，或者启动Hive Server以供远程连接。 3...

hive安装及相关知识整理: 7. **启动Hive**：通过命令行启动Hive服务器，如`hive --service metastore`启动metastore服务，然后使用`hive`命令进入Hive shell。 **三、Hive基本操作** 1. **创建表**：可以定义列名、列类型和分区等，如`...

apache-hive-2.3.7-bin 博客同款: Apache Hive 是一个基于 Hadoop 的数据仓库工具，用于查询、管理和处理存储在 Hadoop 分布式文件系统（HDFS）中的大规模数据集。Hive 提供了一种 SQL 类似的查询语言，称为 HiveQL，使得非程序员也能方便地对大数据...

Global site tag (gtag.js) - Google Analytics