hive having count 不能去重 - duncan--学无止境 - ITeye博客

`

daizj

浏览: 795961 次
性别:
来自: 广州

最近访客更多访客>>

guwq2014

snowolf

junes_yu

yuanyuan7891

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hive having count 不能去重

博客分类：

hive

hive having count 去重计数

阅读更多

hive在使用having count()是，不支持去重计数

hive (default)> select username from t_test_phonenum where ds=20150701 group by username having count(distinct sex)>1 limit 10;

FAILED: SemanticException [Error 10002]: Line 1:95 Invalid column reference 'sex'

hive (default)> select username from t_test_phonenum where ds=20150701 group by username having count(sex)>1 limit 10;

Total MapReduce jobs = 1

Launching Job 1 out of 1

Number of reduce tasks not specified. Estimated from input data size: 1

In order to change the average load for a reducer (in bytes):

set hive.exec.reducers.bytes.per.reducer=<number>

In order to limit the maximum number of reducers:

set hive.exec.reducers.max=<number>

In order to set a constant number of reducers:

set mapred.reduce.tasks=<number>

Starting Job = job_201503201830_2570778, Tracking URL = http://10-198-131-242:8080/jobdetails.jsp?jobid=job_201503201830_2570778

Kill Command = /data/home/hadoop-1.2.1/libexec/../bin/hadoop job -kill job_201503201830_2570778

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1

2015-07-03 11:07:16,954 Stage-1 map = 0%, reduce = 0%

2015-07-03 11:07:33,530 Stage-1 map = 100%, reduce = 0%

2015-07-03 11:07:47,620 Stage-1 map = 100%, reduce = 33%, Cumulative CPU 14.32 sec

2015-07-03 11:07:55,742 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 20.78 sec

MapReduce Total cumulative CPU time: 20 seconds 780 msec

Ended Job = job_201503201830_2570778

MapReduce Jobs Launched:

Job 0: Map: 1 Reduce: 1 Cumulative CPU: 20.78 sec HDFS Read: 17371199 HDFS Write: 98 SUCCESS

Total MapReduce CPU Time Spent: 20 seconds 780 msec

OK

02541213XXXXX

特此记录一下

0
顶

0
踩

分享到：

SecureCRT快捷键 | Shell 流程控制

2015-07-03 11:10
浏览 7595
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Spark不能使用hive自定义函数.doc: 1. **环境配置不兼容**：Spark 和 Hive 的运行环境可能存在不一致的地方，比如版本不匹配等。 2. **类路径问题**：Spark 在启动时可能没有正确地加载到 Hive 的自定义函数所在的 jar 包。 3. **依赖管理**：Hive UDF...

部分普通sql查询在hive中的实现方式: 在查询中不能同时出现多条`COUNT(DISTINCT)`语句 - **背景**：在Hive中，对于单个`GROUP BY`子句下包含多个`COUNT(DISTINCT)`的情况，Hive只能支持其中一个`COUNT(DISTINCT)`。 - **示例**：下面的查询是可以在...

hive客户端安装_hive客户端安装_hive_: 在大数据处理领域，Hive是一个非常重要的工具，它提供了一个基于Hadoop的数据仓库基础设施，用于数据查询、分析和管理大规模数据集。本教程将详细讲解如何在Linux环境下安装Hive客户端，以便进行数据操作和分析。 ...

HIVE安装及详解: "HIVE安装及详解" HIVE是一种基于Hadoop的数据仓库工具，主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么？HIVE是一种数据仓库工具，主要用于处理和分析大规模数据。它将...

spark或mr引擎插入的数据，hive表查询数据为0: 1. **源头上更换引擎**：最简单直接的方式是不在数据源端使用Tez引擎，而是选择使用Hive或Spark-SQL直接进行数据写入。这种方式避免了额外子目录的生成，从而消除了后续查询中的潜在问题。 2. **使用Tez引擎并进行二...

presto和hive的使用区别: Hive是把一个查询转化成多个MapReduce任务，然后一个接一个执行。执行的中间结果通过对磁盘的读写来同步。然而，Presto没有使用MapReduce，它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中...

apache-hive-2.3.9-bin.tar大数据HIVE.zip: 总之，Apache Hive 2.3.9 是大数据开发中不可或缺的一部分，它提供了灵活的数据查询和管理工具，让数据分析师和开发人员能够高效地处理海量数据。结合Java和Hadoop生态系统，Hive在大数据分析领域发挥着重要作用。

Hive_JDBC.zip_hive java_hive jdbc_hive jdbc pom_java hive_maven连: 在大数据处理领域，Apache Hive是一个基于Hadoop的数据仓库工具，它允许用户使用SQL（HQL，Hive Query Language）查询存储在Hadoop集群中的大型数据集。Hive JDBC（Java Database Connectivity）是Hive提供的一种...

hive-3.1.1安装包: 它不仅可以存储大量的数据而且可以对存储的数据进行分析，但它有个缺点就是不能实时的更新数据，无法直接修改和删除数据，如果想要修改数据需要先把数据所在的文件下载下来，修改完之后再上传上去。 Hive也不是...

Hive3.1.2编译源码: 使用hive3.1.2和spark3.0.0配置hive on spark的时候，发现官方下载的hive3.1.2和spark3.0.0不兼容，hive3.1.2对应的版本是spark2.3.0，而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。所以，如果想要使用高...

Ambari下Hive3.0升级到Hive4.0: 这通常涉及到运行特定的迁移脚本，以确保 Hive 3.0 的元数据能在 Hive 4.0 中正确解析。 6. **服务升级**：在 Ambari 中，按照界面提示进行服务的升级操作。这包括停止 Hive 3.0 服务，升级相关组件，然后启动 Hive...

Hive总结.docx: Hive提供了丰富的内置函数，包括聚合函数（SUM、COUNT、AVG等）、数学函数、字符串函数、日期函数等，以及用户自定义函数（UDF）能力，满足不同类型的计算需求。【数据仓库分层和建模】在数据仓库中，通常会采用...

Hive JDBC连接: hive2.3.2 JDBC连接，sql developer可用。选择第三方jdbc，加入，就可以显示hive连接。用的cloudra的jdbc用于连接操作数据库，java开发请使用maven获取开源组件。

Hive驱动1.1.0.zip: 2. **hive-jdbc.jar**：提供Hive的JDBC驱动，使你能通过JDBC接口连接到Hive服务器。 3. **libthrift.jar**：Thrift库，Hive使用的RPC框架，用于跨语言通信。 4. **hadoop-common.jar** 和 **hadoop-hdfs.jar**：...

hive开启权限后不能创建数据库问题: 背景：由于Hive需要开启权限管理，安装网上教程，开启权限配置，重启集群后。使用root用户登录，进入Hive命令行界面。执行 create database test; 发现报错： Authorization failed:No privilege 'Create' found ...

hive-3.1.3 hive-3.1.3 hive-3.1.3: 例如，Hive不支持行级别的更新、删除或插入操作，它主要用于批量处理。Hive的查询性能通常比传统的数据仓库要慢，因为它依赖于Hadoop的MapReduce计算框架，这是一个批处理框架，不适合低延迟的数据访问。Hive也缺乏...

如何在python中写hive脚本: hive_cmd = 'hive -e "select count(*) from hbase.routermac_sort_10;"' os.system(hive_cmd) ``` 或者，将结果保存到DataFrame： ```python hive_cmd = 'hive -f ./user.sql' output1 = os.popen(hive_...

Hive-工具篇_hive_: - **分组与聚合**：GROUP BY和HAVING用于数据分组和条件过滤，配合COUNT、SUM、AVG等聚合函数进行统计分析。 - **窗口函数**：ROW_NUMBER、RANK、LEAD和LAG等窗口函数在分析排序数据时非常有用，例如计算排名或...

连接hive依赖的jar包_hive连接方式: 在大数据处理领域，Hive是一个基于Hadoop的数据仓库工具，它可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，使得用户可以使用SQL语句来处理存储在Hadoop分布式文件系统（HDFS）上的大数据。...

Hive用户指南 Hive user guide 中文版: - **不同点**：与传统的RDBMS相比，Hive的数据模型更加面向批处理，不支持事务处理，也没有行级的更新和删除操作。此外，Hive的性能也受到Hadoop MapReduce框架的限制。 **1.4 Hive元数据库** Hive使用元数据库来...

Global site tag (gtag.js) - Google Analytics