`

hive having count 不能去重

    博客分类:
  • hive
阅读更多

hive在使用having count()是,不支持去重计数

 

hive (default)> select username from t_test_phonenum where ds=20150701 group by username having count(distinct sex)>1 limit 10; 

FAILED: SemanticException [Error 10002]: Line 1:95 Invalid column reference 'sex'

 

hive (default)> select username from t_test_phonenum where ds=20150701 group by username having count(sex)>1 limit 10;          

Total MapReduce jobs = 1

Launching Job 1 out of 1

Number of reduce tasks not specified. Estimated from input data size: 1

In order to change the average load for a reducer (in bytes):

  set hive.exec.reducers.bytes.per.reducer=<number>

In order to limit the maximum number of reducers:

  set hive.exec.reducers.max=<number>

In order to set a constant number of reducers:

  set mapred.reduce.tasks=<number>

Starting Job = job_201503201830_2570778, Tracking URL = http://10-198-131-242:8080/jobdetails.jsp?jobid=job_201503201830_2570778

Kill Command = /data/home/hadoop-1.2.1/libexec/../bin/hadoop job  -kill job_201503201830_2570778

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1

2015-07-03 11:07:16,954 Stage-1 map = 0%,  reduce = 0%

2015-07-03 11:07:33,530 Stage-1 map = 100%,  reduce = 0%

2015-07-03 11:07:47,620 Stage-1 map = 100%,  reduce = 33%, Cumulative CPU 14.32 sec

2015-07-03 11:07:55,742 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 20.78 sec

MapReduce Total cumulative CPU time: 20 seconds 780 msec

Ended Job = job_201503201830_2570778

MapReduce Jobs Launched: 

Job 0: Map: 1  Reduce: 1   Cumulative CPU: 20.78 sec   HDFS Read: 17371199 HDFS Write: 98 SUCCESS

Total MapReduce CPU Time Spent: 20 seconds 780 msec

OK

02541213XXXXX

 

特此记录一下

 

0
0
分享到:
评论

相关推荐

    Spark不能使用hive自定义函数.doc

    1. **环境配置不兼容**:Spark 和 Hive 的运行环境可能存在不一致的地方,比如版本不匹配等。 2. **类路径问题**:Spark 在启动时可能没有正确地加载到 Hive 的自定义函数所在的 jar 包。 3. **依赖管理**:Hive UDF...

    部分普通sql查询在hive中的实现方式

    在查询中不能同时出现多条`COUNT(DISTINCT)`语句 - **背景**:在Hive中,对于单个`GROUP BY`子句下包含多个`COUNT(DISTINCT)`的情况,Hive只能支持其中一个`COUNT(DISTINCT)`。 - **示例**:下面的查询是可以在...

    hive客户端安装_hive客户端安装_hive_

    在大数据处理领域,Hive是一个非常重要的工具,它提供了一个基于Hadoop的数据仓库基础设施,用于数据查询、分析和管理大规模数据集。本教程将详细讲解如何在Linux环境下安装Hive客户端,以便进行数据操作和分析。 ...

    presto和hive的使用区别

    Hive是把一个查询转化成多个MapReduce任务,然后一个接一个执行。执行的中间结果通过对磁盘的读写来同步。然而,Presto没有使用MapReduce,它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中...

    HIVE安装及详解

    "HIVE安装及详解" HIVE是一种基于Hadoop的数据仓库工具,主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么?HIVE是一种数据仓库工具,主要用于处理和分析大规模数据。它将...

    Hive3.1.2编译源码

    使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高...

    hive-3.1.1安装包

    它不仅可以存储大量的数据而且可以对存储的数据进行分析,但它有个缺点就是不能实时的更新数据,无法直接修改和删除数据,如果想要修改数据需要先把数据所在的文件下载下来,修改完之后再上传上去。 Hive也不是...

    apache-hive-2.3.9-bin.tar大数据HIVE.zip

    总之,Apache Hive 2.3.9 是大数据开发中不可或缺的一部分,它提供了灵活的数据查询和管理工具,让数据分析师和开发人员能够高效地处理海量数据。结合Java和Hadoop生态系统,Hive在大数据分析领域发挥着重要作用。

    Hive_JDBC.zip_hive java_hive jdbc_hive jdbc pom_java hive_maven连

    在大数据处理领域,Apache Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询存储在Hadoop集群中的大型数据集。Hive JDBC(Java Database Connectivity)是Hive提供的一种...

    Ambari下Hive3.0升级到Hive4.0

    这通常涉及到运行特定的迁移脚本,以确保 Hive 3.0 的元数据能在 Hive 4.0 中正确解析。 6. **服务升级**:在 Ambari 中,按照界面提示进行服务的升级操作。这包括停止 Hive 3.0 服务,升级相关组件,然后启动 Hive...

    Hive总结.docx

    Hive提供了丰富的内置函数,包括聚合函数(SUM、COUNT、AVG等)、数学函数、字符串函数、日期函数等,以及用户自定义函数(UDF)能力,满足不同类型的计算需求。 【数据仓库分层和建模】 在数据仓库中,通常会采用...

    Hive驱动1.1.0.zip

    2. **hive-jdbc.jar**:提供Hive的JDBC驱动,使你能通过JDBC接口连接到Hive服务器。 3. **libthrift.jar**:Thrift库,Hive使用的RPC框架,用于跨语言通信。 4. **hadoop-common.jar** 和 **hadoop-hdfs.jar**:...

    Hive JDBC连接

    hive2.3.2 JDBC连接 ,sql developer可用。选择第三方jdbc,加入,就可以显示hive连接。用的cloudra的jdbc用于连接操作数据库,java开发请使用maven获取开源组件。

    hive开启权限后不能创建数据库问题

    背景:由于Hive需要开启权限管理,安装网上教程,开启权限配置,重启集群后。 使用root用户登录,进入Hive命令行界面。 执行 create database test; 发现报错: Authorization failed:No privilege 'Create' found ...

    如何在python中写hive脚本

    hive_cmd = 'hive -e "select count(*) from hbase.routermac_sort_10;"' os.system(hive_cmd) ``` 或者,将结果保存到DataFrame: ```python hive_cmd = 'hive -f ./user.sql' output1 = os.popen(hive_...

    Hive-工具篇_hive_

    - **分组与聚合**:GROUP BY和HAVING用于数据分组和条件过滤,配合COUNT、SUM、AVG等聚合函数进行统计分析。 - **窗口函数**:ROW_NUMBER、RANK、LEAD和LAG等窗口函数在分析排序数据时非常有用,例如计算排名或...

    Hive用户指南 Hive user guide 中文版

    - **不同点**:与传统的RDBMS相比,Hive的数据模型更加面向批处理,不支持事务处理,也没有行级的更新和删除操作。此外,Hive的性能也受到Hadoop MapReduce框架的限制。 **1.4 Hive元数据库** Hive使用元数据库来...

    连接hive依赖的jar包_hive连接方式

    在大数据处理领域,Hive是一个基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,使得用户可以使用SQL语句来处理存储在Hadoop分布式文件系统(HDFS)上的大数据。...

    Hive表生成工具,Hive表生成工具Hive表生成工具

    Hive表生成工具,Hive表生成工具Hive表生成工具

    Hive新手学习资料之Hive入门与实战.+Hive用户手册+hive函数大全中文版资源合集

    hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加...

Global site tag (gtag.js) - Google Analytics