GROUP BY...HAVING 组合查询大总结 -

weitao1026

浏览: 1069637 次
性别:
来自: 上海

最近访客更多访客>>

vicento4

723499280

liuzidong

s1986q

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

GROUP BY...HAVING 组合查询大总结

博客分类：

mysql/oracle/sqlserver/db2/mongdb/redis/neo4j/GreenPlum/Teradata/hsqldb/Derby/sakila

一、GROUP BY的理解

GROUP BY是SELECT语句的从句，用来指定查询分组条件，主要用来对查询的结果进行分组，相同组合的分组条件在结果集中只显示一行记录。使用GROUP BY从句时候，通过添加聚合函数（主要有COUNT()、SUM、MAX()、MIN()等）可以使数据聚合。

GROUP BY插叙列中使用聚合函数是针对每个分组的。例如：

SELECT SUBSTR(A.HYLB_DM,1,2),COUNT(*)

FROM DJ_ZT A

GROUP BY SUBSTR(A.HYLB_DM,1,2);

-----------------------

01 2071

02 679

03 17952

04 150

05 5921

06 11406

07 3030

08 51308

09 3940

10 1229

11 3548

12 6916

13 1003

14 537

15 11471

16 44

17 135

18 676

19 5747

'[Null]' 84

GROUP BY用来指定分组条件，是一个数学集合的概念，比如针对一列进行分组，则组合分组条件的集合数为1。如果有两个分组条件，则组合分组条件的集合数为2。因此带有GROUP BY的查询一般成为分组查询，也叫组合查询。组合记录的多少取决于组合集合（不包含重复元素）中元素的个数。例如，组合条件为一列，则查询结果集记录条数应该等于这个列所有字段所组成（数学意义上的）集合的元素个数（NULL字段也算一个）。如果有两个组合列，则记录数等于实际中存在的两个列所组合的数目。

SELECT XZ,DFMC
FROM ODS.DM_RPT_QYHF
WHERE XZ='02'
GROUP BY XZ,DFMC;
--------------------------
02 '中外合作'
02 '中外合资'
02 '中外股份'
02 '外商投资'
02 '外国及港澳台地区在境经营'
02 '外国及港澳台地区常驻代表机构'

SELECT XZ,DFMC
FROM ODS.DM_RPT_QYHF
GROUP BY XZ,DFMC;
--------------------------
01 '其他'
01 '内资公司'
01 '国有'
01 '股份合作'
01 '集体'
02 '中外合作'
02 '中外合资'
02 '中外股份'
02 '外商投资'
02 '外国及港澳台地区在境经营'
02 '外国及港澳台地区常驻代表机构'
03 '个人独资'
03 '合伙企业'
03 '私营有限'
03 '私营股份'
'[Null]' '[Null]'

SELECT XZ,DFDM,DFMC,COUNT(*)
FROM ODS.DM_RPT_QYHF
GROUP BY XZ,DFDM,DFMC;

----------------------------------------------------

01      01      '国有' 4
01      02      '集体' 4
01      03      '股份合作'      3
01      04      '内资公司'      26
01      05      '其他' 2
02      01      '中外合资'      2
02      02      '中外合作'      4
02      03      '外商投资'      28
02      04      '中外股份'      4
02      06      '外国及港澳台地区在境经营'      1
02      07      '外国及港澳台地区常驻代表机构' 1
03      01      '私营有限'      6
03      02      '私营股份'      4
03      03      '个人独资'      1
03      04      '合伙企业'      1
'[Null]'        '[Null]'        '[Null]'        43

GROUP BY组合列必须出现查询的SELECT关键字后面，相同组合条件的情况下仅仅保留一个。因此,通过SELECT...GROUP BY查询出的各个列都应该是数目相同，要达到相同的目的，有两种途径：一种是将要查询的字段方到组合条件中，一种是在非组合条件的字段上使用聚合函数，当然也可以在组合列上聚合函数。处子之外，别无它法！如果查询的各个列结果数目不相等，则结果集会出现“不能对齐”的错误。因此，将非组合条件的列在不使用聚合函数条件下放到要查询的列中，这种做法是完全错误的。

SELECT XZ

FROM ODS.DM_RPT_QYHF

GROUP BY XZ;

-----------------------

'[Null]'

GROUP BY在做组合查询的时候，会对NULL的分组单独形成一行，进行统计。参看上面的SQL。

GROUP BY对组合条件列来说，本身就会自动分组（剔除重复的列），因此在组合条件的列上应用DISTINCT关键字是多于的。但是用在非组合条件（都有聚合函数）的列上使用DISTINCT却不是多余的。

SELECT COUNT(DISTINCT(A.QYLX_ZL))

FROM DJ_ZT A

GROUP BY SUBSTR(A.QYLX_ZL,1,1);

-------------------------

1 3 11

2 2 9

3 6 2

4 5 10

5 3 9

6 1 6

7 2 2

8 2 1

9 3 2

GROUP BY不但可以对列组合，还可以对列的表达式进行组合。

例如：

SELECT

COUNT(A.BS) AS HS,

B.HYML_DM AS HYML_DM,

(SELECT HYML_MC FROM DM_HYML WHERE HYML_DM=B.HYML_DM) AS HYML_MC

FROM DJ_ZT A RIGHT OUTER JOIN DM_HYML B

ON SUBSTR(A.HYLB_DM,1,2)=B.HYML_DM

GROUP BY B.HYML_DM;

-----------------------------------

2071 01 '农、林、牧、渔业'

17952 03 '制造业'

679 02 '采矿业'

150 04 '电力、燃气及水的生产和供应业'

5921 05 '建筑业'

11406 06 '交通运输、仓储和邮政业'

3030 07 '信息传输、计算机服务和软件业'

51308 08 '批发和零售业'

3940 09 '住宿和餐饮业'

1229 10 '金融业'

3548 11 '房地产业'

6916 12 '租赁和商务服务业'

1003 13 '科学研究、技术服务和地质勘查业'

537 14 '水利、环境和公共设施管理业'

11471 15 '居民服务和其他服务业'

44 16 '教育'

135 17 '卫生、社会保障和社会福利业'

676 18 '文化、体育和娱乐业'

5747 19 '公共管理和社会组织'

0 20 '国际组织'

可以在SELECT ... GROUP BY 分组后筛选数据。筛选的关键字是HAVING。HAVING的作用和WHERE类似。都是用来过滤查询的中间记录。但是，HAVING从句指定的每个列规范必须出现在一个聚合函数内，或者出现在GROUP BY从句命名的列中。与WHERE不同的是：WHERE是在分组前（查询后）筛选数据；HAVING是在分组后筛选数据。

例如：

SELECT

SUBSTR(A.HYLB_DM,1,2),

COUNT(*),

SUM(A.ZCZB)

FROM DJ_ZT A

GROUP BY SUBSTR(A.HYLB_DM,1,2)

HAVING MAX(YEAR(A.CJRQ))<>2007;

-----------------------------

08 51308 2988475.0376

SELECT

SUBSTR(A.HYLB_DM,1,2),

COUNT(*),

SUM(A.ZCZB)

FROM DJ_ZT A

GROUP BY SUBSTR(A.HYLB_DM,1,2)

HAVING MAX(YEAR(A.CJRQ))<>2007 AND COUNT(*)>2;

------------------------------

08 51308 2988475.0376

再如一个比较特殊的例子，对比一下看看：

SELECT SUBSTR(HY_DM,1,2), COUNT(HY_DM)

FROM DM_HY

GROUP BY SUBSTR(HY_DM,1,2)

ORDER BY SUBSTR(HY_DM,1,2);

------------------------------

01 53

02 44

03 620

04 14

05 15

06 58

07 21

08 117

09 10

10 21

11 6

12 37

13 30

14 26

15 21

16 18

17 22

18 38

19 34

20 2

SELECT SUBSTR(HY_DM,1,2), COUNT(HY_DM)

FROM DM_HY

GROUP BY SUBSTR(HY_DM,1,2)

HAVING COUNT(*)>100

ORDER BY SUBSTR(HY_DM,1,2);

------------------------------

03 620

08 117

从此可以看出COUNT(*)是对每一个分组的。

另外，有时候可以在分组之前进行数据筛选并排序,比如：

SELECT SUBSTR(A.HY_DM,1,2)

FROM DM_HY A

WHERE SUBSTR(A.HY_DM,1,2) NOT LIKE '01'

GROUP BY SUBSTR(A.HY_DM,1,2)

ORDER BY SUBSTR(A.HY_DM,1,2) ASC;

---------------

二、GROUP BY的高级用法

1、GROUP BY ... WITH ROLLUP 上滚统计

SELECT SUBSTR(A.HYLB_DM,1,2),COUNT(*)

FROM DJ_ZT A

GROUP BY SUBSTR(A.HYLB_DM,1,2) WITH ROLLUP;

-------------------------------

'[Null]' 127847

01 2071

02 679

03 17952

04 150

05 5921

06 11406

07 3030

08 51308

09 3940

10 1229

11 3548

12 6916

13 1003

14 537

15 11471

16 44

17 135

18 676

19 5747

'[Null]' 84

2、GROUP BY ... WITH CUBE

这个查询对于一个组合条件时候和上滚查询的结果相同，但有多个组合条件时候，此语句会产生用NULL和各个组合字段进行匹配，形成新的记录行，并进行统计。这个函数平时很不常用。

一个组合条件的情况：

SELECT SUBSTR(A.HYLB_DM,1,2),COUNT(*)

FROM DJ_ZT A

WHERE A.ZCZB>100

GROUP BY SUBSTR(A.HYLB_DM,1,2) WITH CUBE;

-------------------------------

'[Null]' 11026

01 350

02 18

03 2721

04 47

05 1228

06 235

07 292

08 2477

09 212

10 135

11 1430

12 420

13 116

14 86

15 988

16 8

17 9

18 68

19 182

'[Null]' 4

两个组合条件，对比一下，一目了然：

第一种：不加WITH CUBE条件：

SELECT SUBSTR(A.HYLB_DM,1,2),SUBSTR(A.QYLX_ZL,1,1),COUNT(*)

FROM DJ_ZT A

WHERE A.ZCZB>100

AND A.HYLB_DM IS NOT NULL

AND A.QYLX_ZL IS NOT NULL

AND SUBSTR(A.HYLB_DM,1,2) NOT IN('03','04','05','06','07','08','09','10','11','12','13','14','15','16','17','18','19','20')

AND A.QYLX_DM='01'

GROUP BY SUBSTR(A.HYLB_DM,1,2),SUBSTR(A.QYLX_ZL,1,1);

---------------------------

01 1 41

01 3 18

02 1 4

第二种：加上WITH CUBE条件：

SELECT SUBSTR(A.HYLB_DM,1,2),SUBSTR(A.QYLX_ZL,1,1),COUNT(*)

FROM DJ_ZT A

WHERE A.ZCZB>100

AND A.HYLB_DM IS NOT NULL

AND A.QYLX_ZL IS NOT NULL

AND SUBSTR(A.HYLB_DM,1,2) NOT IN('03','04','05','06','07','08','09','10','11','12','13','14','15','16','17','18','19','20')

AND A.QYLX_DM='01'

GROUP BY SUBSTR(A.HYLB_DM,1,2),SUBSTR(A.QYLX_ZL,1,1) WITH CUBE;

---------------------------

'[Null]' 1 45

'[Null]' 3 18

'[Null]' '[Null]' 63

01 '[Null]' 59

02 '[Null]' 4

01 1 41

01 3 18

02 1 4

三、核心原理

只有深入理解这些语句执行的过程才能做到心中有数，明明白白写SQL。下面是带有WHERE和HAVING的SELECT语句执行过程：

1、执行WHERE筛选数据

2、执行GROUP BY分组形成中间分组表

3、执行WITH ROLLUP/CUBE生成统计分析数据记录并加入中间分组表

4、执行HAVING筛选中间分组表

5、执行ORDER BY排序

呵呵，知道了执行过程，神秘的GROUP/WHERE/HAVING/WITH...将不再神秘。

分享到：

MATLAB | SQL如何查询一张表的所有字段并按其中一个 ...

2016-12-22 13:45
浏览 498
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

GROUP BY...HAVING 组合查询大总结

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

GROUP BY...HAVING 组合查询大总结

评论

发表评论

相关推荐

Mysql中DATE_SUB 使用方法结合查询一天内,一周内,一月内的信息实例讲解

MySQL里获取当前week、month、quarter的start_date/end_date

查看数据库

数据导入到数据库

使用数据库客户端工具Oracle SQL Developer加载第三方驱动连接mysql的方法

数据连接符

commit

Redis操作命令总结

PostgreSQL中表名、字段名大小写问题

怎么解决Greenplum中用pg

mysql unrecognized service问题解决

Oracle创建视图、通过视图创建表

PostgreSQL中表名、字段名大小写问题

关于性能测试几个名词概念的说明

数据库性能优化详解

Oracle怎样把varchar2型转成number型

oracle中字符串的大小比较，字符串与数字的比较和运算

greenplum 程序开发优化原则

PostgreSQL 时序最佳实践 - 证券交易系统数据库设计 - 阿里云RDS PostgreSQL最佳实践

PostgreSQL 时序最佳实践

最近访客更多访客>>