骑毛驴的关羽

浏览: 136644 次
性别:
来自: 杭州

最近访客更多访客>>

hermen

fanan_666

linkahu

AnonymMan

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

用Oracle的分析函数删除重复的数据

博客分类：

Oracle
SQL

oracle sql 分析函数

用Oracle的分析函数删除重复的数据

没有主键(Primary Key)约束保护的表格可能会让重复的数据行被插入进来。查找这种重复数据的传统方式是通过GROUP BY和HAVING关键字进行查询。在根据关键列把数据分组并计算每个组里的行数之后，有一个以上成员的组就是带有重复数据的组。

尽管发现这样的数据行很容易，但是解决这一问题却十分耗时。在Oracle里，独特的ROWID伪列(pseudocolumn)意味着没有两个列是真正一模一样的。你可以总是利用删除(DELETE)查询来参考一个以外的所有ROWID，以便删除所有的重复数据。这非常有效——如果你没有太多的重复数据需要删除的话。而Oracle 9i里引入的分析函数给予了我们一种更简单的方式来进行这种清除工作。

　　ROW_NUMBER()分析函数与ROWNUM伪列相似的地方在于它们都能够给输出的行编号。但是ROWNUM给出的是整个数据列完整的序列，而ROW_NUMBER会在我们在数据列里定义的每个分区里把编号重新设置回1。这样做的结果是不仅能够很容易就看到哪个组里有多个成员，还能够确切知道需要删除哪个行。

　　分析查询的格式是：

　　Functionname (arguments) OVER (PARTITION BY columns ORDER BY columns)

　　现在让我们假设在创建SCOTT.EMP表格副本的时候出现了错误，所有的行都被输入了两遍。尝试加入一个主键约束会失败，因为数据已经出现了重复。列表A显示了这一过程，为了清楚说明问题，它被分成两个阶段：

　　Listing A SQL> -- Will you just LOOK at this table? Lots of duplicates!

　　SQL>

　　SQL> SELECT empno, ename

　　FROM emp2

　　ORDER BY empno;

　　EMPNO ENAME

　　---------- ----------

　　7369 SMITH

　　7499 ALLEN

　　7521 WARD

　　7566 JONES

　　7654 MARTIN

　　7698 BLAKE

　　7782 CLARK

　　7788 SCOTT

　　7839 KING

　　7844 TURNER

　　7876 ADAMS

　　7900 JAMES

　　7902 FORD

　　7934 MILLER

　　28 rows selected.

　　SQL> -- First step: number the duplicates of each empno

　　SQL>

　　SQL> SELECT ROWID, ROW_NUMBER() OVER (PARTITION BY empno ORDER BY empno) rn

　　FROM emp2;

　　ROWID RN

　　------------------ ----------

　　AAAM1UAAEAAAAGsAAA 1

　　AAAM1UAAEAAAAGuAAA 2

　　AAAM1UAAEAAAAGuAAB 1

　　AAAM1UAAEAAAAGsAAB 2

　　AAAM1UAAEAAAAGsAAC 1

　　AAAM1UAAEAAAAGuAAC 2

　　AAAM1UAAEAAAAGuAAD 1

　　AAAM1UAAEAAAAGsAAD 2

　　AAAM1UAAEAAAAGsAAE 1

　　AAAM1UAAEAAAAGuAAE 2

　　AAAM1UAAEAAAAGsAAF 1

　　AAAM1UAAEAAAAGuAAF 2

　　AAAM1UAAEAAAAGsAAG 1

　　AAAM1UAAEAAAAGuAAG 2

　　AAAM1UAAEAAAAGsAAH 1

　　AAAM1UAAEAAAAGuAAH 2

　　AAAM1UAAEAAAAGsAAI 1

　　AAAM1UAAEAAAAGuAAI 2

　　AAAM1UAAEAAAAGsAAJ 1

　　AAAM1UAAEAAAAGuAAJ 2

　　AAAM1UAAEAAAAGsAAK 1

　　AAAM1UAAEAAAAGuAAK 2

　　AAAM1UAAEAAAAGsAAL 1

　　AAAM1UAAEAAAAGuAAL 2

　　AAAM1UAAEAAAAGsAAM 1

　　AAAM1UAAEAAAAGuAAM 2

　　AAAM1UAAEAAAAGuAAN 1

　　AAAM1UAAEAAAAGsAAN 2

　　28 rows selected.

　　SQL> -- Now, use that as an inline view, and select just the dups

　　SQL> -- We're including the row number, it won't be in the final query

　　SQL>

　　SQL> SELECT ROWID, rn

　　FROM

　　(SELECT ROWID, ROW_NUMBER() OVER (PARTITION BY empno ORDER BY empno) rn

　　FROM emp2)

　　WHERE rn > 1;

　　ROWID RN

　　------------------ ----------

　　AAAM1UAAEAAAAGuAAA 2

　　AAAM1UAAEAAAAGsAAB 2

　　AAAM1UAAEAAAAGuAAC 2

　　AAAM1UAAEAAAAGsAAD 2

　　AAAM1UAAEAAAAGuAAE 2

　　AAAM1UAAEAAAAGuAAF 2

　　AAAM1UAAEAAAAGuAAG 2

　　AAAM1UAAEAAAAGuAAH 2

　　AAAM1UAAEAAAAGuAAI 2

　　AAAM1UAAEAAAAGuAAJ 2

　　AAAM1UAAEAAAAGuAAK 2

　　AAAM1UAAEAAAAGuAAL 2

　　AAAM1UAAEAAAAGuAAM 2

　　AAAM1UAAEAAAAGsAAN 2

　　14 rows selected.

　　SQL> -- Now we DELETE all the rows in that set

　　SQL>

　　SQL> DELETE FROM emp2

　　WHERE ROWID IN

　　(SELECT ROWID

　　FROM (SELECT ROWID,

　　ROW_NUMBER() OVER (PARTITION BY empno ORDER BY EMPNO) rn

　　FROM emp2)

　　WHERE rn > 1);

　　14 rows deleted.

　　SQL> commit;

　　Commit complete.

　　SQL> -- Show the de-dup'ed table

　　SQL>

　　SQL> SELECT empno, ename

　　FROM emp2;

　　EMPNO ENAME

　　---------- ----------

　　7369 SMITH

　　7521 WARD

　　7654 MARTIN

　　7698 BLAKE

　　7782 CLARK

　　7788 SCOTT

　　7839 KING

　　7844 TURNER

　　7876 ADAMS

　　7900 JAMES

　　7902 FORD

　　7499 ALLEN

　　7566 JONES

　　7934 MILLER

　　首先是一个分析查询，通过empno行来分区；它使用ROW_NUMBER()给每个分区进行编号。如果没有重复的内容，分区就只有一个行，编号是“1”。但是，如果存在重复，那么它们就会被编上2、3等号码。这个查询还会返回我们用来唯一识别数据行的ROWID。第一个查询然后就被用作另外一个查询的内联视图，这第二个查询使用一个WHERE子句过滤掉“1”行，只返回重复的内容。最后，一个DELETE语句通过第二个查询使用IN操作符来删掉所有的重复内容。

　　就和所有的大规模DELETE一样，你需要记住的是，最好把想要保留的行(也就是说那些ROW_NUMBER为1的行)保存到一个新的表格里。INSERT所造成的负载要比DELETE小得多。

分享到：

ORACLE ROLLUP和CUBE的使用 | Oracle分析函数

2014-08-13 15:52
浏览 759
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

用Oracle的分析函数删除重复的数据

用Oracle的分析函数删除重复的数据

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

用Oracle的分析函数删除重复的数据

用Oracle的分析函数删除重复的数据

评论

发表评论

相关推荐

ORACLE ROLLUP和CUBE的使用

Oracle分析函数

Oracle外连接中对非连接条件使用（+）需要注意的地方

oracle表分区详解【转】

shell执行oracle存储过程，获得存储过程返回值【转】

SQL server 与Oracle开发比较【转】

SQL/Oracle取出第 m 条到第 n 条记录的方法

SQL Server中的行列转换问题

Teradata数据库SQL命令

Teradata数据库中的求字段值的长度函数（即对应SQL中的Length（）函数）

用 IBM WebSphere DataStage 进行数据整合：第 3 部分: 实时数据整合

用 IBM WebSphere DataStage 进行数据整合：第 2 部分

用 IBM WebSphere DataStage 进行数据整合：第 1 部分

（转载）SQL函数说明大全

SQL Server CONVERT() 函数

inner join on, left join on, right join on

SELECT INTO FROM 与 INSERT INTO SELECT

常用DDL,DML,DCL SQL语句大全

oracle的函数

最近访客更多访客>>