`

如何用MYSQL删除表中重复数据

 
阅读更多

 

 通常情况下,一个我们在做一个产品的时候,一开始可能由于设计考虑不周或者程序写的不够严谨,某个字段上的值产生重复了,但是又必须去掉,这个时候就稍微麻烦了一点,直接加一个 UNIQUE KEY 肯定是不行了,因为会报错。
 现在,我们来采用一种变通的办法,不过可能会丢失一些数据 :)

 在这里,我们设定一个表,其结构如下:

mysql> desc `user`;
+-------+------------------+------+-----+---------+----------------+
| Field | Type             | Null | Key | Default | Extra          |
+-------+------------------+------+-----+---------+----------------+
| id    | int(10) unsigned | NO   | PRI | NULL    | auto_increment |
| name  | char(10)         | NO   |     |         |                |
| extra | char(10)         | NO   |     |         |                |
+-------+------------------+------+-----+---------+----------------+

 原来表中的数据假定有以下几条:

mysql> SELECT * FROM `user`;
+----+-------+--------+
| id | name  | extra  |
+----+-------+--------+
|  1 | user1 | user1  |
|  2 | user2 | user2  |
|  3 | user3 | user3  |
|  4 | user4 | user4  |
|  5 | user5 | user5  |
|  6 | user3 | user6  |
|  7 | user6 | user7  |
|  8 | user2 | user8  |
|  9 | USER2 | user9  |
| 10 | USER6 | user10 |
+----+-------+--------+

1、将原来的数据导出

mysql>SELECT * INTO OUTFILE '/tmp/user.txt' FROM `user`;

2、清空数据表

mysql>TRUNCATE TABLE `user`;

3、创建唯一索引,并且修改 `name` 字段的类型为 BINARY CHAR 区分大小写

mysql> ALTER TABLE `user` MODIFY `name` CHAR(10) BINARY NOT NULL DEFAULT '';

mysql> ALTER TABLE `user` ADD UNIQUE KEY ( `name` );

现在来看看新的表结构:

mysql> desc user;
+-------+------------------+------+-----+---------+----------------+
| Field | Type             | Null | Key | Default | Extra          |
+-------+------------------+------+-----+---------+----------------+
| id    | int(10) unsigned | NO   | PRI | NULL    | auto_increment |
| name  | char(10)         | NO   | UNI |         |                |
| extra | char(10)         | NO   |     |         |                |
+-------+------------------+------+-----+---------+----------------+

4、把数据导回去,在这里,有两种选择:新的重复记录替换旧的记录,只保留最新的记录 或者是 新的记录略过,只保留最旧的记录

mysql> LOAD DATA INFILE '/tmp/user.txt' REPLACE INTO TABLE `user`;
Query OK, 10 rows affected (0.00 sec)
Records: 8  Deleted: 2  Skipped: 0  Warnings: 0

mysql> SELECT * FROM USER;
+----+-------+--------+
| id | name  | extra  |
+----+-------+--------+
|  1 | user1 | user1  |
|  8 | user2 | user8  |
|  6 | user3 | user6  |
|  4 | user4 | user4  |
|  5 | user5 | user5  |
|  7 | user6 | user7  |
|  9 | USER2 | user9  |
| 10 | USER6 | user10 |
+----+-------+--------+

 上面是采用 REPLACE 的方式,可以看到,导入过程中删掉了两条数据,结果验证确实是 新的重复记录替换旧的记录,只保留最新的记录
 现在,来看看用 IGNORE 的方式:

mysql> LOAD DATA INFILE '/tmp/user.txt' IGNORE INTO TABLE `user`;
Query OK, 6 rows affected (0.01 sec)
Records: 8  Deleted: 0  Skipped: 2  Warnings: 0

mysql> SELECT * FROM USER;
+----+-------+--------+
| id | name  | extra  |
+----+-------+--------+
|  1 | user1 | user1  |
|  2 | user2 | user2  |
|  3 | user3 | user3  |
|  4 | user4 | user4  |
|  5 | user5 | user5  |
|  7 | user6 | user7  |
|  9 | USER2 | user9  |
| 10 | USER6 | user10 |
+----+-------+--------+

 看到了吧,确实是 新的记录略过,只保留最旧的记录

 

 

查询时去重:

mysql 去除重复 Select中DISTINCT关键字的用法

 

在使用mysql时,有时需要查询出某个字段不重复的记录,虽然mysql提供 有distinct这个关键字来过滤掉多余的重复记录只保留一条,但往往只用它来返回不重复记录的条数,而不是用它来返回不重记录的所有值。其原因是 distinct只能返回它的目标字段,而无法返回其它字段,这个问题让我困扰了很久,用distinct不能解决的话,我只有用二重循环查询来解决,而 这样对于一个数据量非常大的站来说,无疑是会直接影响到效率的。所以我花了很多时间来研究这个问题,网上也查不到解决方案,期间把容容拉来帮忙,结果是我 们两人都郁闷了。。。。。。。。。

下面先来看看例子:

     table
   id name
   1 a
   2 b
   3 c
   4 c
   5 b

库结构大概这样,这只是一个简单的例子,实际情况会复杂得多。

比如我想用一条语句查询得到name不重复的所有数据,那就必须使用distinct去掉多余的重复记录。

select distinct name from table
得到的结果是:

   name
   a
   b
   c

好像达到效果了,可是,我想要得到的是id值呢?改一下查询语句吧:

select distinct name, id from table

结果会是:

   id name
   1 a
   2 b
   3 c
   4 c
   5 b

distinct怎么没起作用?作用是起了的,不过他同时作用了两个字段,也就是必须得id与name都相同的才会被排除。。。。。。。

我们再改改查询语句:

select id, distinct name from table

很遗憾,除了错误信息你什么也得不到,distinct必须放在开头。难到不能把distinct放到where条件里?能,照样报错。。。。。。。

很麻烦吧?确实,费尽心思都没能解决这个问题。没办法,继续找人问。

拉住公司里一JAVA程序员,他给我演示了oracle里使用distinct之后,也没找到mysql里的解决方案,最后下班之前他建议我试试group by。

试了半天,也不行,最后在mysql手册里找到一个用法,用group_concat(distinct name)配合group by name实现了我所需要的功能,兴奋,天佑我也,赶快试试。

报错。。。。。。。。。。。。郁闷。。。。。。。连mysql手册也跟我过不去,先给了我希望,然后又把我推向失望,好狠哪。。。。

再仔细一查,group_concat函数是4.1支持,晕,我4.0的。没办法,升级,升完级一试,成功。。。。。。

终于搞定了,不过这样一来,又必须要求客户也升级了。

突然灵机一闪,既然可以使用group_concat函数,那其它函数能行吗?

赶紧用count函数一试,成功,我。。。。。。。想哭啊,费了这么多工夫。。。。。。。。原来就这么简单。。。。。。

现在将完整语句放出:

select *, count(distinct name) from table group by name

结果:

   id name count(distinct name)
   1 a 1
   2 b 1
   3 c 1

最后一项是多余的,不用管就行了,目的达到。。。。。

唉,原来mysql这么笨,轻轻一下就把他骗过去了,郁闷也就我吧(对了,还有容容那家伙),现在拿出来希望大家不要被这问题折腾。

哦,对,再顺便说一句,group by 必须放在 order by 和 limit之前,不然会报错。。。。。。。。!OK了

 

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/guocuifang655/archive/2009/03/16/3993612.aspx

分享到:
评论

相关推荐

    MySQL中如何处理重复数据(Duplicate)?

    在使用上述方法处理重复数据时,需要在表中定义相应的唯一键(主键或唯一索引),以便 MySQL 能够判断冲突并执行相应的操作。否则,MySQL 将无法判断冲突,导致数据插入失败。 四、应用场景 处理重复数据的方法在...

    删除数据表中重复记录

    删除重复记录的核心思想是先识别出哪些记录是重复的,然后通过某种方式将这些重复记录从数据表中移除。通常的做法包括: 1. **识别重复记录**:通过`GROUP BY`和`HAVING`子句找出具有相同字段值的记录。 2. **标记...

    MySQL删除重复记录

    ### MySQL删除重复记录 在MySQL中,重复记录可能由于各种原因而出现,比如数据导入错误、系统故障或人为操作失误等。这些重复记录不仅浪费存储空间,还可能导致查询结果不准确,因此及时删除它们是非常必要的。 ##...

    mysql多字段删除重复数据保留id最大的.txt

    mysql多字段删除重复数据保留id最大的.txt

    mysql查找删除表中重复数据方法总结

    本文将详细介绍如何在MySQL中查找并删除重复数据。 首先,我们需要识别哪些数据是重复的。假设我们有一个名为`my_table`的表,其中包含`column1`和`column2`等字段,可能存在重复数据。使用`GROUP BY`和`HAVING`...

    mysql优化小技巧之去除重复项实现方法分析【百万级数据】

    首先按照常规首段,使用having函数检查重复项,完事一个一个的删除。不要问我having检测重复项的sql咋写,你懂得哈。。。这个在只有几条重复的时候还可以。要是几千上万条不同数据重复,那咋办。。。 完事呢,咱就...

    mysql 数据表中查找重复记录

    或者,如果你想删除重复记录,可以使用`DISTINCT`关键字创建一个新表,然后删除原始表,最后重命名新表为原始表名。 此外,为了提高性能,考虑对经常用于查找重复记录的字段创建索引,这将显著加快查询速度。但是,...

    MySQL 删除数据库中重复数据方法小结

    在MySQL数据库管理中,删除重复数据是一个常见的需求,特别是在数据导入、同步或用户输入错误时。处理这种情况需要谨慎,以确保不会丢失重要信息。本文将详细介绍几种常见的删除重复数据的方法。 1. **基础方法:...

    MySQL 查询重复内容只显示一条

    4. **删除重复数据**:如果你希望彻底删除重复数据,只保留一条,可以使用`DISTINCT`关键字创建一个新的表,或者使用`DELETE`语句结合子查询。但请注意,删除操作应谨慎进行,以免丢失重要信息。例如: ```sql ...

    删除mysql数据库中的重复数据记录

    在数据库管理中,确保数据的唯一性和...在大数据环境中,合理地处理和删除重复数据对于维护数据库的健康状态和提高查询效率至关重要。因此,理解并掌握这些方法对于任何从事数据库管理的IT专业人员来说都是必要的技能。

    mysql删除表中某一字段重复的记录

    在MySQL数据库中,删除表中某一字段重复的记录是一个常见的需求,这通常涉及到数据清洗和优化。例如,你有一个名为`event`的表,结构如下: ```sql CREATE TABLE `event` ( `id` int(10) NOT NULL AUTO_INCREMENT ...

    MySQL查询重复数据(删除重复数据保留id最小的一条为唯一数据)

    本文主要探讨如何查询并删除MySQL中的重复数据,同时保留每个重复组中ID最小的一条记录。 首先,我们需要找到表中的重复数据。假设我们有一个名为`brand`的表,其中包含品牌名称`brandName`和其他字段,而我们想要...

    Mysql删除重复数据保留最小的id 的解决方法

    在MySQL数据库管理中,有时我们需要清理表中的重复数据,但...总之,删除重复数据并保留最小ID是一种常见的数据库维护任务,但需要注意正确性和性能。在执行此类操作时,应充分测试,并考虑并发情况和可能的性能影响。

    mysql查找删除重复数据并只保留一条实例详解

    本文将详细介绍如何在MySQL中查找并删除重复数据,同时只保留其中一条,具体以实例进行解析。 首先,假设我们有一个名为`test`的表格,包含以下字段:`school_id`、`school_name`、`total_student`和`test_takers`...

    MYSQL删除重复数据的简单方法

    在MySQL中,删除重复数据是一项常见的数据库维护任务。在标题和描述中提到的问题是尝试使用一个SQL查询来删除具有相同值的记录,但遇到了错误。下面将详细解释这个问题,并提供几种有效的方法来处理MySQL中删除重复...

    MySQL DELETE 删除语句加锁分析1

    在MySQL中,DELETE语句的加锁行为是数据库事务处理的重要组成部分,尤其是在并发环境中,正确理解其加锁机制对于避免死锁和提高系统性能至关重要。本篇文章主要探讨了在不同隔离级别下,针对不同索引类型的DELETE...

    mysql自增字段重排 mysql删除表后自增字段从1开始.pdf

    - 使用`TRUNCATE TABLE`命令会清空整个表,并将自增字段重置为1,适合用于彻底清除表数据而不只是删除记录。 - 如果只想清空表并重置自增字段,可以先取消自增属性,保存后再重新启用,这也可将自增字段重置为1。 ...

Global site tag (gtag.js) - Google Analytics