boss_t_tour表目前有150W数据,其中出现了15000多条有重复记录的数据,需要删除其中的8000多条多余的记录。
如果删除小表,不担心效率,可以用下面方式删除,
http://jimmy9495.iteye.com/admin/blogs/2072785
但是用上面的sql如果想在大表操作删除,肯定是不行的。
查看表中imsi除了空以外重复的数目。
SELECT COUNT(t.`imsi`),t.`imsi` FROM `boss_t_tour` t WHERE t.imsi <> ''
GROUP BY t.`imsi` HAVING COUNT(t.`imsi`) >1
mysql大数据表中的快速删除部分数据办法:
1.创建删除重复的存储过程
DELIMITER $$
USE `bossdb` $$
DROP PROCEDURE IF EXISTS `del` $$
CREATE DEFINER = `root` @`localhost` PROCEDURE `del` ()
BEGIN
/** 定义后面循环用到的变量*/
DECLARE coun1 INT ;
DECLARE count2 INT ;
DROP TABLE IF EXISTS tmp_imsi;
DROP TABLE IF EXISTS tmp_all;
DROP TABLE IF EXISTS tmp_keep;
DROP TABLE IF EXISTS tmp_delete;
/** 创建临时表*/
CREATE TABLE tmp_imsi AS SELECT t.imsi AS imsi FROM boss_t_tour t WHERE t.imsi <> '' GROUP BY t.imsi HAVING COUNT(t.imsi) >1;
CREATE TABLE tmp_all AS SELECT t.id,t.imsi AS imsi FROM boss_t_tour t WHERE t.imsi IN (SELECT imsi FROM tmp_imsi);
CREATE TABLE tmp_keep AS SELECT MIN(a.id) AS id FROM tmp_all a GROUP BY a.imsi;
CREATE TABLE tmp_delete AS SELECT a.id AS id FROM tmp_all a WHERE a.id NOT IN (SELECT id FROM tmp_keep) ;
/** 先删除索引提高删除速度*/
ALTER TABLE `bossdb`.`boss_t_tour`
DROP INDEX `imsi_index`,
DROP INDEX `syncstatusInded`;
/** 循环删除开始*/
/** 原计划用此子查询删除,DELETE FROM boss_t_tour WHERE EXISTS (SELECT 1 FROM tmp_delete WHERE boss_t_tour.id = tmp_delete.id);*/
/** 但是发现mysql子查询删除效率奇慢,本机测试主表150W数据 临时表8000条数据 删除3000条用了一个小时,效率太差不敢在生产环境使用。*/
/** 用下面的循环删除效率高很多,删除8000多条数据5分钟 */
SELECT COUNT(*) INTO coun1 FROM tmp_delete;
WHILE coun1 > 0 DO
SELECT id INTO count2 FROM tmp_delete LIMIT 1 ;
DELETE FROM boss_t_tour WHERE id = count2 ;
DELETE FROM tmp_delete WHERE id = count2 ;
COMMIT ;
SET coun1 = coun1 - 1 ;
END WHILE ;
/** 循环删除结束*/
/** 重建索引*/
ALTER TABLE `bossdb`.`boss_t_tour`
ADD INDEX `imsi_index` (`imsi`),
ADD INDEX `syncstatusInded` (`sync_status`);
/** 删除临时表*/
DROP TABLE IF EXISTS tmp_imsi;
DROP TABLE IF EXISTS tmp_all;
DROP TABLE IF EXISTS tmp_keep;
DROP TABLE IF EXISTS tmp_delete;
END $$
DELIMITER ;
2.执行存储过程
CALL del();
本机执行5分钟完成。
写的过程中还发现个问题mysql的delete操作居然不能给 表定义别名。。。
MYSQL delete语句不支持别名?
http://blog.chinaunix.net/uid-20639775-id-3167446.html
分享到:
相关推荐
mysql测试库-包含大数据量表
快速导出mysql大数据打包faban.sh
在C#中与MySQL数据库进行大规模数据交互时,性能优化是关键,特别是在处理千万级别的数据。本文将探讨如何高效地读取和写入大量数据,主要分为三个步骤:解决读取问题、数据处理和数据插入。 ### 第一步:解决读取...
在IT行业中,批量导入数据和大数据导入是两个关键任务,特别是在数据分析、数据库管理和大数据处理领域。这些操作对于高效地处理海量信息至关重要。本篇将详细阐述这两个知识点。 首先,批量导入数据是指一次性处理...
基于springboot的大数据的心脏病患者数据分析系统-基于Web的大数据的心脏病患者数据分析系统设计与实现-大数据的心脏病患者数据分析网站-大数据的心脏病患者数据分析网站代码-大数据的心脏病患者数据分析平台-大数据...
在整体架构中,数据采集层使用DataX等工具进行数据同步,数据计算层依赖MaxCompute这样的离线计算平台,数据服务层通过RDS等数据库服务提供接口或视图数据,数据应用层涵盖流量分析等多个数据应用工具。 在数据采集...
2. 数据存储:将抓取到的数据存储在MySQL数据库中,便于后续处理。 3. 数据处理:对存储的数据进行清洗和预处理,可能涉及数仓分层(ODS、DWD、DWM等)操作,以便进行深度分析。 4. 数据可视化:利用数据可视化工具...
"大数据环境下基于MySQL的数据库架构设计与实现" ...通过研究大数据环境下基于MySQL的数据库架构设计与实现,可以提高数据处理的速度与效率,确保数据库的安全性和可靠性,并且可以满足大数据环境下的需求。
大数据的智能家居销量数据分析-大数据的智能家居销量数据分析系统-大数据的智能家居销量数据分析系统源码-大数据的智能家居销量数据分析管理系统-大数据的智能家居销量数据分析管理系统java代码-大数据的智能家居...
基于springboot的大数据的心脏病患者数据分析系统-基于Web的大数据的心脏病患者数据分析系统设计与实现-大数据的心脏病患者数据分析网站-大数据的心脏病患者数据分析网站代码-大数据的心脏病患者数据分析平台-大数据...
Apache Atlas 是一款开源的元数据管理系统,专门用于大数据环境中的数据资产管理。它提供了元数据的创建、存储、查询以及治理等功能,帮助企业构建数据资产目录,促进数据的分类、管理和协作。在Atlas中,元数据管理...
DataX 支持多种数据源,如MySQL、Oracle、HDFS、HBase等,提供稳定、高效的数据同步服务。DataX的设计理念是“一切皆为插件”,这意味着开发者可以根据需求快速扩展新的数据源。其特点是简单易用、高性能和容错性强...
在IT领域,数据库管理系统是数据存储和处理的核心,而MySQL作为一款开源、免费的关系型数据库管理系统,因其高效、稳定和易用的特点,在处理海量数据时备受青睐。标题提到的“海量数据的MySQL数据集”是一个专门针对...
Oracle提供了PL/SQL过程和函数来读取、写入和管理这些大数据对象,确保高效的数据操作。 MySQL,作为开源数据库系统,也支持BLOB和TEXT类型,用于处理大数据。BLOB类型包括TINYBLOB、BLOB、MEDIUMBLOB和LONGBLOB,...
大数据的智能家居销量数据分析-大数据的智能家居销量数据分析系统-大数据的智能家居销量数据分析系统源码-大数据的智能家居销量数据分析管理系统-大数据的智能家居销量数据分析管理系统java代码-大数据的智能家居...
这个200万条数据的测试集是实践上述理论的好素材,可以帮助我们深入理解MySQL在大数据场景下的表现,优化数据库设计和SQL语句,提升系统整体性能。通过实际操作和测试,我们可以更好地掌握MySQL数据库的相关知识。
MySQL数据库在大数据场景下的备份与恢复是至关重要的任务,它涉及到数据的安全性和业务连续性。Xtrabackup是一款高效且广泛使用的开源工具,专为InnoDB和XtraDB存储引擎设计,适用于MySQL和Percona Server的大数据...
本文详细介绍了如何使用JDBC结合MySQL处理大数据,并通过批处理技术和事务管理来提高系统的性能和数据一致性。通过合理配置参数以及正确使用JDBC API,可以有效地提升大数据处理的效率。此外,对于事务管理的理解和...