对大表中数据去重的一种方法 - 4℃華客 - ITeye博客

`

swvip

浏览: 156157 次
性别:
来自: 北京

最近访客更多访客>>

qq623830938

liyanwei66

csmallxxx

hahajun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

zizhi9999：坑姐吧……这个解压不了
java.lang.UnsatisfiedLinkError: /tmp/install.dir.4394/Linux/resource/jre/lib/i38
david_je： db2look –d dbname -l –e –i us ...
DB2 备份及跨平台迁移
凤凰山：很好！
DB2 备份及跨平台迁移
rain2005： ...
linux 下修改时间的方法
zhou2008gang：学习学习了
tcpdump 抓包命令简例

对大表中数据去重的一种方法

博客分类：

ORACLE

阅读更多

为了情节重现，先创建一个表为test01 ,很简单的两列。

create table shenwei.test01
(
A               VARCHAR2(20)
B               VARCHAR2(20)
)；

我们往里插入几条数据

SQL> select * from shenwei.test01
  2  ;
 
A                    B
-------------------- --------------------
1                    A
2                    B
3                    C
4                    D
5                    F
3                    C
2                    B
 
7 rows selected

限制这张表就类比大表，现在要想要里面重复的数据删除，（当然，如果是小表，我们可以直接delete）但是如果是大表就很慢了，

所以新建一张表，把数据筛选出来后，插入表中

create table SHENWEI.TEST021 nologging as
select A, B
  from (select A,
               B,
               row_number() over(partition by A, B order by B desc) rn
          from SHENWEI.TEST01)
 where rn = 1

然后创建索引，收集新表统计信息，确保SELECT查询采用正确高效率的执行计划。

如果没有问题就把表修改成log模式

alter table shenwei.test01 logging;

最后把表rename，搞定

alter table shenwei.test02 rename to shenwei.test01;

分享到：

获得表和索引DDL语句的方法 | oracle exp出现ORA-06550 必须说明SET_NO_O ...

2011-12-21 15:12
浏览 1140
评论(0)
分类:数据库
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

一种基于云计算的重复数据去重选择方法及装置.pdf: 在云计算环境中，数据去重是一种常见的数据处理技术，用于移除存储中的重复数据，以便节约存储空间和提高数据传输效率。本文介绍了一种基于云计算的重复数据去重选择方法及装置，该方法在处理重复数据时考虑了客户端...

MapReduce操作实例-数据去重.pdf: MapReduce是分布式计算的一种编程模型，常用于处理大规模数据集。在这个实例中，我们看到的是一个基于MapReduce的数据去重操作，这个操作在大数据处理中非常常见，尤其是当处理的数据源包含重复记录时。下面将详细...

007_hadoop中MapReduce应用案例_1_数据去重: 在IT行业中，Hadoop MapReduce是一种分布式计算框架，广泛用于处理海量数据。在这个"007_hadoop中MapReduce应用案例_1_数据去重"的主题中，我们将深入探讨如何利用MapReduce解决数据去重的问题。这个案例可能涉及到...

大型文本数据库中分布式数据去重备份方法.pdf: 文章还介绍了一种利用遗传算法对大型文本数据库中的分布式数据进行备份的方法。遗传算法是模拟自然进化过程来获取最优解的搜索算法。通过替换重组的原理，可以迅速提高解的质量，从而在恢复时间和成本上达到最小化。...

VBA让Excel数据去重.docx: VBA（Visual Basic for Applications）是Microsoft Office套件中的一种编程语言，主要用于自动化和自定义应用程序，例如Excel。在本文档中，我们将讨论如何利用VBA处理Excel数据，特别是进行数据去重的操作。首先...

如何删除表中重复数据: 这种方法通过创建一个临时表，然后将原表中的去重数据插入到临时表中，最后用临时表中的数据替换原表。 1. **创建临时表并插入去重数据**： ```sql CREATE TABLE temp_table AS (SELECT DISTINCT * FROM original...

行业分类-物理装置-一种数据去重系统中的冷热索引识别与分类管理方法.zip: 标题“行业分类-物理装置-一种数据去重系统中的冷热索引识别与分类管理方法”暗示了我们讨论的主题集中在数据去重系统中如何区分并管理不同类型的数据，特别是冷热数据的识别和分类。首先，我们需要理解什么是冷热...

php数组去重和js数组去重最简方法: 一种方法是使用`array_map`和`array_unique`结合，先扁平化二维数组，然后再去重： ```php function flattenAndUnique($array) { $flattened = array_map('unserialize', array_unique(array_map('serialize', $...

基于Intel SGX的安全数据去重方法_.pdf: 同时，该方法在系统开销和平均执行时间上也有不错的表现，为云存储服务提供了一种高效、安全的数据去重方案。总结来说，基于Intel SGX的安全数据去重方法利用了硬件级别的安全支持，解决了云存储服务中的隐私保护...

RFID数据流近似去重: **Bloom Filter** 是一种高效的数据结构，能够以较低的内存消耗实现对数据的快速查找。RFID数据流处理中，Bloom Filter被用来检测重复数据，通过使用k个相互独立的哈希函数将数据映射到一个固定大小的位数组中。然而...

java jsonarray 踢重去重操作: 在Java中处理JSON数据时，经常需要对JSON数组进行各种操作，其中去重是一个常见的需求。本文将详细介绍如何使用Java对`JSONArray`进行去重操作，并深入探讨背后的原理和技术细节。 ### JSON与Java JSON...

mysql去重查询的三种方法: 本文将详细介绍三种在MySQL中实现去重查询的方法：使用DISTINCT、GROUP BY以及使用开窗函数ROW_NUMBER()或其类比方法。 ### 一、使用DISTINCT DISTINCT关键字是SQL中最常见的去重方式，它会返回所有不同的记录。...

mapreduce实现文档数据去重: MapReduce是一种编程模型和相关实现，用于大规模数据处理，广泛应用于大数据处理领域。本文将介绍如何使用MapReduce实现文档数据去重，通过环境配置、编程、测试等步骤，实现文档数据去重。一、云计算概述云计算...

适用于Delphi的完整文本数据快速排序去重代码，可以对几百万几千万数据快速处理: 常见的去重方法有哈希表、排序后相邻比较等。在这个Delphi代码中，它可能采用了某种优化的去重策略，比如使用了空间效率高的数据结构，如位向量或平衡二叉搜索树，以减少内存占用，同时保持较高的处理速度。 `Unit1...

ChatGPT技术的训练数据去重方法解析.docx: 针对这个问题，有几种有效的数据去重方法。首先，TF-IDF（Term Frequency-Inverse Document Frequency）是一种常用的技术，它衡量一个词在文档集合中的重要性。在训练数据中，通过对每个句子计算TF-IDF值，可以识别...

海量数据去重的Hash与BloomFilter,bitmap1: 在IT领域，尤其是在大数据处理和分布式系统中，数据去重是一项关键任务。本文将深入探讨两种常用的技术：哈希和布隆过滤器，以及它们在处理海量数据时的应用。哈希算法是数据去重的基础，它能够将任意大小的数据...

基于数据路由的分布式备份数据去重系统.pdf: 根据给定文件的信息，以下是对“基于数据路由的分布式备份数据去重系统”知识点的详细说明： 1. 数据去重（Data Deduplication）：在大数据场景下，数据去重是一种技术，目的是减少存储空间的使用。它通过识别并...

几种sql去重: 最后一种方法是利用 `MIN` 或 `MAX` 函数结合 `GROUP BY` 来保留每组中的最小或最大记录，从而实现去重。例如： ```sql DELETE FROM gz_hospital a WHERE a.id > (SELECT MIN(b.id) FROM gz_hospital b GROUP BY b....

易语言最简单的数据去除重复: 3. **数据去重**：数据去重的核心算法是遍历数据集，对于每个元素，检查它是否已经存在于哈希表中。如果不存在，则添加到哈希表中；如果存在，则跳过，不将其添加到结果集中。 4. **统计总行数**：在数据去重过程中...

Global site tag (gtag.js) - Google Analytics