`

大文件重复行

阅读更多

假如有一个文件很大,比如1T,现在需要找出内容重复的行。如果用java代码来实现,用缓存肯定是不行的,一般的服务器没有这么多内存。那么如何去做呢?可以利用数据库来处理,方法如下。
创建一个表,有两列,一个是id主键,表示行号,一列是内容content。
-- Create table
create table T_HUGE_FILE
(
ID number,
CONTENT varchar2(1000)
)
;
-- Create/Recreate primary, unique and foreign key constraints
alter table T_HUGE_FILE
add constraint PK_T_HUGE_FILE primary key (ID);


逐行读取文件并保持到数据库中。
然后通过sql语句查询出重复的行及内容。
select id, content from t_huge_file where id not in
(select min(id) from t_huge_file group by content)

分享到:
评论

相关推荐

    python筛选出两个文件中重复行的方法

    在Python编程中,有时我们需要处理大量数据,例如比较两个大文件中的重复行。这个任务对于数据分析、日志处理或文件清理等场景非常常见。本文将详细介绍一个Python脚本,该脚本采用了一种高效的方法来筛选出两个文件...

    删除文本文件中重复行(vb.net)

    ### 删除文本文件中重复行(vb.net) #### 知识点概述 本文将详细介绍如何使用VB.NET编程语言来实现从文本文件中删除重复行的功能。该功能主要涉及到以下几个关键概念和技术点: 1. **文件读取与写入**: VB.NET中...

    文本文件,删除重复行

    本主题聚焦于“文本文件,删除重复行”的问题,这是一个高效处理大规模文本数据的关键技术。通过使用特定的编程语言,如Pascal,我们可以实现快速去重功能,即使面对包含100万行甚至更大的文本文件,也能在短时间内...

    文本文件,删除重复行(exe文件)

    总的来说,"文本文件,删除重复行(exe文件)" 是一个高效、实用的工具,它利用Pascal语言的特性,为处理大文本文件中的重复行提供了快速解决方案。无论是对于数据科学家、程序员还是普通用户,它都能有效地提升工作...

    文本文件去重复行工具

    总的来说,这个“文本文件去重复行工具”是一款实用且高效的软件,能够极大地提高处理文本数据的效率,简化相关工作流程。通过理解其工作原理和技术实现,我们可以更好地利用它来解决实际问题,提升工作效率。在日常...

    秋天一键删除文件重复行V1.01-如何删除文档内重复行

    "秋天一键删除文件重复行V1.01"是一款这样的工具,它专为用户提供了方便快捷的方式来去除文本文件中的重复行,从而优化和简化数据。在本篇文章中,我们将深入探讨这个工具及其工作原理,以及如何利用它来提高工作...

    文本文件去除重复记录

    在文本文件中,如果某一行数据与其他行的数据完全相同,我们便称其为重复记录。例如,在处理IP地址列表时,可能由于各种原因(如误输入或系统故障)导致相同的IP地址出现在文件的不同位置。去除这些重复的IP地址,...

    源程序文件重复率检测系统_源程序文件重复率检测系统_

    源程序文件重复率检测系统是一种专门用于分析和评估代码复用程度的工具,它能够帮助开发者、教育者或代码审查人员快速找出代码中的相似或重复部分。这种系统通常基于先进的文本匹配算法,如最长公共子序列(LCS)、...

    查找重复文件工具

    1. **深度扫描**:能够扫描整个硬盘或特定文件夹,查找所有类型的文件重复。 2. **智能对比**:除了基于内容的哈希比对,还可能提供基于文件名、大小等的快速筛选。 3. **预览功能**:允许用户在删除前预览文件,...

    vb源码 删除文本文件重复行

    删除文本文件重复行,效率很高,40万行的数据,在我的电脑上只用了40秒 请注意:在输入文件中不能有空行,否则会出错 另外,里边用上了自编获取文件路径名和扩展名函数 发布前专门测试通过,有需要的朋友可以直接...

    文件扫描(找出重复文件).rar

    在实际应用中,有许多工具如CCleaner、dupeGuru、VisiPics等可以帮助用户自动化这个过程,它们通常提供友好的用户界面和自定义设置,使得查找和清理重复文件变得简单易行。 总之,找出重复文件是一个涉及文件系统...

    重复文件清理器 谷普专用版

    1.可以选择移动硬盘、U盘、盘符或某个文件夹,如果是系统盘,计算的时间会长一些(通常:非系统盘 0-6秒,系统盘 3-30秒...4.文件重复的可能性大小的判定:二进制 > md5值 > 同名同大小 > 同大小不同名 > 同名不同大小

    重复文件查找王 v1.7

    "重复文件查找王 v1.7"是一款专用于查找并管理电脑中重复文件的软件工具。这款应用的主要功能是深入扫描用户指定的目录及其子目录,通过比较文件内容来识别那些内容完全一致但文件名可能不同的文件。这有助于优化...

    文本文件|txt文件|重复行过滤

    好多都是要处理重复行的,在我网上搜了下,发现NotePad++有过滤重复行的查件,不过操作起来未免有些繁琐,还要安装什么的。 其实呢,就是想找个简单的过滤重复行的小工具,结果发现网上竟然没有让自己满意的,一...

    uniq命令 去除文件中的重复行

    我们应当注意的是,它和sort的区别,sort只要有重复行,它就去除,而uniq重复行必须要连续,也可以用它忽略文件中的重复行。 语法格式:uniq [参数] [文件] 常用参数: -c 打印每行在文本中重复出现的次数 -d ...

Global site tag (gtag.js) - Google Analytics