`

我曾经对重复数据删除的一些误解(一)

阅读更多


如今对于一个企业数据存储容量压力越来越大,因为随着企业的成长与发展,数据量也随之的成长起来,为此企业急需一门技术,能够把存储设备中重复的数据删除,以确保在存储设备中存储的是独一无二的文件。因此重复数据删除技术在近几年中火热起来,也是中小型企业追捧的技术数据删除技术初衷很简单就是把重复部分除冗余文件、字节或者数据块减少成一项。它的目的很简单,就是为了保证存储的数据文件文件不重复,从而减少数据容量。可是由于种种原因我曾经对于这种技术还存在着一些误解。之后消除这些误区,对我之后使用重复数据删除技术来增加存储设备的使用率很关键。

后期处理重复数据删除技术真的是后期吗?

重复数据删除技术根据其实现的方式可以分为联机重复数据删除技术后期处理重复数据删除技术。两个技术各有各的特点。后期处理重复数据删除技术这个名字有些容易让人误解之前我一直误认为后期处理重复数据删除方式是当所有数据备份过程结束后才进行验证、删除操作的。之后我才知道我的理解是大错特错了。

    其实后期处理重复数据删除技术通常是在虚拟的磁带介质写入备份数据后就开始进行工作了。也就是说实在等待虚拟磁带写满之后就开始。当然这中间根据需要有一定的延迟。如存储管理员可以根据不同的情况对这个延迟进行设置。可以只延迟短短的几分钟,也可以延迟几个小时。延迟时间具体为多少,主要还是根据企业的实际情况来选择。我现在通常是将这个作业放在服务器比较空闲的时候进行,此时就会把这个延迟设置的比较长一点,如等到下班后进行等等。

    这里需要注意的是一般情况下,为了提高数据备份的效率,会对数据备份进行分组管理。此时等待时间是从第一组备份任务传送备份数据流开始算起。当第一盘虚拟的备份磁带写满或者第一组备份数据写入结束后,重复数据删除处理就不存在延迟等待问题。这主要是因为当系统在进行前一组写入备份数据进行重复数据删除处理时,被分系统可以继续往后续虚拟磁带介质中写入第二组的备份数据。简单的说,就是重复数据处理作业与备份数据的写入作业可以独立运行。从而提高数据处理的效率。

后期处理重复数据删除是否会降低整体备份的效率。

    从前我一直认为后期处理重复数据删除是否会降低整体备份的效率如果光从技术上看,确实是这样的。重复删除方式不仅会占用服务器的资源。而且重复删除方式存在着一定的延迟。但是这是一个比较孤立的观点。因为根据现在的重复数据删除技术,完全可以通过合理的配置来消除这种负面影响。

    在实际工作中,发现后期处理重复数据删除技术降低了数据备份的效率,那么可以通过如下几种方式来消除这个不利影响。一是可以将重复数据删除技术分配到多个单独的服务器上来分担服务器的压力。一般情况下在对已写入的备份数据进行重复数据删除时,不同的处理引擎往往会访问同一磁盘阵列。不过现在的技术可以使得他们访问同一磁盘阵列的不同区域。换句话说,就是可以实现高速的并发处理。这样的话,就不会和持续写入的备份数据流产生任何的冲突,从而不会影响数据备份的效率。二是可以适当调整数据延迟的时间。如可以缩短延迟时间,或者适当延长延迟时间避开数据备份的高峰时间等等。

所以我认为后期处理重复数据删除技术在一定程度上确实会影响到数据备份的整体效率。但是可以通过合理的配置这个负面影响降低到最低的程度。至少与其优势相比,让着个弊端可以忽略

分享到:
评论

相关推荐

    Python代码源码-实操案例-框架案例-重复数据处理(df.drop duplicates方法).zip

    在数据分析中,重复数据可能出现在多个列的值完全相同的情况下,这可能会导致分析结果的偏差或误解。`df.drop_duplicates()`方法就是用来检测并删除这些重复行的。 该方法的基本用法如下: ```python import ...

    精英txt文本去重复软件v1.1

    这对于数据清洗、分析和整理工作来说,是一个非常实用的功能,避免了因为重复数据而产生的误解或错误。 3. **免费与绿色**:软件是完全免费的,无需用户支付任何费用,且属于绿色软件,不需安装即可直接运行,不会...

    数据仓库简明教程.docx

    数据仓库是一种专门设计用于支持商业智能(BI)和数据分析的系统。它收集、整合并存储来自企业多个异构数据源的大量历史数据,以便进行高效分析和报告。数据仓库是数据科学家和业务分析师的重要工具,因为它们提供了...

    NA3003A电子水准仪数据格式转换研究

    在实际操作中,为了防止操作错误,如重复测量数据和水准点号设置错误等,程序中还包含了对原始数据文件中多余记录的数据块的删除功能,确保文件中所有数据的正确性,从而为后续的数据转换做好准备。 转换后的数据...

    数据分析报告编写方法总结.pdf

    它包括数据清洗,即检查和修正数据中的错误,如删除重复值、填充缺失值和纠正错误数据,以保证数据质量。同时,数据加工也是重要一环,涉及数据的计算、分组和转换,以形成可用于分析的格式。 报告撰写时,结构的...

    数据结构课件(C语言版)

    数据结构是计算机科学中至关重要的一个领域,它研究如何在计算机中有效地组织和管理数据,以便于高效地进行存储、检索、更新和删除等操作。本课件专注于C语言实现的数据结构,C语言以其简洁而强大的特性,常被用于...

    工作心得:揭穿大数据备份的误区.pdf

    采用重复数据删除等新的备份技术来高效地存储备份内容,永久增量备份以传输变化的内容,使使用商用服务器,这些同样有助于降低成本、缩短备份时间。 误区四:远程灾难恢复副本可以充当备份副本 谨慎的做法是,将...

    大数据时代题目与答案三套试题仅供参考111.doc

    5. **数据清洗方法**:数据清洗包括处理缺失值、噪声数据清除、一致性检查等,但不包括重复数据记录处理,因为重复数据记录处理是数据清洗的一个重要环节。 6. **数据采集技术**:智能健康手环的应用开发体现了...

    大数据考试答案 参照.docx

    第五题提到了数据清洗的过程,包括处理缺失值、去除噪声数据和一致性检查,但不包括重复数据记录处理,这是数据清洗过程中的一个重要步骤。 【普查的缺点】 第六题揭示了普查的一个主要缺点,即工作量大,可能导致...

    数据库系统概论复习题及答案.doc

    第三题指出数据库并不能完全防止数据的重复,这是对数据库数据一致性的误解。第四题说明了模式/外模式映像的作用在于实现数据的逻辑独立性,允许应用程序和数据库的逻辑结构发生变化而不影响应用程序。第五题提到了...

    云存储与云备份的区别.docx

    特别是对于不断变化的活动数据,云备份采用重复数据删除技术,节省存储空间,同时支持差异和增量备份,记录数据在不同时间点的状态。此外,云备份服务通常会提供合规性咨询,以满足不同行业的法规要求。云备份服务...

    范式及其对数据库设计的指导意义PPT学习教案.pptx

    有时,人们可能会误解1NF,认为只要数据项是不可分割的二维表就符合1NF,但实际上还需要考虑数据项的重复问题。例如,将多门课程成绩作为单一属性,就违反了1NF,应该将每门课程的成绩单独列出。 在实际应用中,...

    快速删除macro1的宏工作表

    在Excel中,宏是一种强大的工具,它允许用户通过录制或编写VBA(Visual Basic for Applications)代码来自动化重复性任务。然而,宏也可能被恶意利用,成为宏病毒的载体,这些病毒可以在用户打开感染了宏的工作簿时...

    oracle rownum和distinct

    因为 ROWNUM 首先对查询出来的记录进行标号,然后 DISTINCT 再开始工作,删除重复数据。所以,只有第一条记录满足 ROWNUM 的条件,其他记录都被删除了。 那么,如何才能得到预期的结果呢?我们可以使用子查询的方式...

    Power Designer教程

    - **协作便利**:团队成员可以共享模型,提高沟通效率,减少误解和重复工作。 #### 七、总结 - **Power Designer** 作为一款先进的数据库设计工具,不仅提供了丰富的功能支持数据库的全生命周期管理,还简化了...

    防不胜防:一个空格在数据库里可能引发的N重血案.pdf

    若上一条是DELETE语句,数据会被额外删除,若无法立即回滚,可能需要依赖闪回功能恢复,而在某些环境下,这可能并不现实。更糟糕的是,如果重复执行的是DDL(Data Definition Language)操作,如CREATE TABLE或ALTER...

    Python技术如何进行代码优化与重构.docx

    - **性能需求**:不同数据结构在插入、删除、查找等操作上的性能差异很大。 - **内存占用**:某些数据结构(如字典和集合)占用更多内存。 - **数据特性**:例如是否需要有序性,数据是否唯一等。 **2. 减少循环...

Global site tag (gtag.js) - Google Analytics