`
nyxd
  • 浏览: 9482 次
最近访客 更多访客>>
社区版块
存档分类
最新评论

曾经对重复数据删除的一些误解(二)

阅读更多


    在上一篇文章中主要讲解的是,我曾经对后期重复数据删除技术的一些误解,如果有和我一样的朋友希望你们在读完我的文章后可以消除一些误解,来重新看待重复数据删除这项技术,总体而说这项技术现在还是很不成熟,但是我觉得通过不断改进可以使他变得的成熟,毕竟这项技术对于我们还是很有帮助的,减少无效的数据,提高存储设备的使用效率,节省企业的不必要开支,后面我继续写一些关于重复数据删除技术的误解。

降低备份数据流读取速度是否不利于数据备份。

    从技术上说,在同等条件下采取重复删除技术,肯定会在一定程度上降低备份数据流的读取速度。后来我明白了一点,评价一个技术是否合适,并不能够只看一个指标,而应该从总体上去评价。简单的说,需要评价一下总体的备份时间是否有所缩短?复杂一点,需要判断备份过程是否能够满足备份窗口,或者RTO的需求?在实际工作中,有些指标可能比备份数据流的读取速度更加的重要。如RTO需求就是如此。

    另外还有一点,如果采取重复数据删除技术的话,一般要求相关设备要有比较高的配置或者性能。因为从数据备份的任务来看,其实包括两个部分,分别为数据的传统备份与重复数据删除作业。虽然说这两个作业可以独立运行,但是其运行所需要的时间是不同的。而只有重复数据删除处理结束之后,整个备份作业才算真正完成。故如果后期处理重复数据删除设备的性能比较差时,就会降低系统的重复数据删除比。所以在部署这个项目的时候,往往会对重复数据删除设备进行评估与测试,看其性能上是否能够满足要求。

    在我曾经的工作中有很多案例可以说明,虽然采用重复数据删除技术后会在一定程度上降低存储数据流的读取速度,但是却可缩短整个备份作业所花的时间,能够满足RTO的需求。有句俗话说的好,只看结果不看过程。评价任何一门技术都是如此,应该从一个整体上进行评价,而不能够某几个个别的指标。否则的话,就可能会引起用户的误判。

重复数据删除技术与备份数据流写入作业真的是无法同时完成吗

    曾经我一直认为重复数据删除技术与备份数据流写入作业无法同时完成,但是后来我才知道如果备份数据流在写入的时候,只对同一个磁盘进行操作,那么这个问题确实存在。但是在现实工作中,这是根本不存在的。因为在实际应用中,重复数据删除技术往往是跟虚拟存储等结合使用的。也就是说,一般会将备份数据流写入到多盘虚拟磁带介质中。而实际写入磁带的数量往往会远远大于实际拥有的磁带驱动总数。这说明一个什么问题呢?也就是说,当其他磁带正在进行复制或者读写等操作的时候,重复删除技术可以在其他磁带介质上进行重复数据删除的作业。换句话说,就是重复数据删除作业与数据复制、写入等到作可以并发的运行。只是其操作的对象不同而已。两者可以互不冲突的独立运行。

    我现在担心的是如果数据读写作业要对某个磁带驱动器进行操作,而这个虚拟磁带库正好在进行重复数据删除作业,此时这个作业就会停下来。从而产生冲突。可是凭现在的技术还很难从根本上解决这个问题,只可以曲线救国。如将虚拟磁带库的容量设置的小一点,让这个冲突产生的几率降低。

    另外据了解,已经有厂商在往这方面努力。如他们尝试着通过分割磁带数据区域的方法来实现并发读写。如果这个技术能够实现的话,那么当备份软件正在对某个磁带介质进行写入操作的时候,就可以对这个介质的其他部分进行重复数据删除处理。这个原理很简单,就是将某个磁带数据区域再进行划分,以实现不同区域的并发处理。

    总之,还是那句话:技术不成熟有待改进,但是现阶段我们还是可以使用的,只要是设置好规则,这项技术还是对我们的帮助还是很大的。

分享到:
评论

相关推荐

    Python代码源码-实操案例-框架案例-重复数据处理(df.drop duplicates方法).zip

    在数据分析中,重复数据可能出现在多个列的值完全相同的情况下,这可能会导致分析结果的偏差或误解。`df.drop_duplicates()`方法就是用来检测并删除这些重复行的。 该方法的基本用法如下: ```python import ...

    精英txt文本去重复软件v1.1

    这对于数据清洗、分析和整理工作来说,是一个非常实用的功能,避免了因为重复数据而产生的误解或错误。 3. **免费与绿色**:软件是完全免费的,无需用户支付任何费用,且属于绿色软件,不需安装即可直接运行,不会...

    数据仓库简明教程.docx

    一旦数据被加载到数据仓库中,它就不会被修改或删除。这种特性保证了数据的完整性,确保分析结果不受数据变动的影响。 5. **汇总性**: 数据仓库中的数据通常是预处理过的,进行了汇总或细分,以便于快速查询和...

    NA3003A电子水准仪数据格式转换研究

    在实际操作中,为了防止操作错误,如重复测量数据和水准点号设置错误等,程序中还包含了对原始数据文件中多余记录的数据块的删除功能,确保文件中所有数据的正确性,从而为后续的数据转换做好准备。 转换后的数据...

    数据分析报告编写方法总结.pdf

    它包括数据清洗,即检查和修正数据中的错误,如删除重复值、填充缺失值和纠正错误数据,以保证数据质量。同时,数据加工也是重要一环,涉及数据的计算、分组和转换,以形成可用于分析的格式。 报告撰写时,结构的...

    数据结构课件(C语言版)

    数据结构是计算机科学中至关重要的一个领域,它研究如何在计算机中有效地组织和管理数据,以便于高效地进行存储、检索、更新和删除等操作。本课件专注于C语言实现的数据结构,C语言以其简洁而强大的特性,常被用于...

    工作心得:揭穿大数据备份的误区.pdf

    采用重复数据删除等新的备份技术来高效地存储备份内容,永久增量备份以传输变化的内容,使使用商用服务器,这些同样有助于降低成本、缩短备份时间。 误区四:远程灾难恢复副本可以充当备份副本 谨慎的做法是,将...

    大数据时代题目与答案三套试题仅供参考111.doc

    5. **数据清洗方法**:数据清洗包括处理缺失值、噪声数据清除、一致性检查等,但不包括重复数据记录处理,因为重复数据记录处理是数据清洗的一个重要环节。 6. **数据采集技术**:智能健康手环的应用开发体现了...

    大数据考试答案 参照.docx

    第五题提到了数据清洗的过程,包括处理缺失值、去除噪声数据和一致性检查,但不包括重复数据记录处理,这是数据清洗过程中的一个重要步骤。 【普查的缺点】 第六题揭示了普查的一个主要缺点,即工作量大,可能导致...

    数据库系统概论复习题及答案.doc

    第三题指出数据库并不能完全防止数据的重复,这是对数据库数据一致性的误解。第四题说明了模式/外模式映像的作用在于实现数据的逻辑独立性,允许应用程序和数据库的逻辑结构发生变化而不影响应用程序。第五题提到了...

    面向对象的程序设计(JAVA)第二次作业

    - A) DataInputStream和FileInputStream:DataInputStream是在FileInputStream的基础上添加了一些读取基本数据类型数据的方法,因此A选项正确。 - B) DataInputStream:虽然DataInputStream可以读取基本数据类型,...

    oracle rownum和distinct

    因为 ROWNUM 首先对查询出来的记录进行标号,然后 DISTINCT 再开始工作,删除重复数据。所以,只有第一条记录满足 ROWNUM 的条件,其他记录都被删除了。 那么,如何才能得到预期的结果呢?我们可以使用子查询的方式...

    范式及其对数据库设计的指导意义PPT学习教案.pptx

    有时,人们可能会误解1NF,认为只要数据项是不可分割的二维表就符合1NF,但实际上还需要考虑数据项的重复问题。例如,将多门课程成绩作为单一属性,就违反了1NF,应该将每门课程的成绩单独列出。 在实际应用中,...

    2021-2022计算机二级等级考试试题及答案No.15183.docx

    这个概念常常被误解为1000字节,但实际上采用的是二进制的计数方式。 - **应用场景**:在计算存储空间或评估数据传输速度时,准确理解千字节的含义对于数据管理和性能优化都非常关键。 #### 17. 网络服务器的概念 -...

    云存储与云备份的区别.docx

    特别是对于不断变化的活动数据,云备份采用重复数据删除技术,节省存储空间,同时支持差异和增量备份,记录数据在不同时间点的状态。此外,云备份服务通常会提供合规性咨询,以满足不同行业的法规要求。云备份服务...

    2021-2022计算机二级等级考试试题及答案No.3793.docx

    6. Excel操作:在Excel中,删除单元格中的数据并不会删除其格式,只会清除数据。选项C正确。 7. 循环语句:do...while循环会至少执行一次,因此在给定的示例中,循环体执行了三次,因为循环条件在i=1时变为假,停止...

    快速删除macro1的宏工作表

    在Excel中,宏是一种强大的工具,它允许用户通过录制或编写VBA(Visual Basic for Applications)代码来自动化重复性任务。然而,宏也可能被恶意利用,成为宏病毒的载体,这些病毒可以在用户打开感染了宏的工作簿时...

    Python技术如何进行代码优化与重构.docx

    - **性能需求**:不同数据结构在插入、删除、查找等操作上的性能差异很大。 - **内存占用**:某些数据结构(如字典和集合)占用更多内存。 - **数据特性**:例如是否需要有序性,数据是否唯一等。 **2. 减少循环...

Global site tag (gtag.js) - Google Analytics