近年来,企业对于数据越来越重视,数据备份系统几乎已经成为大中型企业的必备系统。但与此同时,归档系统的重视程度却相对弱很多。那么,备份和归档有何区别?如何恰当选择归档系统呢?
2008年4月,51CTO.com记者近日采访了Sun公司亚太区存储业务产品技术推广主管Robert Nieboer和Sun公司大中国区存储业务部首席技术师刘颖浩,就归档系统的选择等问题进行了交流。
备份和归档区别何在?
刘颖浩告诉51CTO.com记者,现在仍然有一些用户对备份和归档混为一谈,但其实备份和归档是完全不同的两个概念。
备份已经为广大客户所熟知,其目的就是为了恢复,保证在出现意外情况时保证业务的连续进展;特别是在线备份,对速度的要求相对较高,但对容量的要求则相对较小。
归档的目的与备份完全不同。对于企业来说,每天产生的大量数据,其实是有60%-80%今后永远或者很少使用的;但出于服务质量要求、法规遵从或者其他原因,这些数据必须保留以备查询。简言之,归档的目的是为了服务品质和保证数据的可管理,使得运行、维护、投入整体成本降低,如何最大化使用存储,保证数据的访问,因此其方案选择也和备份有很大区别。
选择归档系统的四个原则
那么,如何选择一个适合的归档系统呢?Robert Nieboer介绍说,应该从四个方面选择归档系统的需求。
一、数据必须永远保留。无论是归档还是备份,数据的完整性必须得到保证,必须在规定的时间内保证数据的安全存储。
二、数据易于读取。虽然大部分数据重复读取的可能性不大,但归档系统依旧不是一个“死”仓库,必须保证在需要的时候能方便地读取数据,这也是归档系统的必备原则之一。
三、保证法规遵从。企业和组织在业务运作中,不仅要遵守企业自己的各项规章,而且要遵守政府和行业制定的各项法律、法 规及各种规章。例如,在美国推出的美国证券交易委员会SEC(Securities Exchange Commission)法案、萨班斯-奥克斯莱法案(Sarbanes-Oxley)法案等众多法案中,对电子记录在完整性、保密性和可存取性三个方面都有明确规定。归档系统也必须完全符合这些要求。
四、数据的可扩展性。对于许多企业来说,数据是无时无刻不在扩展的。特别是对Web 2.0等新兴企业来说,数据的扩展速度可能远超企业建立起始时的想像。这种情况下,归档系统必须保证自身的可扩展性,以满足企业迅速增长的数据量的要求。
磁盘和磁带?哪种才是最佳归档方案
关于归档方案的选择,市场上存在不同战略。其中一种归档战略对不同类型数据生成分别的、具体的、专业性的应用,把数据分成类别进行归档。但这样做会出现一个问题,那就是可能会用到兼容性很差的技术,使得总体的可管理性比较差,总成本也会上升。
Robert介绍说,Sun的归档战略是基于系统的战略,横跨多个应用,来自于不同人、不同应用的所有数据统一到存储管理器管理起来。对于数据的存储,采用分级别进行,在保持对归档数据可访问的前提下,有些数据存储在一级硬盘,有些存储在二级硬盘;同时,也把数据保存拷贝在成本低廉的磁带上。过了几个月之后,根据公司各自的章程和条规的制定,可以发现很多数据没有必要在一、二级硬盘上保留,就把他们从一、二级硬盘上删掉。删掉之后,这一些数据拷贝就主要在磁带上进行存储,因为磁带的成本低得多。(如下图所示)
|
图 Sun分级归档示意图 |
在这种情况下,什么样的数据被存储到哪一级硬盘上,应该保留多长时间,保留几个数据的拷贝,都属于策略问题,用户根据自己公司的需要以及法规遵从等原则,在SAM-FS存档管理器上做具体的规定,从而建立适应自己需求的个性化归档解决方案。而针对许多客户的整体需求,Sun也提供了包括一二级硬盘、磁带库以及归档软件在内的整体解决方案(Sun称为“客户就绪无限存档系统”),同时提供相应的服务,保证客户购买了这一套系统之后立刻可以使用。
最近也有企业提出基于磁盘的归档方案,那么相对磁盘归档来说,Sun这套磁带分级归档方案的优势在哪里呢?针对51CTO.com记者的这个问题,Robert解释说:必须注意到,虽然硬盘的价格在下降,但降幅已经大大放缓;而且也一定要看到,磁带的价格也在同时下降,而且下降的速度不比硬盘慢!同时,从长远来看,硬盘的密度已经越来越高,在2.5英寸的磁盘之上,越来越难把更多的不同类的数据放进去,否则就无法甄别数据;而0.5英寸的磁带在一盒里的长度可以达到一公里,而且几乎可以无限扩容。
此外,Robert进一步强调,磁带归档解决方案的另一大好处是,磁带对能耗的节省也是磁盘远远不能比的。众所周知,当数据存放在磁带时,如果不被访问数据,那么磁带不会消耗任何的电力,也不会产生任何的热量,是真正的零电力消耗的设备!那么对客户来说,一个问题就显而易见:对于归档这种访问可能性非常小的数据,是应该待在零电力和零热量的磁带盒里面,还是应该放在每秒5000转和10000转的磁盘上呢?举例说,一个大型企业保存7年邮件数据,可能90%是很少访问的;而如果把这些数据一直存储在磁盘里面、一直在运转,那么消耗的每年费用像耗电、制冷费用等,比采购产品的费用还要高很多!
除了能耗之外,架构问题也是当前企业需要考虑的问题之一。当前许多基于磁盘的归档系统的确看起来性价比很不错,但其扩展性有非常大的问题隐患,管理和扩充有可能将是数据扩展之后的梦魇。
刘颖浩介绍说,一些Web 2.0客户目前已经遇到了这些问题。出于成本等多方面考虑,许多Web 2.0网站都采用低成本的磁盘归档,但很快就会发现,数据量迅速扩充之后,虽然这些数据访问量极低,但依然占据了大量的空间,而单一磁盘解决方案却无能为力。相对而言,大多数国外WEB2.0客户都是通过分级存储管理的架构来保证它业务快速增长,底层基于大量磁带库,这样的架构不管数据怎么样激增也可以完全支撑,不会瘫痪。
开源?这个问题重要吗?
谈到最后,刘颖浩还特别强调了文件归档体系中开源的重要性——当然,这也是Sun长期以来的优势所在。刘颖浩称,国内很多用户没有意识到开源在存储方面的重要性,而这一点恰恰是国外用户几十年前犯的错误!我们没有理由不吸取他们的教训。
据刘颖浩介绍,存储和开放在长期数据归档上是非常重要的,特别是对政府和教育等行业,例如政府资料归档保护、数字化图书馆、数字化博物馆等,格式上的开源,将能保证这些数据的长期保护。如联合国教科文组织的文化遗产保护项目,整个规划设计也非常强调开源、开放。
当然,Sun作为开源方面的领导厂商,强调开源似乎也是应有之义。至于这一点对用户来说是否非常重要,51CTO.com记者倒还没有切身感受,这里只是向用户提个醒:开源,也许是个您应该思考的问题!
- 大小: 38 KB
分享到:
相关推荐
此外,MailData还能减轻邮件服务器的负担,避免频繁扩展存储空间,节省邮件存储资源,构建邮件数据的灾备堡垒,保障邮件系统的稳定运行。 在产品特性方面,MailData提供不同型号(如MDA500至MDA-12000)的软硬件...
- **分级存储体系的局限性**:随着数据量的快速增长,传统的分级存储(如光盘库和磁带库)无法满足高效的数据访问需求,且安全性较低。 - **容灾备份需求**:为了确保关键医疗数据的安全性,尤其是对于科学研究和...
3. **分级存储**: - 分为在线方式和近线方式两级。在线方式主要存储活跃数据,如数据库和应用系统数据,采用高性能磁盘阵列以保证快速访问。 - 近线方式针对非活跃数据,如归档资料,通过智能归档系统转移到成本...
因此,现代PACS存储系统设计应具备数据共享、集中式管理、分级存储、快速访问、高度扩展性、全面数据保护、业务连续性、远程连接能力和异构存储环境支持等特性。 在分级存储系统设计中,一级存储应提供高性能、高...
Sun StorageTek 在影视归档领域的专业性通过中央电视台2002年的媒体资产归档存储系统案例得到了充分体现,这一解决方案在国内广电行业中具有开创性意义,成为后来同类项目的参照标准。Sun StorageTek 作为全球领先的...
在选择存储设备时,需要考虑性能、扩展性、安全性、稳定性和容量等因素。对于访问频繁但价值不高的数据,可以选择在线磁盘阵列;而对于访问频率低、价值高、安全要求高的数据,则可以采用非在线的电子磁盘或磁带存储...
分布式存储通过其分级存储策略,能够根据数据的使用频率和重要性,将数据分布在在线、近线和离线存储设备中。这种策略不仅平衡了工作效能与工程成本,还能够科学地管理存储和维护,提升存储设备性能和空间利用率,...
因此,虚拟存储技术和分级存储技术应运而生,成为了解决这些问题的有效手段。 1. 虚拟存储技术 虚拟存储技术的核心在于通过集成管理多个存储介质,如硬盘、RAID阵列和带库,将它们整合成一个统一的“存储池”,...
高质量的存储管理系统能够提升整体云存储性能,实现分级存储功能,利用不同的存储介质,实现成本和效率的平衡。此外,存储管理系统还负责数据的备份、归档、恢复和镜像等关键性保障工作,以及存储控制和访问控制等...
3. **分层存储**:大数据存储的分层策略是根据数据的访问频率和价值进行分级存储。通常分为热层(高访问频率)、温层(中等访问频率)和冷层(低访问频率)。热数据存储在高速、成本较高的存储设备上,如SSD;温数据...
SDS通过解耦存储与硬件,提供在线备份和长期保存功能,支持介质分级存储池,实现多次生命周期管理,为数据热度不同的数据分配不同的存储池。 6. 高可用性和数据保护 SDS提供高可用性解决方案,包括卷同步复制、延展...
通过分级存储,企业可以根据数据的重要性和访问频率将其分布在不同性能和成本的存储层次上,实现数据生命周期管理,降低存储成本并减少风险。同时,这也有利于企业实施信息生命周期管理(ILM)策略,优化资源利用。 ...
为了降低存储成本和提高效率,数据中心会实施多种存储优化策略,如数据去重(deduplication)、压缩、精简配置(thin provisioning)和自动分级存储。数据去重可以消除重复数据,压缩减少存储空间占用,精简配置允许...
ARX系统支持分级文件存储、归档管理和Data DeDuplication技术,这使得企业能够将不同类型的数据存储在不同级别的存储设备上,如使用低成本的大容量存储设备作为近线存储,从而降低存储成本。同时,通过Data ...
根据数据类型和特性选择合适的压缩算法,优化压缩效率,并实现分级压缩,针对不同重要性和访问频率的数据应用不同的压缩算法。 8. **存储安全**:采用数据加密技术确保数据的安全性,实施数据访问控制以防止未经授权...
EMC提供的硬件系统包括EMC Symmetrix DMX-4、EMC Celerra NS42、EMC Centera和EMC Disk Library with Data Deduplication,这些设备构建了一个集中统一、分级存储的在线存储系统。同时,配合EMC Networker、EMC ...
- **存储系统设计原则**:明确了存储系统设计过程中需要遵循的原则,包括可靠性、可扩展性等。 - **存储系统技术方案建议**:提出了具体的存储技术选择建议,如RAID技术的应用等。 - **基于流的存储格式**:介绍了...
2.3.4 数据分级存储 根据数据访问频率和重要性,自动将数据分配到不同性能的存储层,实现成本效益最大化。 2.3.5 数据保护 提供快照、复制、备份等多种数据保护手段,保障数据的完整性和一致性。 2.3.6 易管理性 ...