DoSTOR专家观点:随着信息化技术的发展和深入,企业对数据的依赖不断增强。与此同时,急速增长的数据量也给管理和使用都带来了全新的挑战。IDC最新报告显示,2007年新增数据量(281 ExaByte)已经超过所有可用存储介质总容量(264 ExaByte)约6%,并预计2011年数据总量将达到2006年的10倍。面对数据的爆炸性增长,仅仅提高系统运算能力和增加存储介质容量已经不能满足高速发展的各种数据应用,对高效数据缩减技术的需求已经逐步显现出来,并且越来越迫切。
目前能够实现数据缩减的技术主要有两种:数据压缩(Data Compression)和重复数据删除(Data De-duplication)。简单来说,数据压缩技术通过对数据重新编码来降低其冗余度(redundancy);而重复数据删除技术则着眼于删除重复出现的数据块。
数据压缩
数据压缩的起源可以追溯到信息论之父香农(Shannon)在1947年提出的香农编码。1952年霍夫曼(Huffman)提出了第一种实用性的编码算法实现了数据压缩,该算法至今仍在广泛使用。1977年以色列数学家Jacob Ziv 和Abraham Lempel提出了一种全新的数据压缩编码方式,Lempel-Ziv系列算法(LZ77和LZ78,以及若干变种)凭借其简单高效等优越特性,最终成为目前主要数据压缩算法的基础。
Lempel-Ziv系列算法的基本思路是用位置信息替代原始数据从而实现压缩,解压缩时则根据位置信息实现数据的还原,因此又被称作"字典式"编码。目前存储应用中压缩算法的工业标准(ANSI、QIC、IETF、FRF、TIA/EIA)是LZS(Lempel-Ziv-Stac),由Stac公司提出并获得专利,当前该专利权的所有者是Hifn, Inc.
LZS算法基于LZ77(如图一)实现,主要由两部分构成,滑窗(Sliding Window)和自适应编码(Adaptive Coding)。压缩处理时,在滑窗中查找与待处理数据相同的块,并用该块在滑窗中的偏移值及块长度替代待处理数据,从而实现压缩编码。如果滑窗中没有与待处理数据块相同的字段,或偏移值及长度数据超过被替代数据块的长度,则不进行替代处理。LZS算法的实现非常简洁,处理比较简单,能够适应各种高速应用。
![](/upload/attachment/93205/74e9d664-06a9-3fdf-8921-bcaa806b4b18.jpg)
图一 LZ77算法示意图
数据压缩的应用可以显著降低待处理和存储的数据量,一般情况下可实现2:1 ~ 3:1的压缩比。
重复数据删除
在备份、归档等实际的存储实践中,人们发现有大量的重复数据块存在,既占用了传输带宽又消耗了相当多的存储资源:有些新文件只是在原有文件上作了部分改动,还有某些文件存在着多份拷贝,如果对所有相同的数据块都只保留一份实例,实际存储的数据量将大大减少--这就是重复数据删除技术的基础。
这一做法最早由普林斯顿大学李凯教授(DataDomain的三位创始人之一)提出,称之为全局压缩(Global Compression),并作为容量优化存储(Capacity Optimized Storage, COS)推广到商业应用。目前,除了DataDomain等专门厂商外,各主要存储厂商如EMC、IBM、Symantec、FalconStor等等也都通过收购或研发等途径拥有了各自的重复数据删除技术,有的还并冠以别名,如单示例存储(Single Instance Repository,SIR)等。
重复数据删除的实现由三个基本操作组成,如图二。首先,待处理数据(文件)被分割成固定或可变大小的数据块,同时生成一张"结构图"显示这些数据块怎样组成完整的原数据(文件);然后计算各数据块的"指纹"(标识),并根据"指纹"确认该数据块是否与其它数据块相同;最后,丢弃重复出现的数据块,并将"结构图"作为原始数据(文件)存储。
![](/upload/attachment/93206/5ed4500c-dd7f-3bfe-a10a-c604c9c69e18.jpg)
图二 重复数据删除原理
重复数据删除技术的关键在于数据块"指纹"的生成和鉴别。数据块"指纹"是鉴别数据块是否重复的依据,如果不同数据块的"指纹"相同,就会造成内容丢失,产生不可恢复的严重后果。在目前的实际应用中,一般都选择MD5或SHA-1等标准杂凑(hash)算法生成的数据块的摘要(digest)作为"指纹",以区分不同数据块间存在的差异,从而保证不同数据块之间不会发生冲突。但是,MD5,SHA-1等算法的计算过程非常复杂,纯软件计算很难满足存储应用的性能需求,"指纹"的计算往往成为重复数据删除应用的性能瓶颈。
目前,各厂商对各自重复数据删除技术的效用都有不同描述,一般都声称能将数据量减少到原数据的3% ~ 5%,即具有20:1 ~ 30:1的压缩比。
数据压缩和重复数据删除技术都着眼于减少数据量,其差别在于数据压缩技术的前提是信息的数据表达存在冗余,以信息论研究作为基础;而重复数据删除的实现依赖数据块的重复出现,是一种实践性技术。这两种技术具有不同层面的针对性,并能够结合起来使用,从而实现更高的数据缩减比例(40:1 ~ 90:1)。需要注意的是,如果同时应用数据压缩和重复数据删除技术,为了降低对系统的处理需求,通常需要先应用数据删除技术,然后再使用数据压缩技术进一步降低"结构图"和基本数据块的体积。
在归档应用中,存储的数据主要是文件在不同时间的各个历史版本,版本间的差异通常并不是很大,文件中往往有相当一部分内容并未发生改变,重复数据删除技术因而具有较大的应用空间和效能;同时,作为有特定意义的文件内容,使用数据压缩技术通常也可以获得2:1以上的压缩比。因此,针对归档应用,集成重复数据删除和数据压缩技术将可带来显著且可以预期的好处,实现90%以上的整体数据量缩减。
需要注意的是,由于数据压缩和重复数据删除技术都系统处理能力有较高要求,为了保证整体性能,在预算允许的范围内,应该注意选择具有相关硬件加速的方案。目前,市场上能够同时具有压缩和杂凑算法的解决方案并不多,主要由LZS算法的专利拥有者Hifn, Inc提供。除了常见的标准加密和摘要算法,Hifn的安全处理器和相应加速卡基本都集成有压缩处理能力,提供20MB/s ~ 250MB/s的处理能力。最近还专门推出了DR 250/255数据缩减加速卡,通过PCI-X和PCI-Express接口为存储系统提供250MB/s的数据压缩和摘要计算加速,并能够同时进行加密或解密处理,使系统能够在实现数据缩减的同时,提高对数据的保护级别。据称,Hifn下一代数据缩减产品处理能力将达到1.6GB/s,并支持IEEE P1619/1619.1标准的磁盘/磁带加密,计划将于今年下半年正式推向市场。
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0009/3205/74e9d664-06a9-3fdf-8921-bcaa806b4b18-thumb.jpg)
- 大小: 30.5 KB
![点击查看原始大小图片](http://dl2.iteye.com/upload/attachment/0009/3206/5ed4500c-dd7f-3bfe-a10a-c604c9c69e18-thumb.jpg)
- 大小: 39.3 KB
分享到:
相关推荐
在标题“dostor:小型对象的分布式对象存储”中,“dostor”很可能是一个专为处理小对象设计的开源分布式存储系统。这类系统通常以集群的形式运行,能够自动分散数据,提供高可用性和容错性,同时也支持高性能的读写...
### H3C 存储产品及解决方案的发展历程与技术特点 #### H3C存储产品线发展概况 H3C自2004年开始投入存储产品的研发,初期投资达1.5亿元人民币,并组建了200人的研发团队,在杭州和深圳两地设立了解决方案中心。至...
上市公司-重污染企业数据(1991年-2023年)
数据介绍 包括2000-2021年青藏高原15个典型湖泊的面积变化数据和1990-2020年黄河第一弯(以黄河进出玛曲县为控制点,玛曲小分水岭提取黄河所在地作为研究区:北纬32°16'-34°51',100°76'-东经103°41')研究区内水体、湿地、林地、草地、人类利用地、裸地的面积变化。 湖泊面积变化信息的提取采用数据分别来自陆地资源卫星 Landsat(包括 MSS、TM 和ETM+传感器)、高分辨率对地观测系统卫星(高分 1 号,WFV 传感器),其中2000-2012 年采用 Landsat 卫星数据,2013-2021 年采用高分 1 号数据。 湿地面积变化数据基于Landsat TM/OLI 卫星图像,选择了1990 年至 2020 年每隔5年的七个时间段进行提取计算。 文章命名与使用方法 文件命名:数据以.xlsx格式存储 文件的名称为“XX-area_yyyy-yyyy.xlsx”,其中XX代表地点,yyyy代表年,前面的yyyy代表数据开始时间,后面的yyyy代表数据结束记录时间。 数据读取方式:该数据集可以直接用excel程序打开。 ## 数据信息 数据大小:22.88kb 数据年份:1990-2021 数据格式:Excel
一年一度的全国教学创新大赛开始,我们收集了教学创新大赛、青教赛、混合式教学设计大赛三大赛相关资料,包含了课件、实施报告、案例、教学设计分享给大家! 一等奖、第二届救学创新大赛创新成果报告分享 特等奖教学设计案例分享|第一、二、三届全国高校混合... 陕西第三届高校课堂教学创新大赛获奖课件 全国高校教师教学创新大赛实战经验分享(第二届教创赛.. 全国高校教师教学创新大赛经验分享(PPT+讲座视频) 數学创新设计、实施、成效的系统性和逻辑性汇总 救学创新大赛详细教学设计案例、创新报告-《概率论与.. 教学创新大赛课件、教学大纲、教案分享(11门课) 教学创新大赛教学创新成果报告案例-《剧目与排练》 教学创新大赛获奖成果报告案例(新工科新文科新医科新... 敦学创新大赛国赛一等奖PPT 救学创新大赛国赛一等奖《工程力学》教学设计、申报书.... 教学创新大赛创新成果报告分享(文科艺术体育)30个 教学创新大赛创新成果报告分享(理科工科30个) 数学创新大赛创新成果报告分享(21个)
数据介绍 城市群内部空间网络的特征决定了单个城市的碳峰值路径不可避免地受到邻近城市的影响,但考虑空间相关性的碳峰值预测还没有得到很好的研究。针对这一情况,我们开发了空间嵌入式深度学习预测模型,并根据中国长三角城市群2000-2019年的数据进行了2020-2035年的碳排放预测。预测场景包括基线场景和绿色场景。提供的数据集包括 2020-2035 年这两种情景下 41 个城市的预计碳排放量。该数据集可用于研究城市群碳达峰全球战略的制定。 数据大小:27.25KB 数据时间:2020年至 2035年 数据格式:xlsx 数据作者: shi changfeng;yu yue;yao xiao;pang qinghua 引用方式: shi changfeng, yu yue, yao xiao, et al. A dataset of carbon emission projections for Yangtze River Delta Urban Agglomeration, China, 2020-2035.[DS/OL]. V1. Science Data Bank, 202
大学生资助管理系统(源码+数据库+论文+ppt)java开发ssm框架javaweb,可做计算机毕业设计或课程设计 【功能需求】 1.登录模块:系统会进行用户身份进行判别,如果判断为学生用户,则进入学生模块。判断为教师用户,则进入教师模块。 2.学生模块:学生登录后,可以进行贫困申请,查看自己的申请结果、下载申请表、申请进度,并可以对登录密码进行修改。 3.教师模块:教师登录后,即可看到学生提交上来的申请,查看学生信息,学生信息包括学生学号、姓名、性别、所在学院、专业、密码、班级、联系方式、身份证号以及贫困生申请结果等等。教师可以审核材料、提交意见、并导出表格。 4.管理员模块:管理员登录后,对贫困生信息进行查询、修改等操作,若该贫困生信息不符合贫困生的认定资格,可撤销贫困生资格;筛选条件,查看贫困生信息,并将数据以Excel形式导出。贫困生数据信息进行删除和批量删除的修改。设置信息提示功能如申请进度和申请结果。管理员可以发表相关公告通知,相关申请表下载,公示名单等,学生可以查阅并下载。 【环境需要】 1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。 2.IDE环境:IDEA,Eclipse,Myeclipse都可以。 3.tomcat环境:Tomcat 7.x,8.x,9.x版本均可 4.数据库:MySql 5.7/8.0等版本均可; 【购买须知】 本源码项目经过严格的调试,项目已确保无误,可直接用于课程实训或毕业设计提交。里面都有配套的运行环境软件,讲解视频,部署视频教程,一应俱全,可以自己按照教程导入运行。附有论文参考,使学习者能够快速掌握系统设计和实现的核心技术。
LabView阶次与振动噪声分析系统:旋转机械故障诊断与变速诊断的同步信号采集与阶次分析功能详述,labview阶次分析,振动噪声分析。 描述:旋转机械故障诊断,变速诊断,振动噪声分析,轴承诊断等。 功能: 1. 同步采集振动信号(或噪声信号)和速度信号,绘制振动曲线和速度曲线。 2.绘制色谱图,可以选择通道类型,自动分析图中阶次,可以db显示。 3.绘制功率阶次谱,可以选择合适窗函数,可以db显示。 4.阶次切片,分析不同阶次的相对大小。 可以选择横坐标类型,纵坐标可以db显示。 5.保存历史数据到文件中。 ,Labview阶次分析;振动噪声分析;旋转机械故障诊断;同步采集信号;色谱图分析;功率阶次谱;阶次切片;历史数据保存,LabView阶次分析与振动噪声诊断系统
防疫工作志愿者服务平台(源码+数据库+论文)java开发ssm框架javaweb,可做计算机毕业设计或课程设计 【功能需求】 主要功能:打卡管理、字典管理、论坛管理、公告管理、活动管理、活动收藏管理、活动留言管理、活动报名管理、活动分组管理、组内成员管理、内部邮件管理、用户管理、工作人员管理、管理员管理等功能。 【环境需要】 1.运行环境:最好是java jdk 1.8,我们在这个平台上运行的。其他版本理论上也可以。 2.IDE环境:IDEA,Eclipse,Myeclipse都可以。 3.tomcat环境:Tomcat 7.x,8.x,9.x版本均可 4.数据库:MySql 5.7/8.0等版本均可; 【购买须知】 本源码项目经过严格的调试,项目已确保无误,可直接用于课程实训或毕业设计提交。里面都有配套的运行环境软件,讲解视频,部署视频教程,一应俱全,可以自己按照教程导入运行。附有论文参考,使学习者能够快速掌握系统设计和实现的核心技术。
使用ai如deepseek进行本地部署然后喂饭自制知识库进行使用
DeepSeek-V3-main.zip
上市公司-历史业绩、行业业绩预期差距(2001-2022年)
地级市-固定资产投资额数据(2000-2022年)
基于PLECS仿真的IEEE顶刊复现研究:DAB变换器峰值电流前馈控制策略的深入探讨与分析,PLECS仿真,IEEE顶刊复现,DAB变器峰值电流前馈控制策略。 ,PLECS仿真; IEEE顶刊复现; DAB变换器; 峰值电流前馈控制策略,"PLECS仿真下DAB变换器峰值电流前馈控制策略复现IEEE顶刊研究"
激光增材制造:同轴送粉激光沉积与数值模拟仿真教程包(含源文件与文献),同轴送粉激光沉积增材制造,激光熔覆,数值模拟仿真模型FLOW 3D(单层单道)。 熔池温流场仿真。 含仿真模型源文件,热源模型,软件基础教学视频等,附赠激光增材制造模拟仿真相关文献。 包后。 [VS]许可证过期问题可以解决,亲测可计算使用 ,核心关键词: 同轴送粉激光沉积;激光熔覆;数值模拟仿真模型FLOW 3D;熔池温流场仿真;仿真模型源文件;热源模型;软件基础教学视频;激光增材制造模拟仿真文献;VS许可证过期问题。,"同轴送粉激光增材制造温流场数值模拟包:源文件&仿真文献集成版"
内容概要:本文深入介绍了Diagnosics over Internet Protocol(DoIP)协议的技术背景、发展动因以及其在现代汽车行业的重要作用。DoIP协议作为一种基于车载以太网的诊断协议,解决了传统CAN总线带宽不足的问题,能够高效地支持大量数据传输的需求。文中特别阐述了DoIP的应用场景,例如ECU固件的OTA更新、自动驾驶系统的调试、生产线最终检验及售后诊断和云端远程诊断。此外,针对具体的技术应用难题——如何为tester定义特定TCP源端口提供了详细的指导步骤,包括编辑DoIP.ini文件以强制指定发送时使用的TCP端口号。 适用人群:主要适用于汽车电子工程师和技术开发者,尤其是那些关注车联网技术和高级辅助驾驶系统的专业人员。 使用场景及目标:有助于从业者深入了解和支持基于DoIP协议的各种高级功能和服务,确保设备之间的稳定通信;同时也为从事相关工作的技术人员提供了一种实用的方法,即当需要进行诊断任务或者执行某些自动化测试时,可以为连接车辆ECU的工具(如诊断仪)指定一个固定的TCP源端口以便更好地管理和跟踪网络流量。 其他说明:本文不仅提供了理论知识还附带有实际操作指南,对于想要掌握最新行业技术趋势或希望优化现有系统的个人来说都是非常宝贵的资料。它强调了DoIP作为一项新兴且重要的联网汽车核心技术的地位,并对其未来发展作出了展望,如5G-V2X集成、AI驱动的预测性维护等。
随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,闲一品交易平台当然也不能排除在外。闲一品交易平台是以实际运用为开发背景,运用软件工程原理和开发方法,采用SpringBoot框架构建的一个管理系统。整个开发过程首先对软件系统进行需求分析,得出系统的主要功能。接着对系统进行总体设计和详细设计。总体设计主要包括系统功能设计、系统总体结构设计、系统数据结构设计和系统安全设计等;详细设计主要包括系统数据库访问的实现,主要功能模块的具体实现,模块实现关键代码等。最后对系统进行功能测试,并对测试结果进行分析总结,得出系统中存在的不足及需要改进的地方,为以后的系统维护提供了方便,同时也为今后开发类似系统提供了借鉴和帮助。这种个性化的网上管理系统特别注重交互协调与管理的相互配合,激发了管理人员的创造性与主动性,对闲一品交易平台而言非常有利。本闲一品交易平台采用的数据库是MySQL,使用SpringBoot框架开发。在设计过程中,充分保证了系统代码的良好可读性、实用性、易扩展性、通用性、便于后期维护、操作方便以及页面简洁等特点。
python爬虫从0开始_pgc
win32汇编环境,结构体的使用示例一
《DeepSeek从入门到精通》手册精心划分为三大核心部分,旨在引领用户从基础到高级,全面探索DeepSeek的无限可能。 本手册不仅内容丰富、结构清晰,而且注重实战应用,旨在为用户提供一份全面、实用的DeepSeek学习资料,助力用户在DeepSeek的探索之路上不断前行。