`
xuexing
  • 浏览: 24027 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

如何从海量数据中迅速找到想要的数据?

阅读更多
今时今日,众多企业在数据管理中所面临的主要挑战之一是如何从海量数据中获得更多的价值,尤其是从企业自身一点一滴辛苦积累起来的数据中获取价值。为了应对这个问题,近年来,很多公司都在信息技术系统上进行了巨额投资。但是,很多情况下种瓜未必得瓜,不菲的投入并未能给企业客户带来应有的回报――一些企业随着业务量和数据量的逐年增大,内部出现了数据混乱的局面:谁也不知道整个公司的信息系统中存放了多少数据,这些数据又具体存在哪个系统,其中又有多少数据间存在冲突……至于是否存在未经授权就使用数据的情况就更不得而知了。IT经理们也经常抱怨:“企业内部的数据越来越多,每个信息系统里都有大量的数据,但若要从这些系统里寻找想要的数据,则难如大海捞针。”花了大价钱进行IT系统建设,到头来却出现找不着信息的尴尬局面,不能不引起深思。
    
    保护好数据和及时方便地搜索到所需信息是信息管理的两个重要方面。我们都已经习惯在网上用Google来查询一些资料,只要简单输入关键字,就能得到相关的信息。可是当我们面对在线的生产系统或离线的保护数据时,就没那么幸运了。经常会遇到这样的情况:当需要查询某一文档时,既不知道文件名,又不知道文件产生的时间,只知道文件相关内容,在这种情况下,怎么查?如果该文档还存在于在线生产系统中,也许还有办法;但如果该文件在某种离线的数据保护介质上,如磁带,也许就不那么好办了。传统的数据管理系统由于技术的局限性,是没办法处理这种问题的。
    
    新一代的数据管理软件使解决这一难题出现了希望的曙光。其实,只要对在线生产数据和离线保护数据建立内容索引,通过内容索引,用户就能查询到在线数据、离线备份数据、归档数据副本中的文档。表面上看,这种技术并不复杂,但真要实现这一功能却并不容易。原因是我们面对的是海量的非结构化数据,再加上多种文件格式,如:Word、PDF、Excel等,还要考虑到多个版本,如此种种,事情就没那么简单了!

    要想实现全方位的内容查询,有两点关键技术必须突破,一是要有高效的、针对海量数据的全文索引,另一方面就是要能对不同介质的存储进行虚拟化管理。目前主流的存储介质有三类:磁盘、磁带和光盘,这些不同类型的介质所构成的存储设备环境的特性是不一样的。在多层存储架构中,我们一般会用磁盘来做近线存储,数据保留周期在一年以内;通常会利用磁带来做离线存储,数据保留周期在三至七年;利用光盘来做归档存储,数据保留永久。在这种分层的存储架构下,数据因时间的推移会被迁移,因此内容索引机制不仅要能跟踪数据的迁移,而且对数据的存取也必须能跨越不同的存储,也就是说能对存储进行虚拟化管理,用户只需要利用逻辑的查找界面,就能发现并读取所需要的数据和文件,而不必关心数据存放在何种介质的设备上。

如何从海量数据中迅速找到想要的数据?

    全方位的内容查询就是能对当前数据、历史数据,能对在线存储、离线存储,能对复制数据、备份数据和归档数据,能对不同应用软件产生的不同格式的数据进行全方位的查询。这是一个美好的目标,堪称数据管理的更高境界!
    
    作为全球领先的数据管理应用软件供应商,CommVault为业界带来了一体化的搜索平台,通过对在线、离线数据建立统一的索引,快速定位任何数据副本所在的物理位置,不管该文件是在磁盘或磁带上,实现全方位的数据搜索。CommVault最新数据管理软件Simpana 7.0就包含了“全方位数据查询”这一卓越功能。这一功能主要为两类用户设计:从事法律调查取证的专业用户,以及一般的企业用户。针对两者不同的管理权限,Simpana也通过两种截然不同的方式帮助他们从杂乱的“故纸堆”中立刻找到所需信息:

   法规遵循用户搜索——以往要从庞大的数据集中找出蛛丝马迹,对于从事法律调查取证的用户来说,是最令人头痛的。Simpana 7.0的出现让这一问题迎刃而解。在一个统一的界面上,特许用户获得高级数据访问权,通过迅捷的数据查找,大大提高了搜索备份和存档数据的能力,从而能积极响应各类政策法规的调查取证要求。

   企业用户搜索——使用CommVault的自助搜索功能,用户通过一个类似“google”的搜索界面就能立即使用原本被锁定于备份或存档副本中的数据。键入一个关键词或短语,所有与关键词有关的搜索结果条目在几秒之内呈现出来。
分享到:
评论

相关推荐

    海量数据查找数据问题

    面对这样的挑战,如何高效地从海量数据中查找特定信息成为了一项关键技术。本篇文章将详细探讨如何解决"海量数据查找数据问题",并着重讨论如何在海量数据中寻找中位数以及查找特定的数。 首先,我们来关注如何在...

    海量数据处理方法

    在海量数据处理中,set/map/multiset/multimap 等数据结构扮演着重要的角色。这些数据结构都内含一个 RB-tree 或 hashtable,用于存储和处理大量数据。set 是一种集合数据结构,map 是一种映射表数据结构,multiset ...

    50丨索引:如何在海量数据中快速查找某个数据?1

    对于索引需求,Redis可能会利用跳跃表(Skip List)来实现,它在内存中提供了类似于B树的搜索性能,但实现起来更简洁,且支持快速插入和删除操作。 【索引需求分析】 在设计索引时,我们需要考虑以下几个功能性...

    海量数据管理报告.zip

    在本报告中,我们将深入探讨“海量数据管理”的核心概念及其在实际操作中的应用,以西电(西安...通过三次上机实验,学生可以全面了解从数据存储、处理到分析的全过程,为今后在实际工作中处理海量数据打下坚实的基础。

    虚拟列表快速显示海量数据

    在IT行业中,尤其是在开发大型数据应用时,如何高效地处理和显示海量数据是一个常见的挑战。`DataGridView`控件是Windows Forms应用程序中常用的一种用于显示表格数据的组件,它提供了丰富的功能,包括排序、筛选和...

    将海量数据导入到sql中

    在IT行业中,处理和管理海量数据是日常工作中的一项重要任务,尤其是在数据库操作中。当涉及到将大量数据导入SQL服务器时,正确的方法和技术选择至关重要。本文将深入探讨如何高效地将海量数据导入到SQL中,主要关注...

    海量数据处理策略.pdf

    在实际工作中,海量数据处理策略的应用非常广泛,如社交网络、电子商务、视频监控、医疗影像等领域都需要高效地处理和分析海量数据,以满足业务的需求。本文的内容可以为这些领域的企业和个人提供有价值的参考和借鉴...

    基于Bloom Filter的海量数据分布式快速匹配算法研究.pdf

    1. 海量数据快速匹配问题:随着数据库和网络技术的发展,应用系统所处理的数据量急剧增加,导致了海量数据的管理成为一项挑战。特别是在网页消重、搜索引擎、图书文献检索以及病毒库规则过滤等领域,如何从大量的...

    海量数据处理的word

    海量数据处理是现代信息技术领域中的一个关键概念,随着互联网、物联网和社交媒体的快速发展,企业每天都在生成和收集大量的数据。这些数据的规模已经超出了传统数据处理方法的能力范围,因此,理解和掌握海量数据...

    十道海量数据处理面试题

    海量数据处理是互联网公司技术面试中的一个重要环节,它主要考察应聘者处理大规模数据集的能力,以及对各种存储、计算、排序算法的理解和应用。以下针对提供的文件内容,提炼出相关的知识点。 首先,海量数据处理的...

    常用大数据量,海量数据处理方法,算法总结

    海量数据处理方法总结 本文总结了常用的海量数据处理方法,包括 Bloom filter、Hashing 和 bit-map 等。这些方法可以用来解决大数据量的问题,例如数据字典、判重、集合求交集等问题。 Bloom Filter Bloom filter...

    海量数据处理分析.pdf

    本文将从多个方面探讨如何优化和处理海量数据。 数据量过大 海量数据的首要特征是数据量极大。在处理这样规模的数据时,手工处理是不现实的,必须借助工具或程序。由于数据量极大,无法通过逐一检查的方式解决问题...

    海量数据处理

    ### 海量数据处理关键技术解析 #### 一、海量数据处理概述 在当前的大数据时代,数据量的急剧增长使得传统的数据处理技术面临着前所未有的挑战。海量数据处理是指在合理的时间内,对大规模数据集进行高效存储、...

    海量数据查询优化

    在IT行业中,数据库管理和优化是至关重要的领域,特别是在处理海量数据时。本篇文章将深入探讨“海量数据查询优化”这一主题,包括聚集与非聚集索引的区别,以及如何利用索引来提升查询性能。 首先,我们要理解什么...

    海量数据处理总结(大量数据处理)

    本文将围绕“海量数据处理”这一主题,详细探讨几种核心的技术方法,包括Bloom Filter、Hashing以及Bit-Map,它们在实际场景中的应用以及优化策略。 #### 一、Bloom Filter:高效的空间换时间 Bloom Filter是一种...

    java处理海量数据的初步解决思路

    在Java编程中,处理海量数据是一项挑战,但通过合理的策略和工具可以有效地解决。这篇文章将探讨如何使用Java来处理大规模数据,主要关注于优化内存管理、分片处理、流式处理以及利用开源工具等方法。 首先,理解...

    基于人工智能的海量数据处理技术研究.pdf

    在数据预处理阶段,通过有效的特征提取方法,可以从海量数据中提取出有意义的信息,为后续的数据分析和挖掘提供支持。特征提取方法通常结合了数学模型和算法,能够根据数据的特点,选择合适的特征,排除噪声和冗余...

    基于OPENDATASOURCE函数的SQL Server数据库海量数据的快速导入导出方法

    在SQL Server中,处理海量数据是一项挑战,尤其是在需要频繁导入导出的情况下。为了高效地管理大量数据,SQL Server提供了一种灵活的工具——OPENDATASOURCE函数,它允许我们直接从外部源读取数据,从而实现快速的...

Global site tag (gtag.js) - Google Analytics