如何从海量数据中迅速找到想要的数据？ -

xuexing

浏览: 24540 次
性别:
来自: 成都

最近访客更多访客>>

richand730

simon518

you1huang

Bocurry

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

如何从海量数据中迅速找到想要的数据？

企业应用 Excel Google

今时今日，众多企业在数据管理中所面临的主要挑战之一是如何从海量数据中获得更多的价值，尤其是从企业自身一点一滴辛苦积累起来的数据中获取价值。为了应对这个问题，近年来，很多公司都在信息技术系统上进行了巨额投资。但是，很多情况下种瓜未必得瓜，不菲的投入并未能给企业客户带来应有的回报――一些企业随着业务量和数据量的逐年增大，内部出现了数据混乱的局面：谁也不知道整个公司的信息系统中存放了多少数据，这些数据又具体存在哪个系统，其中又有多少数据间存在冲突……至于是否存在未经授权就使用数据的情况就更不得而知了。IT经理们也经常抱怨：“企业内部的数据越来越多，每个信息系统里都有大量的数据，但若要从这些系统里寻找想要的数据，则难如大海捞针。”花了大价钱进行IT系统建设，到头来却出现找不着信息的尴尬局面，不能不引起深思。

    保护好数据和及时方便地搜索到所需信息是信息管理的两个重要方面。我们都已经习惯在网上用Google来查询一些资料，只要简单输入关键字，就能得到相关的信息。可是当我们面对在线的生产系统或离线的保护数据时，就没那么幸运了。经常会遇到这样的情况：当需要查询某一文档时，既不知道文件名，又不知道文件产生的时间，只知道文件相关内容，在这种情况下，怎么查？如果该文档还存在于在线生产系统中，也许还有办法；但如果该文件在某种离线的数据保护介质上，如磁带，也许就不那么好办了。传统的数据管理系统由于技术的局限性，是没办法处理这种问题的。

    新一代的数据管理软件使解决这一难题出现了希望的曙光。其实，只要对在线生产数据和离线保护数据建立内容索引，通过内容索引，用户就能查询到在线数据、离线备份数据、归档数据副本中的文档。表面上看，这种技术并不复杂，但真要实现这一功能却并不容易。原因是我们面对的是海量的非结构化数据，再加上多种文件格式，如：Word、PDF、Excel等，还要考虑到多个版本，如此种种，事情就没那么简单了！

    要想实现全方位的内容查询，有两点关键技术必须突破，一是要有高效的、针对海量数据的全文索引，另一方面就是要能对不同介质的存储进行虚拟化管理。目前主流的存储介质有三类：磁盘、磁带和光盘，这些不同类型的介质所构成的存储设备环境的特性是不一样的。在多层存储架构中，我们一般会用磁盘来做近线存储，数据保留周期在一年以内；通常会利用磁带来做离线存储，数据保留周期在三至七年；利用光盘来做归档存储，数据保留永久。在这种分层的存储架构下，数据因时间的推移会被迁移，因此内容索引机制不仅要能跟踪数据的迁移，而且对数据的存取也必须能跨越不同的存储，也就是说能对存储进行虚拟化管理，用户只需要利用逻辑的查找界面，就能发现并读取所需要的数据和文件，而不必关心数据存放在何种介质的设备上。

如何从海量数据中迅速找到想要的数据？

    全方位的内容查询就是能对当前数据、历史数据，能对在线存储、离线存储，能对复制数据、备份数据和归档数据，能对不同应用软件产生的不同格式的数据进行全方位的查询。这是一个美好的目标，堪称数据管理的更高境界！

    作为全球领先的数据管理应用软件供应商，CommVault为业界带来了一体化的搜索平台，通过对在线、离线数据建立统一的索引，快速定位任何数据副本所在的物理位置，不管该文件是在磁盘或磁带上，实现全方位的数据搜索。CommVault最新数据管理软件Simpana 7.0就包含了“全方位数据查询”这一卓越功能。这一功能主要为两类用户设计：从事法律调查取证的专业用户，以及一般的企业用户。针对两者不同的管理权限，Simpana也通过两种截然不同的方式帮助他们从杂乱的“故纸堆”中立刻找到所需信息：

   法规遵循用户搜索——以往要从庞大的数据集中找出蛛丝马迹，对于从事法律调查取证的用户来说，是最令人头痛的。Simpana 7.0的出现让这一问题迎刃而解。在一个统一的界面上，特许用户获得高级数据访问权，通过迅捷的数据查找，大大提高了搜索备份和存档数据的能力，从而能积极响应各类政策法规的调查取证要求。

   企业用户搜索——使用CommVault的自助搜索功能，用户通过一个类似“google”的搜索界面就能立即使用原本被锁定于备份或存档副本中的数据。键入一个关键词或短语，所有与关键词有关的搜索结果条目在几秒之内呈现出来。

分享到：