基于XML的Web数据挖掘在数字图书馆中的应用

fly.net.cn

浏览: 189038 次
性别:
来自: 北京

最近访客更多访客>>

cues

chasewinds

ceoajun

gephen

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据挖掘

数据挖掘 Web XML 网络应用应用服务器

1 引言

随着信息时代的到来，Internet 技术的发展，图书馆的功能变得越来越多样化。数字图书馆就是传统图书馆在信息时代的发展，它的基本目标是创造一个良好的信息环境，提供对分布式存储信息的知识化组织、智能化访问和服务，它不但包含了传统图书馆的功能，还提供综合的信息访问服务。数字图书馆采用分布数据存储，能够把数据存储在多个站点中，读者只须一个简单的操作就可以从这些站点中搜索信息。
但是，从网络技术角度来看，数字图书馆与其它Web信息源没有两样，它们都是建立在 Internet上的信息站点。这些站点上的信息有些是显而易见的，有些则是潜在的，如何开发和利用这些信息资源已经成为人们所关注的焦点。然而目前搜索引擎的查全率和查准率以及原有的网络信息处理及组织技术显然还不能满足人们对网络信息服务的需求。正是在这种背景下，网络数据挖掘应运而生，并迅速成为网络信息检索、信息服务领域的热点之一。
网络数据挖掘就是数据挖掘在网络上的应用。所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程，其结果可以为用户决策所使用。目前的数据挖掘技术能很好地处理结构化数据，但对于例如文本、图形、图像或WWW信息资源等半结构、无结构数据，现有的挖掘技术处理起来就显得异常困难，这也向如今的数据挖掘技术提出了新的挑战。

2 Web数据挖掘的难点

网络上的数据主要存在于Web上，因而网络数据挖掘主要是Web上的数据挖掘。传统数据库中的数据结构性强，其中的数据为完全结构化的数据，而 Web上的数据不同于传统数据库中的数据，它最大的特点就是半结构化。因此，面向Web的数据挖掘要比面向单个数据仓库的数据挖掘复杂得多。 HAM

2.1 Web信息量大且更新迅速
数据仓库中的数据一般是相对固定的，而Web上的信息日益增多，其容量之大，变化之快，任何一个搜索引擎都难以适应这样的快速发展。因此，规模再大的搜索引擎也只能收集部分站点和页面，而且有效地及时跟踪管理所收集的信息也有很大难度。另外一方面，尽管网络带宽的扩大、并行处理等技术也不断完善，仍然不能很快检索所有的Web页，而且Internet上绝大部分信息对特定用户是没有意义的。因此，在进行挖掘 Web前的一个重要工作就是根据用户需求确定需要挖掘的站点和范围。

2.2 Web信息取得的困难化
早期的Web信息都是简单的HTML文件，Web挖掘工具可以直接获取这些信息，而且Web站点也没有对一些Web抓取工具进行防护。随着各种语言以及Web数据库技术的发展，许多页面都是动态从数据库中调用生成，而且许多站点禁止Web抓取工具的访问。更有甚者，有的站点还可以分辨它，认为是不友好的访问，或者将其禁止，或者转向到提供无用或错误信息的页面。同时，许多站点的关键页面通常只对自己的会员开放，这一切都为Web挖掘设置了越来越多的障碍。

2.3 异构数据库环境
Web上的信息也可以看作是一个更大、更复杂的数据库。Web上的每一个站点就是一个数据源，站点之间的信息和组织都不一样，这就构成了一个巨大的异构数据库环境。本地数据库的数据来源可以根据用户的意图事先固定好，而Web上的数据源则根本无法统一。若要对这些数据进行挖掘，首先，必须要研究站点之间异构数据的集成问题，只有将这些站点的数据都集成起来，提供给用户一个统一的视图，才有可能从巨大的数据资源中获取所需的东西。其次，还要解决Web上的数据查询问题，因为如果所需的数据不能有效地得到，对这些数据的分析、处理就无从谈起。

3 XML及其在Web数据挖掘中的应用

XML 的出现，为解决Web 数据挖掘的难题带来了机会。

3.1 XML的描述
XML是eXtensible Markup Language的简称，即“可扩展标示语言”，是SGML(标准通用标示语言)的一个简化子集。它通过CSS和XSL来完成数据的显示，重点在于描述数据本身，强调数据语义与元素之间的关系，因此我们能很容易就把它和关系数据库中的属性一一对应起来，也就是说当网络上出现更多的XML内容时，Web搜索的精确程度必定会有很大的提高。在线手册

3.2 XML在Web数据挖掘应用中的优势
以XML为基础的新一代WWW环境是直接面向Web数据的，能够更好地实现Web中信息的共享与交换。因此，可以看出XML相对目前大量使用的HTML而言，具有以下优点：
（1）简单。由于它描述的是数据本身，从而可以更容易地实现精确查询与模型抽取。
（2）灵活。XML能把不同来源的结构化数据很容易地结合在一起进行集合与处理。
（3）粒状更新。通过XML，数据可以粒状地更新，每当一部分数据变化后，不需要刷新整个使用者的界面就能够显示出来。
（4）开放性。现在有许多成熟的软件可用来帮助编写、管理XML文档，如SQL SEVER等可以直接从数据库中生成XML文件。
（5）通用性。它依赖Unicode新标准，支持世界上所有以主要语言编写的混合文本，使得信息交换能跨越国界和不同的文化背景交换。
（6）跨平台，可扩充。 XML被几乎所有的平台所承认，而且允许用户自行开发。

3.3 XML在Web数据挖掘中的应用
XML在Web中的应用大致可以被分为以下四类：
（1）实现异构数据的集成管理
XML 是一种半结构化的数据模型，而且用户可以很容易地将其和关系数据库中的属性一一对应，实施精确地记录、查询与模型抽取。因此，XML解决了每一个站点之间信息和组织都不一样的问题，使不同站点上的非结构性数据可以很容易地规范到一个既定的数据库上。软件代理商就可以在中间层的服务器上，对从后端数据库和其他应用获取的数据进行集成。

（2）将大部分处理负载从Web服务器转到Web客户端的应用
一般认为数据处理阶段是数据挖掘的重要环节，Web挖掘也不例外，大量的数据预处理工作都需要服务器端完成。按照传统的C/S模式来开发，客户向服务器发出不同的请求，服务器分别予以响应，这不仅加重服务器本身的负荷，而且网络管理者还需事先调查各种不同的用户需求开发出相应的程序。但假如用户的需求繁杂而多变，仍然将所有业务逻辑集中在服务器端显然是不合适的，因为服务器端的编程人员可能来不及满足众多的应用需求，也无法适应需求上的变化，双方都很被动。而XML将数据处理的主动权交给了客户，服务器端所要做的工作只是尽可能准确、完善地将数据封装成XML文件后发送给客户。客户端根据自己的需求选择和制作不同的应用程序以解析所接收的数据，并对数据进行编辑和处理。XML自带的解释执行系统在接收到数据的同时，也理解了数据的逻辑结构和含义，因而使分布式计算成为可能。
（3）促进数据交换
在Web数据挖掘过程中，用户经常需要在不同结构的数据源之间进行业务数据传递。而基于XML的数据是自我描述的，数据不需要内部描述就能被交换和处理。利用XML，用户可以方便地进行本地计算和处理，将XML格式的数据发送给客户后，客户可以用应用软件方便地解析数据以及对数据进行编辑和再处理。使用者可以用不同的方法处理数据，而不仅仅是显示它。XML文档对象模式(DOM)允许用脚本或其他编程语言处理Web数据，数据计算不需要回到服务器就能进行。总之，在这类应用中，XML解决了数据的统一接口问题。但是，与其它的数据传递标准不同的是，XML并没有定义文件中具体数据规范，而是在数据中附加标志来表达数据的逻辑结构和含义，这使得XML成为一种程序能自动理解的规范。

（4）需要Web智能代理根据个人用户的需求裁减信息内容的应用
传统HTML主要描述数据的外观，而XML可以描述数据的类别。由于数据显示与内容分开，XML允许为数据指定不同显示方式，使数据更合理地表现出来。XML还可以对所取得的信息进行裁减和编辑以适应不同的用户需求。它采用简单灵活的格式分离使用者观察数据的界面，将同样的数据以不同的浏览形式提供给不同的用户。与其它数据传递标准不同的是，XML并没有定义数据文件中数据出现的具体规范，而是在数据中附加标志来表达数据的逻辑结构和含义，这使XML成为一种程序能自动理解的规范。
显而易见，上面这些应用和Web数据挖掘有着重要的联系，而这些应用是标准的HTML无法完成的，因此基于Web的数据挖掘必须依靠XML来实现。

分享到：

XML与Web数据挖掘 | Lucene(Nutch)与商业文本搜索引擎的区别

2007-09-14 13:12
浏览 1544
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论