数据挖掘(Data Mining,DM)是从大量数据中提取或“挖掘”知识,是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。[1] 随着网络的不断发展,因特网目前已成为一个巨大的、分布广泛的和全球性的信息服务中心。从海量的网络信息中寻找有用的知识,早已成为人们的迫切需求。各种类似Google、Baidu等的搜索引擎也层出不穷,Web数据挖掘的应用在现实中不断体现。
Web数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策的风险。
Web数据挖掘涉及多个领域,除数据挖掘外,还涉及计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术。
2 Web数据挖掘面临的问题
Web的巨大、分布广泛和内容多样使得目前的Web挖掘面临着众多问题和挑战。首先,对有效的数据仓库和数据挖掘来说,Web上的数据过于庞大。而且,Web上的数据具有极强的动态性,不仅数量增长快而且更新十分迅速。但是面对如此大量的Web上的信息,有调查却表明:99%的Web信息对于99%的用户是无用的。这样看来,面对网络上形形色色各式各样的用户群体,许多由Web搜索引擎所检索到的资料将会被淹没。
另外,由于Web页面缺乏同一的结构,其结构又比任何传统文本文档都要复杂,所以要实现基于Web的数据挖掘和信息检索在目前来说是非常具有挑战性的。
3 Web数据挖掘的分类
Web数据挖掘是一项具有挑战性的课题。它实现对Web存取模式,Web结构和规则,以及动态的Web内容的查找。一般来说,Web数据挖掘可分为四类:Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘。其中,Web内容挖掘、Web结构挖掘和Web使用记录挖掘是Web1.0时代就已经有了的,而Web用户性质挖掘则是伴随着Web2.0的出现而出现的。
3.1 Web内容挖掘
Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。这些数据一般由非结构化的数据(如文本) 、半结构化的数据(如HTML 文档) 和结构化的数据(如表格) 构成。对非结构化文本进行的Web挖掘,称为文本数据挖掘或文本挖掘,是Web挖掘中比较重要的技术领域。Web挖掘中另一个比较重要的技术领域是Web多媒体数据挖掘。
目前,关于Web内容挖掘的研究大体以Web文本内容挖掘为主。Web内容挖掘一般从资源查找和数据库两个不同的方面进行研究。
从资源查找的方面来看,Web内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过滤信息。主要是对非结构化文档和半结构化文档的挖掘。非结构化文档主要指Web上的自由文本,如小说、新闻等。Web上的半结构化文档挖掘指在加入了HTML、超链接等附加结构的信息上进行挖掘,其应用包括超链接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。
从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成, 以支持复杂查询,而不只是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web知识库来实现。
对文本数据进行挖掘的文档分类和模型质量评价方法与传统的数据挖掘方法相类似,分类算法主要应用朴素贝叶斯(Naive Bayes Classifier)。对模型的质量评价主要有分类的正确率(Classification Accuracy)、准确率( Precision)和信息估值( Information Score)。 SAAS
Web多媒体数据挖掘从多媒体数据库中提取隐藏的知识、多媒体数据关联、或者是其他没有直接储存在多媒体数据库中的模式。多媒体数据挖掘包括对图像、视频和声音的挖掘。多媒体挖掘首先进行特征提取,然后再应用传统的数据挖掘方法进行进一步的信息挖掘。对网页中的多媒体数据进行特征的提取,应充分利用HTML的标签信息。[3]
3.2 Web结构挖掘
由于有用的知识不仅包含在Web页面的内容中,而且也包含在页面的结构中。所以Web结构挖掘是从站点的组织结构和页面结构中推导出知识,对Web页面间的结构进行挖掘,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。
Web结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。Web结构挖掘的基本思想是将Web看作一个有向图,他的顶点是Web页面,页面间的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。常见的算法有HITS ( Hypertext Induced Topic Search) 、PageRank、发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。HITS和PageRank分别是查询相关算法和查询独立算法的代表。
3.3 Web使用记录挖掘
Web使用记录挖掘也叫Web日志挖掘或Web访问信息挖掘。它是通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。
Web使用记录数据除了服务器的日志记录外, 还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、等一切用户与站点之间可能的交互记录。
Web使用记录挖掘方法主要有以下两种:
(1) 将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖掘;
(2) 将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。
3.4 Web用户性质挖掘
Web用户性质挖掘是伴随着Web2.0的出现而出现的。基于RSS、Blog、SNS、Tag以及WiKi等互联网软件的广泛应用,Web2.0帮助人们从Web1.0时代各大门户网站“填鸭”式的信息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。[4]面对Web2.0的诞生,Web数据挖掘技术又面临着新的挑战。
如果说Web使用记录挖掘是挖掘网站访问者在各大网站上留下的痕迹,那么Web用户性质挖掘则是要去Web用户的老巢探寻究竟。在Web2.0时代,网络彻底个人化了,它完全允许客户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对Web用户自建的RSS、Blog等Web2.0功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关Web2.0下的数据挖掘正在进一步的研究中。
4 结束语
Web数据挖掘是当今世界上的热门研究领域,其研究具有广阔的应用前景和巨大的现实意义。目前国内的Web数据挖掘尚处于学习、跟踪和探索阶段。Web数据挖掘有许多问题有待于进一步的研究和深化。Web2.0的出现给Web数据挖掘提出了新的要求。基于Web2.0的数据挖掘目前还处于起步阶段,它必将成为Web数据挖掘中很重要的一个研究领域。
分享到:
相关推荐
《Web数据挖掘》旨在讲述这些任务以及它们的核心挖掘算法;尽可能涵盖每个话题的广泛内容,给出足够多的细节,以便读者无须借助额外的阅读,即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息...
在信息化社会中,数据已经成为企业竞争优势的关键资源,而Web数据挖掘正是将这些海量信息转化为洞察力和策略的工具。 Web数据挖掘主要包括三个层次:结构化数据挖掘、半结构化数据挖掘和非结构化数据挖掘。结构化...
《Web数据挖掘》是一本由Bing Liu编著的英文教材,主要针对研究生及本科高年级学生,旨在深入探讨Web数据的获取、处理和分析。Web数据挖掘是信息技术领域的一个重要分支,它结合了网络技术、数据库技术、机器学习...
Web数据挖掘技术在中国电子商务领域的应用研究综述,主要探讨了Web数据挖掘技术的定义、分类、在电子商务中的应用现状以及未来的研究方向。 Web数据挖掘是数据挖掘技术在Web环境下的应用,其核心是从大量的Web文档...
### Web数据挖掘原理及实现 #### 一、引言 随着信息技术的发展,特别是数据库管理和互联网技术的广泛应用,人们积累了大量的数据。如何从这些海量数据中提取有价值的信息成为了研究的热点。数据挖掘技术作为一种...
Web数据挖掘是针对互联网资源的一种新兴研究领域,它结合了数据挖掘的技术和理论,旨在从海量的Web数据中发现有价值的信息和模式。这一领域的重要性在于,随着电子商务的快速发展,企业和商家需要更深入地了解客户...
### Web数据挖掘工具和工具设计 #### 引言 随着互联网技术的快速发展,网络上的数据资源变得异常丰富。然而,这些海量数据背后所蕴含的知识并未得到有效挖掘和利用,“数据丰富而知识贫乏”的现象十分突出。在当前...
Web数据挖掘是一种现代数据分析技术,随着互联网的普及与大数据的出现,Web数据挖掘的重要性日益增加。Web数据挖掘的目标是从大量的网络资源中提取出有价值的信息。在本文中,我们将探索Web数据挖掘的基础原理、关键...
### 基于XML的WEB数据挖掘系统框架的设计与实现 #### 概述 随着互联网技术的迅猛发展,网络上积累了海量的信息资源。如何有效地从这些数据中挖掘出有价值的知识和信息,成为了研究的重点之一。《基于XML的WEB数据...
### Web数据挖掘算法详解 #### 引言 随着互联网的快速发展,海量的网络数据成为宝贵的信息资源。**Web数据挖掘**作为一种重要的数据挖掘分支,旨在从与WWW(World Wide Web)相关的资源和行为中提取有价值的信息和...
电子商务中的Web数据挖掘是利用数据挖掘技术从互联网资源和用户行为中发现有价值的信息和模式,以优化电商网站的运营和提升用户体验。Web挖掘主要涉及三种类型:Web内容挖掘、Web结构挖掘和Web访问挖掘。 1. Web...
《Web数据挖掘最新教材》由Bing Liu撰写,是一本深度探讨Web挖掘技术的书籍,对Web挖掘领域的学习者和研究者具有极高的参考价值。本书涵盖了Web挖掘的三大核心领域:Web结构挖掘、Web内容挖掘和Web使用挖掘,通过...
### 电子商务网站的Web数据挖掘方案设计 #### 引言 随着互联网技术的快速发展与普及,电子商务已成为现代商业活动的重要组成部分。为了在激烈的市场竞争中脱颖而出,企业不仅需要具备优秀的商品和服务,还需深入...
本文针对网络安全防范与Web数据挖掘技术的整合进行了深入研究,强调了Web数据挖掘技术在提升网络安全防范性能方面的重要性。文章首先对Web数据挖掘技术的基本概念进行了阐释,接着分析了该技术在网络信息安全防范中...
WEB数据挖掘技术主要应用在互联网环境下,通过分析和处理网页中的数据来实现各种应用,例如搜索引擎的索引建立、个性化推荐、网页内容分类、网络异常检测等。WEB数据挖掘可以分为两大类:结构化数据挖掘和非结构化...
【描述】本文探讨了Web数据挖掘技术在数字图书馆个性化服务中的应用,阐述了Web数据挖掘在信息处理和个性化推荐中的重要作用,并提出了一种基于Web数据挖掘的个性化信息服务架构。 【关键词】个性化推荐;Web数据...
web数据挖掘相关论文,以及他在社交网络中的社交研究