`

什么是Web数据挖掘

阅读更多

      今天读了一篇长E文Web Content Mining , 从题目看好像没有什么特别,也许是普通的商业软文,但是,看了第一段后发现是关于Dr. Bing Liu of the University of Illinois Chicago的,所以打足精神一句一句把它读完。第一次遇到Bing Liu这个名字是在一年前,华中科技大学一博士朋友推荐给我《Sentiment Analysis and Subjectivity》这篇综述,就是Bing Liu写的,然后又阅读了《Opinion Spam and Analysis》。都是翻来覆去精读,因为几年前就想着手开发一个web数据挖掘软件,主要用于企业竞争情报分析,酝酿了很多年都不敢下手,理论性太 强,担心吃不透或吃不准。直到2009年底开始陆续接触了几个网络舆情监测项目,也承接了好几个行业的类似项目,才下定决心投入SliceProfile 的 开发,这个项目投入巨大,资源投入十分集中,但开发周期很短(5个月),因为整个框架早就在头脑中酝酿成型了,尤其阅读《Sentiment Analysis and Subjectivity》获得的灵感更多,还阅读了大量引文,再三权衡学术和商业的分界线的位置。所以今天看这篇文章的动力决不是因为有中国名字的人写 了一篇E文而已。

这篇文章好像是对刘博士新书《Web Data Mining》的介绍和读后感,没有读过这本书,所以这篇文章的部分内容没有理解,而且有些观点不知道是刘博士的还是文章作者的。一些重要结论和一些本人的疑惑一并记录下来,作成一篇读书笔记。



Web数据挖掘的种类

刘博士将Web Data Mining分成三类:

  • Web Usage Mining:挖掘用户访问网站的行为模式,例如,挖掘clickstreams,可能会用到用户TCP/IP地址和用户帐号信息,以便做关联分析
  • Web Structure Mining:挖掘超链接背后的知识,例如,分析web信息是怎样聚类的
  • Web Content Mining:从网页内容挖掘知识


Web内容挖掘要做哪些工作

根据这篇文章,要达到Web内容挖掘的目的,需要做:

  • Structured Data Extraction:结构化数据提取
  • Information Integration:信息集成(结构化的信息)
  • Opinion Mining(Information Extraction):观点挖掘(非结构化的信息抽取)

什么是结构化数据提取

读到这一段,首先感慨刘博士写书不是凑的,还真有些实践体验,例如,关于从亚马逊(amazon.com)上提取商品列表和商品详细信息这类活动,应该是我们这些信息劳工常做的事 。引出了一个概念:entity,但是没有搞懂对实体(entity)的界定与数据挖掘是什么关系,为什么要讲这个概念。

然后讲到结构化数据挖掘和非结构化数据挖掘,更是一头雾水。

wrapper induction这个词感觉是给MetaSeeker 的协同式网页信息提取提供了理论支持,因为在信息提取领域HTML Wrapper一般是指将网页内容进行结构化提取的软件。但是,文章的解释:

   The word inductive means guessed
, and therefore wrapper induction implies
   guessing the text
 which frames a structured data object.

确实没有领会guess是指什么。根据刘博士的胶片(slides) ,wrapper induction采用监督学习方法(supervised),看来真的是“guess”,需要读一下他的书去仔细领会下。

关于非结构化数据挖掘比较容易理解,automatic extraction正是GooSeeker现在的研发方向,我认为很有价值且能指导我们研发规划的一句话:

   Algorithms exist for this purpose, but I believe this area could be more customized
   when someone has a specific scientific goal in mind.

什么是信息集成

文章用机票搜索服务为例说明信息集成需要解决的问题,GooSeeker网站上的比价系统案例 也需要解决信息集成问题。从不同网站上提取到的信息进行比对,识别出同义内容,例如,京东 和卓越 上的同一个商品用不同标题和不同的产品描述,需要识别出来。文章提到了多种方法:

  • make a bridging assumption:按我的理解就是一些映射或者转换规则
  • query probing:按我的理解就是将上述的转换规则封装成一个服务或者模块,由它进行转换。只是模块化更好,可能就像corba或者SOA一样给人展示一幅看起来很美好的图画。
  • 通过计算相似性来做聚类:似乎太高科技了。不过在比价系统中我确实想用这种方法尝试一下,可以用比较简化的方法,例如,通过一些特征词构成的向量空间,计算向量夹角也许能行。

根据刘博士的slides,信息集成被清晰地分成两类:

  • schema match:将不同表的字段进行匹配,识别出元数据语义相同的字段来
  • data instance match

什么是观点挖掘

本文开篇提到的刘博士的那两篇文章都是有关观点挖掘的,根据我使用SliceProfile部署奇瑞汽车和中信信用卡危机监测和舆情分析系统的感 受,主观倾向性分析的准确度很难提高,而且客户的理解和要求也各不相同。普通的文本分类算法效果比较差,不得不增加大量的规则进行修正。



结论

也许Web Content Mining 的作者有其独特的经历和视角,所以文中有些观点一时难以理解,看来还是有必要直接阅读刘博士的新书《Web Data Mining》。

分享到:
评论

相关推荐

    Web数据挖掘

    Web数据挖掘是信息技术领域的一个重要分支,它结合了网络技术、数据库技术和数据分析,旨在从海量的Web信息中提取有价值的知识和信息。Web数据挖掘通常分为三个主要阶段:预处理、提取和后处理。 预处理阶段是数据...

    Web数据挖掘.pdf-中文-目录

    《Web数据挖掘》旨在讲述这些任务以及它们的核心挖掘算法;尽可能涵盖每个话题的广泛内容,给出足够多的细节,以便读者无须借助额外的阅读,即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息...

    Web数据挖掘原理及实现

    ### Web数据挖掘原理及实现 #### 一、引言 随着信息技术的发展,特别是数据库管理和互联网技术的广泛应用,人们积累了大量的数据。如何从这些海量数据中提取有价值的信息成为了研究的热点。数据挖掘技术作为一种...

    Web数据挖掘研究初探.pdf

    Web数据挖掘是一种现代数据分析技术,随着互联网的普及与大数据的出现,Web数据挖掘的重要性日益增加。Web数据挖掘的目标是从大量的网络资源中提取出有价值的信息。在本文中,我们将探索Web数据挖掘的基础原理、关键...

    基于web 的数据挖掘

    #### 四、XML在基于Web数据挖掘中的应用 随着Web数据的多样化和复杂性增加,XML作为一种标准的数据交换格式,在基于Web的数据挖掘中发挥了重要作用。XML提供了结构化的数据表示方法,使得数据的存储、传输和解析更加...

    web数据挖掘 英文教材 bingliu

    《Web数据挖掘》是一本由Bing Liu编著的英文教材,主要针对研究生及本科高年级学生,旨在深入探讨Web数据的获取、处理和分析。Web数据挖掘是信息技术领域的一个重要分支,它结合了网络技术、数据库技术、机器学习...

    web的数据挖掘应用

    Web数据挖掘结合了互联网的广泛性和数据挖掘的深度分析能力,为商业智能、用户行为分析、搜索引擎优化等多个领域提供了强大的工具。 在web数据挖掘中,我们可以将过程分为三个主要阶段:web内容挖掘、web结构挖掘和...

    Web数据挖掘算法

    ### Web数据挖掘算法详解 #### 引言 随着互联网的快速发展,海量的网络数据成为宝贵的信息资源。**Web数据挖掘**作为一种重要的数据挖掘分支,旨在从与WWW(World Wide Web)相关的资源和行为中提取有价值的信息和...

    web数据挖掘工具和工具设计

    ### Web数据挖掘工具和工具设计 #### 引言 随着互联网技术的快速发展,网络上的数据资源变得异常丰富。然而,这些海量数据背后所蕴含的知识并未得到有效挖掘和利用,“数据丰富而知识贫乏”的现象十分突出。在当前...

    Web数据挖掘的原理与技术.pdf

    Web数据挖掘是针对互联网资源的一种新兴研究领域,它结合了数据挖掘的技术和理论,旨在从海量的Web数据中发现有价值的信息和模式。这一领域的重要性在于,随着电子商务的快速发展,企业和商家需要更深入地了解客户...

    .net_Web数据挖掘.rar0527

    首先,我们要理解什么是Web数据挖掘。它主要分为三个层次:页面级挖掘(Web Content Mining),结构级挖掘(Web Structure Mining)和超链接分析(Web Link Analysis)。页面级挖掘关注网页内容,如文本、图片、视频...

    web信息检索与web数据挖掘.pdf

    ### WEB信息检索与WEB数据挖掘 #### 一、WEB信息检索现状及局限性 随着互联网技术的迅猛发展,WEB已成为全球最大的信息资源库之一。然而,面对如此庞大的数据量,如何高效、精准地获取所需信息成为了亟待解决的...

    Web数据挖掘最新教材

    《Web数据挖掘最新教材》由Bing Liu撰写,是一本深度探讨Web挖掘技术的书籍,对Web挖掘领域的学习者和研究者具有极高的参考价值。本书涵盖了Web挖掘的三大核心领域:Web结构挖掘、Web内容挖掘和Web使用挖掘,通过...

    Web数据挖掘技术在中国电子商务领域的应用研究综述.pdf

    Web数据挖掘技术在中国电子商务领域的应用研究综述,主要探讨了Web数据挖掘技术的定义、分类、在电子商务中的应用现状以及未来的研究方向。 Web数据挖掘是数据挖掘技术在Web环境下的应用,其核心是从大量的Web文档...

    《Web 数据挖掘:将客户数据转化为客户价值》

    在信息化社会中,数据已经成为企业竞争优势的关键资源,而Web数据挖掘正是将这些海量信息转化为洞察力和策略的工具。 Web数据挖掘主要包括三个层次:结构化数据挖掘、半结构化数据挖掘和非结构化数据挖掘。结构化...

    基于python的Web数据挖掘技术研究与实现

    python 作为数据挖掘领域中较为热门的程序语言,其丰富的技术库和强大的科学计算能 力成为数据挖掘过程中不可或缺的工具。本次研究主要是基于python语言对智联 招聘网的数据进行数据挖掘分析和建模,进而得出招聘...

    斯坦福web数据挖掘讲义

    【斯坦福Web数据挖掘讲义】是一份涵盖了Web数据挖掘领域的综合学习资料,它由斯坦福大学提供,包含了PPT和PDF两种格式的教学材料,同时附带了一些实验数据,旨在帮助学习者深入理解和实践Web数据挖掘的技术。...

    电子商务网站的Web数据挖掘方案设计

    ### 电子商务网站的Web数据挖掘方案设计 #### 引言 随着互联网技术的快速发展与普及,电子商务已成为现代商业活动的重要组成部分。为了在激烈的市场竞争中脱颖而出,企业不仅需要具备优秀的商品和服务,还需深入...

Global site tag (gtag.js) - Google Analytics