- 浏览: 1608663 次
- 性别:
- 来自: 厦门
文章分类
- 全部博客 (603)
- T_java (145)
- T_script&ASP (51)
- T_C/C++ (25)
- T_PowerBuilder (11)
- T_Database (53)
- T_odoo (7)
- T_应用服务器 (50)
- T_专_条形码 (6)
- T_专_负载均衡器 (4)
- T_操作系统 (94)
- T_信息安全 (41)
- T_专_搜索引擎 (14)
- T_L_PHP (58)
- T_L_Delphi (18)
- T_L_.NET、C#、VisualStudio (25)
- T_L_Objective-C (6)
- T_移动开发 (53)
- T_网络 (109)
- T_大数据 (2)
- T_嵌入式 (2)
- T_小众技术 (24)
- T_未分类 (58)
- L_旅游印记 (1)
- L_生活随笔 (48)
- L_中国文化 (18)
- L_户外与生存 (0)
最新评论
-
csbean4004:
不知道哪传来得恶习,发帖子不好好发,故意弄错一些东西,很讨厌
让HTML5支持后置摄像头 -
withthewind:
终于找到一个可以用的了。。。
如何用VBA取得Word文档中的标题前面的序号 -
busbby:
兄弟,无法下载,说文件不完整
一个好用的Outlook ost格式文件转pst文件的工具 -
yijavakevin:
密码啊~解压密码多少?
一个二维条形码组件 -
vipbooks:
你给的那个链接根本无法下载,跳到官网看了下最新版12M,但点下 ...
十步以内完成精细web打印
今天读了一篇长E文Web Content Mining , 从题目看好像没有什么特别,也许是普通的商业软文,但是,看了第一段后发现是关于Dr. Bing Liu of the University of Illinois Chicago的,所以打足精神一句一句把它读完。第一次遇到Bing Liu这个名字是在一年前,华中科技大学一博士朋友推荐给我《Sentiment Analysis and Subjectivity》这篇综述,就是Bing Liu写的,然后又阅读了《Opinion Spam and Analysis》。都是翻来覆去精读,因为几年前就想着手开发一个web数据挖掘软件,主要用于企业竞争情报分析,酝酿了很多年都不敢下手,理论性太 强,担心吃不透或吃不准。直到2009年底开始陆续接触了几个网络舆情监测项目,也承接了好几个行业的类似项目,才下定决心投入SliceProfile 的 开发,这个项目投入巨大,资源投入十分集中,但开发周期很短(5个月),因为整个框架早就在头脑中酝酿成型了,尤其阅读《Sentiment Analysis and Subjectivity》获得的灵感更多,还阅读了大量引文,再三权衡学术和商业的分界线的位置。所以今天看这篇文章的动力决不是因为有中国名字的人写 了一篇E文而已。 这篇文章好像是对刘博士新书《Web Data Mining》的介绍和读后感,没有读过这本书,所以这篇文章的部分内容没有理解,而且有些观点不知道是刘博士的还是文章作者的。一些重要结论和一些本人的疑惑一并记录下来,作成一篇读书笔记。 刘博士将Web Data Mining分成三类: 根据这篇文章,要达到Web内容挖掘的目的,需要做: 读到这一段,首先感慨刘博士写书不是凑的,还真有些实践体验,例如,关于从亚马逊(amazon.com)上提取商品列表和商品详细信息这类活动,应该是我们这些信息劳工常做的事 。引出了一个概念:entity,但是没有搞懂对实体(entity)的界定与数据挖掘是什么关系,为什么要讲这个概念。 然后讲到结构化数据挖掘和非结构化数据挖掘,更是一头雾水。 wrapper induction这个词感觉是给MetaSeeker 的协同式网页信息提取提供了理论支持,因为在信息提取领域HTML Wrapper一般是指将网页内容进行结构化提取的软件。但是,文章的解释: 确实没有领会guess是指什么。根据刘博士的胶片(slides) ,wrapper induction采用监督学习方法(supervised),看来真的是“guess”,需要读一下他的书去仔细领会下。 关于非结构化数据挖掘比较容易理解,automatic extraction正是GooSeeker现在的研发方向,我认为很有价值且能指导我们研发规划的一句话: 文章用机票搜索服务为例说明信息集成需要解决的问题,GooSeeker网站上的比价系统案例 也需要解决信息集成问题。从不同网站上提取到的信息进行比对,识别出同义内容,例如,京东 和卓越 上的同一个商品用不同标题和不同的产品描述,需要识别出来。文章提到了多种方法: 根据刘博士的slides,信息集成被清晰地分成两类: 本文开篇提到的刘博士的那两篇文章都是有关观点挖掘的,根据我使用SliceProfile部署奇瑞汽车和中信信用卡危机监测和舆情分析系统的感 受,主观倾向性分析的准确度很难提高,而且客户的理解和要求也各不相同。普通的文本分类算法效果比较差,不得不增加大量的规则进行修正。 也许Web Content Mining 的作者有其独特的经历和视角,所以文中有些观点一时难以理解,看来还是有必要直接阅读刘博士的新书《Web Data Mining》。
Web数据挖掘的种类
Web内容挖掘要做哪些工作
什么是结构化数据提取
The word inductive means guessed
, and therefore wrapper induction implies
guessing the text
which frames a structured data object.
Algorithms exist for this purpose, but I believe this area could be more customized
when someone has a specific scientific goal in mind.
什么是信息集成
什么是观点挖掘
结论
发表评论
-
SpringBoot Fat Jar解压运行
2018-06-28 21:40 2258SpringBoot已经成为当前最流行的微服务 ... -
TeamViewer13+Patch
2018-05-13 22:19 3180下载地址: https://www.datafilehos ... -
Linux挂载阿里云对象存储OSS作为本地磁盘扩充空间备份网站
2017-09-25 08:54 1932p.s.挂载oss之后,使用rsync可以同步图片数据,非 ... -
Chrome核心的自定义浏览器
2017-07-04 17:19 826以Chrome为核心的自定义浏览器源代码,有时候可能用得到,保 ... -
让ie6 7 8 9支持html5 websocket
2016-12-23 20:52 2315结果: 从github上的 web ... -
网站获取用户手机号码的方法、系统、客户端及服务器(坑爹的玩意儿)
2016-11-22 14:22 2277网站获取用户 ... -
Ubuntu16.04上安装MT7601网卡驱动(TL-W725N/W725N)
2016-09-15 23:01 0I suggest you get a temporary ... -
如何在palcedoler中放置图标
2016-09-10 09:52 640如何在H5的palceholder中设置一个图标? ... -
一个下载youtube视频的Linux工具
2016-07-01 08:50 934我们要介绍工具是youtube-dl。这是一个跨平台的工具, ... -
另一个穿透内网的工具(类似ngrok)
2016-06-20 20:26 4830前段时间介绍过两种把内网端口映射到公网的工具:ngrok ... -
Docker无法拉取镜像的一个解决办法
2016-06-16 12:47 14126在阿里云ECS上安装了docker,安装完成后,运行hell ... -
基于 HTTP/2 的 WEB 内网穿透实现(转)
2016-04-22 15:50 1495基于 HTTP/2 的 WEB 内网穿透实现 HTTP ... -
搭建自己的ngrok服务(转)
2016-04-22 15:42 893搭建自己的ngrok服务 在国内开发、企业号 ... -
一个把内网端口映射到外网的工具ngrok(类似与花生壳)
2016-04-22 14:35 1407Secure tunnels to localhost ... -
通过 HTTP 头进行 SQL 注入(转)
2015-12-11 10:10 3255在漏洞评估和渗透测试中,确定目标应用程序的输入向量是 ... -
Node.js下载地址
2015-11-19 14:16 733http://nodejs.org/dist/ -
采用ajp代理模式配置Apache+tomcat实现负载均衡(转)
2015-11-13 10:22 869这一种方法,配置简单,性能也高。附AJP介绍: AJP ... -
apache对于某个子目录不使用反向代理设置
2015-09-06 14:19 930当使用了apache的反向代理后,如果其中部分目录不想使用反 ... -
如何给你的Android 安装文件(APK)瘦身
2015-08-18 13:18 972文章目录 APK 文件 ... -
移动前端头部标签(HTML5 head meta)
2015-08-18 13:07 856移动前端开发中添加一些webkit专属的HTML5头部标签 ...
相关推荐
Web数据挖掘是信息技术领域的一个重要分支,它结合了网络技术、数据库技术和数据分析,旨在从海量的Web信息中提取有价值的知识和信息。Web数据挖掘通常分为三个主要阶段:预处理、提取和后处理。 预处理阶段是数据...
《Web数据挖掘》旨在讲述这些任务以及它们的核心挖掘算法;尽可能涵盖每个话题的广泛内容,给出足够多的细节,以便读者无须借助额外的阅读,即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息...
### Web数据挖掘原理及实现 #### 一、引言 随着信息技术的发展,特别是数据库管理和互联网技术的广泛应用,人们积累了大量的数据。如何从这些海量数据中提取有价值的信息成为了研究的热点。数据挖掘技术作为一种...
Web数据挖掘是一种现代数据分析技术,随着互联网的普及与大数据的出现,Web数据挖掘的重要性日益增加。Web数据挖掘的目标是从大量的网络资源中提取出有价值的信息。在本文中,我们将探索Web数据挖掘的基础原理、关键...
#### 四、XML在基于Web数据挖掘中的应用 随着Web数据的多样化和复杂性增加,XML作为一种标准的数据交换格式,在基于Web的数据挖掘中发挥了重要作用。XML提供了结构化的数据表示方法,使得数据的存储、传输和解析更加...
《Web数据挖掘》是一本由Bing Liu编著的英文教材,主要针对研究生及本科高年级学生,旨在深入探讨Web数据的获取、处理和分析。Web数据挖掘是信息技术领域的一个重要分支,它结合了网络技术、数据库技术、机器学习...
Web数据挖掘结合了互联网的广泛性和数据挖掘的深度分析能力,为商业智能、用户行为分析、搜索引擎优化等多个领域提供了强大的工具。 在web数据挖掘中,我们可以将过程分为三个主要阶段:web内容挖掘、web结构挖掘和...
### Web数据挖掘算法详解 #### 引言 随着互联网的快速发展,海量的网络数据成为宝贵的信息资源。**Web数据挖掘**作为一种重要的数据挖掘分支,旨在从与WWW(World Wide Web)相关的资源和行为中提取有价值的信息和...
### Web数据挖掘工具和工具设计 #### 引言 随着互联网技术的快速发展,网络上的数据资源变得异常丰富。然而,这些海量数据背后所蕴含的知识并未得到有效挖掘和利用,“数据丰富而知识贫乏”的现象十分突出。在当前...
Web数据挖掘是针对互联网资源的一种新兴研究领域,它结合了数据挖掘的技术和理论,旨在从海量的Web数据中发现有价值的信息和模式。这一领域的重要性在于,随着电子商务的快速发展,企业和商家需要更深入地了解客户...
首先,我们要理解什么是Web数据挖掘。它主要分为三个层次:页面级挖掘(Web Content Mining),结构级挖掘(Web Structure Mining)和超链接分析(Web Link Analysis)。页面级挖掘关注网页内容,如文本、图片、视频...
### WEB信息检索与WEB数据挖掘 #### 一、WEB信息检索现状及局限性 随着互联网技术的迅猛发展,WEB已成为全球最大的信息资源库之一。然而,面对如此庞大的数据量,如何高效、精准地获取所需信息成为了亟待解决的...
《Web数据挖掘最新教材》由Bing Liu撰写,是一本深度探讨Web挖掘技术的书籍,对Web挖掘领域的学习者和研究者具有极高的参考价值。本书涵盖了Web挖掘的三大核心领域:Web结构挖掘、Web内容挖掘和Web使用挖掘,通过...
Web数据挖掘技术在中国电子商务领域的应用研究综述,主要探讨了Web数据挖掘技术的定义、分类、在电子商务中的应用现状以及未来的研究方向。 Web数据挖掘是数据挖掘技术在Web环境下的应用,其核心是从大量的Web文档...
在信息化社会中,数据已经成为企业竞争优势的关键资源,而Web数据挖掘正是将这些海量信息转化为洞察力和策略的工具。 Web数据挖掘主要包括三个层次:结构化数据挖掘、半结构化数据挖掘和非结构化数据挖掘。结构化...
python 作为数据挖掘领域中较为热门的程序语言,其丰富的技术库和强大的科学计算能 力成为数据挖掘过程中不可或缺的工具。本次研究主要是基于python语言对智联 招聘网的数据进行数据挖掘分析和建模,进而得出招聘...
【斯坦福Web数据挖掘讲义】是一份涵盖了Web数据挖掘领域的综合学习资料,它由斯坦福大学提供,包含了PPT和PDF两种格式的教学材料,同时附带了一些实验数据,旨在帮助学习者深入理解和实践Web数据挖掘的技术。...
### 电子商务网站的Web数据挖掘方案设计 #### 引言 随着互联网技术的快速发展与普及,电子商务已成为现代商业活动的重要组成部分。为了在激烈的市场竞争中脱颖而出,企业不仅需要具备优秀的商品和服务,还需深入...