- 浏览: 402362 次
- 性别:
- 来自: 长春
文章分类
最新评论
-
milkyTea_:
...
学习:二维码、QR码、J4L-QRCode、java -
xunke515:
请问如何更换其他用户,注销了从新登录的时候选择么?
Hadoop启动时出现Unrecognized option: -jvm 和 Could not create the Java virtual machine -
_copythat:
学习:二维码、QR码、J4L-QRCode、java -
小fi(FD):
楼主,你好,关于你发表的《基于动态表单的Java不确定字段数报 ...
基于动态表单的Java不确定字段数报表项目实现 -
rmn190:
受用了。多谢分享!
SD2见闻--参加PPT制作秘笈沙龙
面向Web的数据挖掘 1.异构数据库环境 从数据库研究的角度出发,Web网站上的信息也可以看作一个数据库,一个更大、更复杂的数据库。Web上的每一个站点就是一个数据源,每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘,首先,必须要研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,还要解决Web上的数据查询问题,因为如果所需的数据不能很有效地得到,对这些数据进行分析、集成、处理就无从谈起。 2.半结构化的数据结构 Web上的数据与传统的数据库中的数据不同,传统的数据库都有一定的数据模型,可以根据模型来具体描述特定的数据。而Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而,Web上的数据具有一定的结构性,但因自述层次的存在,从而是一种非完全结构化的数据,这也被称之为半结构化数据。半结构化是Web上数据的最大特点。 3.解决半结构化的数据源问题 Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。解决Web上的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述Web上的数据。针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。面向Web的数据挖掘必须以半结构化模型和半结构化数据模型抽取技术为前提。 XML与Web数据挖掘技术 1.XML的产生与发展 XML(eXtensibleMarkupLanguage)是由万维网协会(W3C)设计,特别为Web应用服务的SGML(StandardGeneralMarkupLanguage)的一个重要分支。总的来说,XML是一种中介标示语言(Meta-markupLanguage),可提供描述结构化资料的格式,详细来说,XML是一种类似于HTML,被设计用来描述数据的语言。XML提供了一种独立的运行程序的方法来共享数据,它是用来自动描述信息的一种新的标准语言,它能使计算机通信把Internet的功能由信息传递扩大到人类其他多种多样的活动中去。XML由若干规则组成,这些规则可用于创建标记语言,并能用一种被称作分析程序的简明程序处理所有新创建的标记语言,正如HTML为第一个计算机用户阅读Internet文档提供一种显示方式一样,XML也创建了一种任何人都能读出和写入的世界语。XML解决了HTML不能解决的两个Web问题,即Internet发展速度快而接入速度慢的问题,以及可利用的信息多,但难以找到自己需要的那部分信息的问题。XML能增加结构和语义信息,可使计算机和服务器即时处理多种形式的信息。因此,运用XML的扩展功能不仅能从Web服务器下载大量的信息,还能大大减少网络业务量。 XML中的标志(TAG)是没有预先定义的,使用者必须要自定义需要的标志,XML是能够进行自解释(SelfDescribing)的语言。XML使用DTD(DocumentTypeDefinition文档类型定义)来显示这些数据,XSL(eXtensibleStyleSheetLanguage)是一种来描述这些文档如何显示的机制,它是XML的样式表描述语言。XSL的历史比HTML用的CSS(层叠式样式表CascadingStyleSheets)还要悠久,XSL包括两部分:一个用来转换XML文档的方法;一个用来格式化XML文档的方法。XLL(eXtensibleLinkLanguage)是XML连接语言,它提供XML中的连接,与HTML中的类似,但功能更强大。使用XLL,可以多方向连接,且连接可以存在于对象层级,而不仅仅是页面层级。由于XML能够标记更多的信息,所以它就能使用户很轻松地找到他们需要的信息。利用XML,Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。
||||||2.XML的主要特点 正是XML的特点决定了其卓越的性能表现。XML作为一种标记语言,有许多特点: (1)简单。XML经过精心设计,整个规范简单明了,它由若干规则组成,这些规则可用于创建标记语言,并能用一种常常称作分析程序的简明程序处理所有新创建的标记语言。XML能创建一种任何人都能读出和写入的世界语,这种创建世界语的功能叫做统一性功能。如XML创建的标记总是成对出现,以及依靠称作统一代码的新的编码标准。 (2)开放。XML是SGML在市场上有许多成熟的软件可用来帮助编写、管理等,开放式标准XML的基础是经过验证的标准技术,并针对网络做最佳化。众多业界顶尖公司,与W3C的工作群组并肩合作,协助确保交互作业性,支持各式系统和浏览器上的开发人员、作者和使用者,以及改进XML标准。XML解释器可以使用编程的方法来载入一个XML的文档,当这个文档被载入以后,用户就可以通过XML文件对象模型来获取和操纵整个文档的信息,加快了网络运行速度。 (3)高效且可扩充。支持复用文档片断,使用者可以发明和使用自己的标签,也可与他人共享,可延伸性大,在XML中,可以定义无限量的一组标注。XML提供了一个标示结构化资料的架构。一个XML组件可以宣告与其相关的资料为零售价、营业税、书名、数量或其它任何数据元素。随着世界范围内的许多机构逐渐采用XML标准,将会有更多的相关功能出现:一旦锁定资料,便可以使用任何方式透过电缆线传递,并在浏览器中呈现,或者转交到其他应用程序做进一步的处理。XML提供了一个独立的运用程序的方法来共享数据,使用DTD,不同的组中的人就能够使用共同的DTD来交换数据。你的应用程序可以使用这个标准的DTD来验证你接受到的数据是否有效,你也可以使用一个DTD来验证你自己的数据。 (4)国际化。标准国际化,且支持世界上大多数文字。这源于依靠它的统一代码的新的编码标准,这种编码标准支持世界上所有以主要语言编写的混合文本。在HTML中,就大多数字处理而言,一个文档一般是用一种特殊语言写成的,不管是英语,还是日语或阿拉伯语,如果用户的软件不能阅读特殊语言的字符,那么他就不能使用该文档。但是能阅读XML语言的软件就能顺利处理这些不同语言字符的任意组合。因此,XML不仅能在不同的计算机系统之间交换信息,而且能跨国界和超越不同文化疆界交换信息。
3.XML在Web数据挖掘中的应用 XML已经成为正式的规范,开发人员能够用XML的格式标记和交换数据。XML在三层架构上为数据处理提供了很好的方法。使用可升级的三层模型,XML可以从存在的数据中产生出来,使用XML结构化的数据可以从商业规范和表现形式中分离出来。数据的集成、发送、处理和显示是下面过程中的每一个步骤: 促进XML应用的是那些用标准的HTML无法完成的Web应用。这些应用从大的方面讲可以被分成以下四类:需要Web客户端在两个或更多异质数据库之间进行通信的应用;试图将大部分处理负载从Web服务器转到Web客户端的应用;需要Web客户端将同样的数据以不同的浏览形式提供给不同的用户的应用;需要智能Web代理根据个人用户的需要裁减信息内容的应用。显而易见,这些应用和Web的数据挖掘技术有着重要的联系,基于Web的数据挖掘必须依靠它们来实现。 XML给基于Web的应用软件赋予了强大的功能和灵活性,因此它给开发者和用户带来了许多好处。比如进行更有意义的搜索,并且Web数据可被XML唯一地标识。没有XML,搜索软件必须了解每个数据库是如何构建的,但这实际上是不可能的,因为每个数据库描述数据的格式几乎都是不同的。由于不同来源数据的集成问题的存在,现在搜索多样的不兼容的数据库实际上是不可能的。XML能够使不同来源的结构化的数据很容易地结合在一起。软件代理商可以在中间层的服务器上对从后端数据库和其它应用处来的数据进行集成。然后,数据就能被发送到客户或其他服务器做进一步的集合、处理和分发。XML的扩展性和灵活性允许它描述不同种类应用软件中的数据,从描述搜集的Web页到数据记录,从而通过多种应用得到数据。同时,由于基于XML的数据是自我描述的,数据不需要有内部描述就能被交换和处理。利用XML,用户可以方便地进行本地计算和处理,XML格式的数据发送给客户后,客户可以用应用软件解析数据并对数据进行编辑和处理。使用者可以用不同的方法处理数据,而不仅仅是显示它。XML文档对象模式(DOM)允许用脚本或其他编程语言处理数据,数据计算不需要回到服务器就能进行。XML可以被利用来分离使用者观看数据的界面,使用简单灵活开放的格式,可以给Web创建功能强大的应用软件,而原来这些软件只能建立在高端数据库上。另外,数据发到桌面后,能够用多种方式显示。 |
发表评论
-
使用 JMeter 完成常用的压力测试
2011-07-14 00:04 1039讲到测试,人们脑海中首先浮现的就是针对软件正确性的测试,即 ... -
解密淘宝网的开源架构
2010-10-22 22:10 955淘宝网,是一个在线商品数量突破一亿,日均成交额超过两亿元人 ... -
Google(谷歌)正在构造可怕的帝国
2010-06-22 21:24 973今天看到新浪转载《中国企业家》的一篇文章“百度VS谷歌:优 ... -
百度VS谷歌:优秀与伟大之别
2010-06-22 21:15 780《中国企业家》杂志 百度与Google之间的 ... -
分析称企业IT部门重要性降低:从业人员应转型
2010-06-22 20:59 790导读:美国IT网站Computerworld今天撰文称,随 ... -
火车站信号自动语音播报系统的设计
2010-06-19 19:33 2075在现代工业控制过程中,广泛应用了工作状态和故障状态报警装置,通 ... -
Ping总是丢包的原因,故障排除思路,解决方法
2010-05-27 21:09 3075ping 丢包现象的发生非 ... -
Google:平台化努力
2010-05-26 20:19 846作为门的 Google 从斯坦福 2 位大学生的宿舍作品 ... -
2010年谷歌创新项目盘点
2010-05-25 12:53 9561、Chrome在线应用商店 Chrome Web Stor ... -
想创业的朋友可以看看这几句话。
2010-05-22 14:52 796一个领导人要: 生命取向要高 生命体 ... -
WebSphere Message Broker RouteToLabel
2010-05-20 13:53 838http://publib.boulder.ibm.com/i ... -
李开复:移动互联网在未来的市场和需求
2010-04-05 01:33 834今天我讲一下移动互联 ... -
分享一个壁纸网站,给我这些程序员哥们的眼睛放松放松。
2010-03-19 07:28 2006http://www.vistaback.com/ -
百度产品经理探秘:需求把握和正确决策
2010-01-13 13:22 792编者按:国内互联网公司里,百度的产品一向为人称道。尤其是其搜索 ... -
性能测试项目总结之内存泄露和内存溢出
2009-12-27 03:16 1384性能测试项目总结之内 ... -
如何搭建完整的网站架构并设计出一个好站
2009-12-25 12:23 847如何搭建完整的网站架构并设计出一个好站 http://www ... -
《怎样成为优秀的软件架构师》解析 (好文转载)
2009-12-24 22:19 846《怎样成为优秀的软件 ... -
IE浏览器下同一网页多图片显示的瓶颈与优化
2009-12-24 21:36 866Internet Explorer 浏览器在同一时刻只能从同一 ... -
一个项目经理眼中的《2012》
2009-12-16 21:46 722《2012》放映有些时间了,它引起了人们对人性本身的思索。作为 ... -
Design IT. (8),一匹“更快的马”
2009-12-05 21:56 863Design IT. (8),一匹“更快的马” 这是《D ...
相关推荐
XML与面向Web的数据挖掘技术.PDF XML与面向Web的数据挖掘技术.PDF XML与面向Web的数据挖掘技术.PDF
该部分首先会对XML在Web数据挖掘中的应用进行探讨,然后将重点放在Web数据挖掘的基本概念、半结构化数据的特性,以及如何解决半结构化数据源问题上。 1. XML在Web数据挖掘中的应用 XML(可扩展标记语言)是用于...
### Web数据挖掘原理及实现...随着XML等技术的发展,Web数据挖掘的能力将得到进一步增强,为用户提供更多有价值的信息和服务。未来的研究将进一步探讨如何更有效地处理Web上的大规模数据集,以应对数据爆炸带来的挑战。
4. 数据的独立性:XML的文档格式使得数据与表示形式相分离,可以独立于平台、语言和设备,便于进行跨平台的Web数据挖掘。 在Web数据挖掘的研究中,XML的应用使得网页数据不再是简单的文档集合,而变成了可以被挖掘...
3. XML与Web数据挖掘: XML(eXtensible Markup Language)是为了解决Web上信息共享和交换而设计的一种语言,它能适应半结构化数据的需求。XML作为SGML的一个分支,是一种元标记语言,用于描述结构化数据。它可以将...
基于XML的WEB数据挖掘技术.kdh 数据挖掘技术在税务系统中的应用.caj 神经网络专家系统及其数据挖掘技术的探讨.caj 区间值属性不完全信息下的数据挖掘.caj 信息系统中一种面向粗糙集的数据挖掘方法.caj 利用决策树...
基于XML的WEB数据挖掘技术.kdh 基于中心流形定理的永磁同步电动机模型的分支分析.pdf 基于云模型的Web日志数据挖掘技术.caj 基于代理的分布式数据挖掘系统设计.caj 基于信息熵的地学空间数据挖掘模型.caj 基于关联...
XML技术在Web数据挖掘中具有明显优势,它不仅能解决数据内容和表现形式的分离问题,而且可以通过互联网将信息传递到人类各种活动中去。这种特性使得XML成为了Web数据挖掘中重要的数据描述和处理工具。 文章中提到的...
Web数据挖掘是一个广泛应用于Web环境中的数据挖掘技术,它试图从海量的Web文档集合和用户浏览Web的数据信息中发现未知的、有潜在应用价值的、非平凡的模式。Web挖掘的方法和技术在不断地发展和完善,其应用范围也...
基于XML的WEB数据挖掘技术.kdh 基于中心流形定理的永磁同步电动机模型的分支分析.pdf 基于云模型的Web日志数据挖掘技术.caj 基于代理的分布式数据挖掘系统设计.caj 基于信息熵的地学空间数据挖掘模型.caj 基于关联...
基于XML的WEB数据挖掘技术.kdh 基于中心流形定理的永磁同步电动机模型的分支分析.pdf 基于云模型的Web日志数据挖掘技术.caj 基于代理的分布式数据挖掘系统设计.caj 基于信息熵的地学空间数据挖掘模型.caj 基于关联...
本文通过对基于XML的电子商务数据挖掘系统的设计与实现进行介绍,深入研究了Web数据挖掘技术,探索了如何通过处理和分析电子商务网站上的Web访问信息来提高网站的用户体验和销售业绩。这不仅展示了数据挖掘的强大...
Web数据挖掘是一种从互联网海量信息中提取有价值数据的过程,它结合了信息检索、数据库技术、机器学习等多种技术,为数据分析和决策支持提供了强大的工具。在.NET平台上,C#语言是进行Web数据挖掘的主要编程语言之一...
总结来说,《.NET版本Web数据挖掘_《0528》》资料涵盖了使用C#进行Web数据挖掘的各个方面,包括网络请求、HTML和JSON解析、数据清洗、数据存储以及并发处理等技术。掌握这些知识,将有助于开发者构建自己的Web抓取和...
- **数据挖掘与分析**:利用统计和机器学习方法从Web数据中提取有价值的信息。 3. **PPT章节内容概览** - **第1章**:可能介绍面向服务计算的基本概念和历史背景。 - **第2章**:可能深入讲解服务的定义、特征和...
例如,面向Web的数据挖掘比挖掘单个数据仓库要复杂得多,因为Web数据挖掘不仅要处理结构化数据,还要处理文本、图形、数学公式等无结构或半结构化的信息资源。XML提供了一种标准方式来表示这些信息,使得数据挖掘...
《.NET经典书籍---Web数据挖掘.rar》是一个包含两部分资源的压缩包,主要围绕.NET技术框架下的Web数据挖掘主题。文件列表中的"C#版本EventBus事件总线实例源码__0525.rar"提供了C#语言实现的EventBus事件总线模式的...
综上所述,面向Web的数据仓库体系设计是一个多技术、多步骤的复杂过程,它整合了XML语言的灵活性、数据挖掘的强大分析能力以及数据仓库的存储与管理能力。通过这一设计,可以有效地解决Web环境下数据管理的需求,...
综上所述,Web服务与数据挖掘引擎的结合,不仅提高了数据挖掘系统的效率,而且使得系统能够更加灵活地适应不同领域和环境的需求。通过采用面向服务的框架和松散耦合的架构,数据挖掘引擎的设计和实现更加高效和先进...