数据挖掘原语、语言和系统结构
希望用户能够通过使用一组数据挖掘原语与数据挖掘系统通讯,以支持有效的和有成果的知识发现。这组原语包括说明数据库的部分或用户感兴趣的数据集(包括感兴趣的数据库属性或数据仓库维),要挖掘的知识类型,用于指导挖掘过程的背景知识,模式评估兴趣度量和如何显示所发现的知识。这些原语允许用户在知识发现时与数据挖掘系统通讯,从不同的角度和深度审查发现结果,并指导挖掘过程。
可以设计数据挖掘查询语言集成这些原语,允许用户自由地与数据挖掘系统交互。数据挖掘查询语言也为建立友好的图形用户界面提供了基础。此外,为了实现数据挖掘系统,一个精心设计的系统结构是非常重要的。这将有助于数据挖掘系统与其它信息系统通讯,有利于它与整个信息处理环境的集成
每个用户脑袋里都有一个数据挖掘任务,即,他想要进行的数据分析形式。一个数据挖掘任务可以用数据挖掘查询的形式说明,它是数据挖掘系统的输入
任务相关的数据:这是要考察的数据库部分。你还可以说明挖掘过程中需要考虑的感兴趣的属性。这些属性称为相关属性
要挖掘什么类型的知识:这是说明要执行的数据挖掘函数,如特征、区别、关联、分类、聚类或演变分析
背景知识:用户可以说明背景知识,或关于挖掘领域的知识。对于指导知识发现过程和评估发现的模式,这些知识是非常有用的。有多种类型的背景知识
兴趣度度量:这些功能用于将不感兴趣的模式从知识中分开。它们可以用于指导挖掘过程,或在挖掘之后,评估发现的模式。不同类型的知识需要不同的兴趣度度量。
发现模式的提供和可视化:这涉及发现模式的显示形式。用户可以选择不同的知识表现形式,如规则、表、图、判定树和数据方。
第一个原语是说明待挖掘的数据。通常,用户感兴趣的只是数据库的一个子集。不加区分地挖掘整个数据库是不现实的,特别是由于所产生的模式可能随数据库的大小指数地增长,使得挖掘过程效率很低。此外,所发现的许多模式与用户的兴趣无关。
在关系数据库中,任务相关的数据集可以通过涉及如选择、投影、连接和聚集等操作的关系查询来收集。这种数据提取可以认为是数据挖掘任务的一个“子任务”。数据收集过程产生一个新的数据关系,称作初始数据关系。初始数据关系可以根据查询中指定的条件排序或分组。在用于数据挖掘分析之前,数据可能被清理或转换(例如,在某些属性上聚集)。初始关系可以对应于,也可以不对应于数据库中的物理关系。由于虚拟关系在数据库领域称为视图,这种用于数据挖掘的任务相关的数据集称作可挖掘的视图。
说明挖掘什么类型的知识是非常重要的,因为这决定使用什么数据挖掘功能。知识类型包括概念描述(特征和区别)、关联、分类、预测、聚类和演变分析。
对于给定的数据挖掘任务,除说明要挖掘的知识类型外,用户可能想进一步说明和提供所有发现模式必须匹配的模式模板。这些模板,或元模式(又称元规则或元查询)可以用于指导发现过程。
尽管任务相关的数据和要挖掘的知识类型(例如,特征、关联等)的说明可以大幅度减少产生规则的数量,数据挖掘过程仍然可能产生大量模式。通常,这些模式中只有一小部分是特定用户感兴趣的。这样,用户需要进一步限制挖掘过程产生的不感兴趣的模式数量。这可以通过设定兴趣度度量来实现。兴趣度度量评估模式的简洁性、确定性、实用性和新颖性。
简洁性:模式兴趣度的一个重要因素是对于人的理解,模式的总体简洁性。模式简洁性的客观度量可以看作模式结构的函数,用模式的二进位位数,或属性数,或模式中出现的操作符数来定义。
关联、区别或分类规则的长度超过用户定义的阈值时,被认为是不感兴趣的。对于以判定树表达的模式,简洁性可以是树叶或树结点的个数的函数。
确定性:每个发现的模式都应当有一个表示其有效性或“值得信赖性”的确定性度量。对于形如“AÞ B”的关联规则,其确定性度量是置信度。给定一个任务相关的数据元组集合(或事务数据库事务的集合),“A Þ B”的置信度定义为:
confidence包含的元组数
置信度为100%或1 意味在数据分析时,该规则总是正确的。这种规则称为准确的。
对于分类规则,置信度称为可靠性或准确性。分类规则提出了一个模型,将目标类(如,bigSpenders)的对象或元组与对比类(如,budgetSpenders)的对象相区别。低可靠性表明不正确的分类,对比类的许多对象也在目标类中。规则的可靠性也称为规则的强度,规则的质量,确定性因子和区分权。
实用性:一个模式的潜在的有用性是定义其兴趣度的一个重要因素。它可以用一个实用性函数(如支持度)来评估。关联模式的支持度是模式为真的任务相关的元组(或事务)所占的百分比
同时满足用户定义的最小置信度阈值和最小支持度阈值的关联规则称为强关联规则,并认为是有趣的。具有较低支持度的规则多半是提供噪音,少见或例外的情况。
支持度定义的分子通常称作规则计数。我们常常显示该值而不是支持度。支持度容易由它导出。
特征和区分描述基本上是泛化元组。其代表的元组数少于整个任务相关元组数的Y%的泛化元组都被视为噪音。因此,这样的元组不向用户提供。Y 值称为噪音阈值。
新颖性:新颖的模式是那些提供信息或提高给定模式集性能的模式。
“如何‘观看’发现的模式?”数据挖掘要成为有效的,数据挖掘系统就应当能够以多种形式显示所发现的模式,如规则、表、交叉表、饼图或条图、判定树、数据方或其它可视化表示。
允许发现的模式以多种形式表示可以帮助不同背景的用户识别有趣的模式,并与系统交互或指导进一步的发现。用户应当能够指定用于显示发现模式的表示形式。
概念分层的使用在帮助用户观察发现的模式中起重要作用。
相关推荐
总结来说,数据挖掘涉及一系列概念和技术,其中数据挖掘原语是实现挖掘任务的基础,数据挖掘语言如PMML提供了标准化的模型描述,而系统结构则整合了整个挖掘过程的各个环节,确保了数据从原始状态到知识发现的顺畅...
总之,数据挖掘原语和语言是数据挖掘系统的核心组成部分,它们为用户提供了控制和指导挖掘过程的手段,确保从海量数据中提取出的模式既具有意义又具备实际应用价值。通过精心设计的数据挖掘任务和有效的背景知识,...
数据挖掘原语语言和系统结构PPT课件.pptx
数据挖掘建模语言主要负责定义和描述数据挖掘模型,它通过标准化的建模语言,使得不同的数据挖掘系统能够遵循相同的模型描述标准,便于不同系统间共享模型,解决系统间封闭性问题,并使数据挖掘模型能够嵌入到应用...
数据挖掘语言主要包括数据挖掘定义语言、数据挖掘操纵语言和数据挖掘查询语言三种,它们共同组成了一个完善的数据挖掘语言系统。 数据挖掘定义语言是构建数据挖掘模型的基石,它通过定义数据挖掘的参数和模型结构,...
数据挖掘考试复习要点涵盖了多个关键领域,包括数据挖掘的概述、数据仓库与OLAP技术、数据预处理、数据挖掘原语、语言和系统结构、概念描述、关联规则挖掘、分类与预测、聚类分析以及复杂类型数据的挖掘及其应用和...
4、数据挖掘原语、语言和系统结构:这部分将介绍数据挖掘的主要操作,如分类、聚类、关联规则挖掘和异常检测等。同时,还会讨论数据挖掘语言,如SQL扩展和专门的挖掘语言,以及数据挖掘系统的架构和设计。 5、概念...
4. **第四章 数据挖掘原语、语言和系统结构**:这里可能涉及数据挖掘算法的基础,如决策树、贝叶斯网络、神经网络、支持向量机等,以及数据挖掘语言如SQL的扩展,和系统架构的设计,包括数据挖掘工具的实现和性能...
### 第四章 数据挖掘原语、语言和系统结构 #### 4.1 数据挖掘原语 数据挖掘原语定义了数据挖掘任务的各个组成部分,包括任务相关数据的描述、要挖掘的知识类型、背景知识的定义、兴趣度度量的选择以及模式的可视化...
### 数据挖掘原语、语言和系统结构 数据挖掘原语定义了数据挖掘任务的具体要求,包括任务相关数据、知识类型、兴趣度度量等。同时,数据挖掘语言和系统结构是实现数据挖掘任务的重要工具,提供了一种标准化的方式来...
(四)数据挖掘原语、语言和系统结构 * 了解数据挖掘查询语言,数据挖掘系统的结构 * 了解数据挖掘原语:定义数据挖掘任务 * 了解一种数据挖掘查询语言 (五)概念描述:特征化与比拟 * 了解概念描述的目的和过程...
4. **数据挖掘原语、语言和系统结构**:介绍数据挖掘任务的定义,数据挖掘查询语言的设计,以及系统结构,帮助学生理解数据挖掘过程。 5. **概念描述与比较**:讲解如何通过数据概括和特征化来描述数据,以及如何...
1、序论 2、数据仓库和数据挖掘的OLAP技术 3、数据预处理 4、数据挖掘原语、语言和系统结构 5、概念描述:特征化与比较 6、大型数据库中的关联规则挖掘 7、分类和预测 8、聚类分析 9、电子商务与数据挖掘
浙江大学数据挖掘王灿讲稿...4、数据挖掘原语、语言和系统结构.ppt 5、概念描述:特征化与比较.ppt 6、大型数据库中的关联规则挖掘.ppt 7、分类和预测.ppt 8、聚类分析.ppt 9、电子商务与数据挖掘.ppt 10、期末复习.ppt
浙江大学数据挖掘王灿讲稿...4、数据挖掘原语、语言和系统结构.ppt 5、概念描述:特征化与比较.ppt 6、大型数据库中的关联规则挖掘.ppt 7、分类和预测.ppt 8、聚类分析.ppt 9、电子商务与数据挖掘.ppt 10、期末复习.ppt
相比之下,半松耦合的数据挖掘系统只针对少数数据挖掘原语提供有效实现,因此在数据挖掘查询执行时相对更有效。 可伸缩性是数据挖掘系统应对大数据挑战的关键。系统必须具备处理大规模数据集的能力,即行可伸缩性,...