`

数据挖掘之离散化和概念分层学习笔记

阅读更多

离散化和概念分层产生

通过将属性域划分为区间,离散化技术可以用来减少给定连续属性值的个数。区间的标号可以替代实际的数据值。如果使用基于判定树的分类挖掘方法,减少属性值的数量特别有好处。通常,这种方法是递归的,大量的时间花在每一步的数据排序上。因此,待排序的不同值越少,这种方法就应当越快。许多离散化技术都可以使用,以便提供属性值的分层或多维划分——概念分层

 

对于给定的数值属性,概念分层定义了该属性的一个离散化。通过收集并用较高层的概念(对

于年龄属性,如young, middle-age senior)替换较低层的概念(如,年龄的数值值),概念分层可以用来归约数据。通过这种泛化,尽管细节丢失了,但泛化后的数据更有意义、更容易解释,并且所需的空间比原数据少。在归约的数据上进行挖掘,与在大的、未泛化的数据上挖掘相比,所需的I/O 操作更少,并且更有效

 

对于用户或领域专家,人工地定义概念分层可能是一项令人乏味、耗时的任务。幸而,许多分层蕴涵在数据库模式中,并且可以在模式定义级定义。概念分层常常自动地产生,或根据数据分布的统计分析动态地加以提炼。

 

数值属性的概念分层可以根据数据分布分析自动地构造。五种数值概念分层产生方法:分

箱、直方图分析、聚类分析、基于熵的离散化和通过“自然划分”的数据分段。

 

分箱

分箱方法。这些方法也是离散化形式。例如,通过将数据分布到箱中,并用箱中的平均值或中值替换箱中的每个值,可以将属性值离散化。就象用箱的平均值或箱的中值平滑一样。这些技术可以递归地作用于结果划分,产生概念分层。

 

 

直方图分析

直方图分析算法递归地用于每一部分,自动地产生多级概念分层,直到到达一个预先设定的概念层数,过程终止。也可以对每一层使用最小区间长度来控制递归过程。最小区间长度设定每层每部分的最小宽度,或每层每部分中值的最少数目。

 

聚类分析

聚类算法可以用来将数据划分成聚类或群。每一个聚类形成概念分层的一个结点,而所有的结点在同一概念层。每一个聚类可以进一步分成若干子聚类,形成较低的概念层。聚类也可以聚集在一起,以形成分层结构中较高的概念层

 

基于熵的离散化

一种基于信息的度量称作熵,可以用来递归地划分数值属性A 的值,产生分层的离散化。这种离散化形成属性的数值概念分层。给定一个数据元组的集合S,基于熵对A 离散化的方法如下:

A 的每个值可以认为是一个潜在的区间边界或阈值T。例如,A 的值v 可以将样本S 划分成分别满足条件A < v A ³v 的两个子集,这样就创建了一个二元离散化。

给定S,所选择的阈值是这样的值,它使其后划分得到的信息增益最大。

其中,S1 S2 分别对应于S 中满足条件A < T A ³T 的样本。对于给定的集合,它的熵函数根据集合中样本的类分布来计算

 

通过自然划分分段

3-4-5 规则可以用于将数值数据划分成相对一致、“自然的”区间。一般地,该规则根据最重要的数字上的值区域,递归地、逐层地将给定的数据区域划分为34 5 个等长的区间。该规则如下:

如果一个区间在最重要的数字上包含367 9 个不同的值,则将该区间划分成3 个区间(对于36 9,划分成3 个等宽的区间;而对于7,按2-3-2 分组,划分成3 个区间);

如果它在最重要的数字上包含24 8 个不同的值,则将区间划分成4 个等宽的区间;

如果它在最重要的数字上包含15 10 个不同的值,则将区间划分成5 个等宽的区间。

该规则可以递归地用于每个区间,为给定的数值属性创建概念分层。由于在数据集中可能有特别大的正值和负值,最高层分段简单地按最小和最大值可能导致扭曲的结果。例如,在资产数据集中,少数人的资产可能比其他人高几个数量级。按照最高资产值分段可能导致高度倾斜的分层。这样,顶层分段可以根据代表给定数据大多数的数据区间(例如,第5 个百分位数到第95 个百分位数)进行。越出顶层分段的特别高和特别低的值将用类似的方法形成单独的区间。

 

分享到:
评论

相关推荐

    数据离散化和概念分层产生

    对于给定的数值属性,概念分层定义了该属性的一个离散化。通过收集较高层的概念并用它们替换较低层的概念,概念分层可以用来归约数据。通过这种数据泛化,尽管细节丢失了,但是泛化后的数据更有意义、更容易解释。

    数据挖掘中并行离散化数据准备优化.pdf

    从关键词来看,本文紧密围绕数据挖掘中的关键概念展开,如数据准备、并行调用、分布检测以及数据离散化,体现了数据挖掘领域的热点研究方向和方法论。在实际应用中,该研究有助于提升数据预处理的自动化水平,增强...

    连续数值的离散化方法

    ### 连续数值的离散化方法:深度解析与应用 #### 引言:连续与离散特征的差异 ...此外,探索在特定领域,如关联分析中,连续特征离散化的最佳实践,将为提升数据挖掘和机器学习模型的性能开辟新的路径。

    数据挖掘:概念与技术(韩家炜等)中文版

    它允许用户指定挖掘任务的各个方面,包括数据选择、挖掘类型、概念分层、兴趣度度量等,从而实现数据挖掘过程的自动化和标准化。 #### 4.3 基于数据挖掘查询语言设计图形用户界面 图形用户界面(GUI)是数据挖掘...

    数据挖掘教学大纲.docx

    + 教学目标:掌握为什么要进行数据预处理,了解数据清理的作用、数据集成和转换、数据归约、离散化和概念分层 + 教学重点:为什么要进行数据预处理 + 教学难点:数据归约、离散化和概念分层 * 第三章:数据仓库和...

    数据挖掘原理与算法

    在数据挖掘过程中,概念分层可以动态地提炼出更抽象或更具体的层次,从而使得挖掘出的模式更加易于理解和使用。 关联规则挖掘是数据挖掘中一种重要的模式发现技术,它主要用来发现交易数据库中不同项之间的有趣关系...

    数据挖掘概念与技术 课件

    "数据挖掘概念与技术"这门课程的核心目标是帮助学习者理解数据挖掘的基本原理、方法和技术,并将其应用于实际问题解决。 1. 数据挖掘定义:数据挖掘是一种信息提取过程,通过应用复杂算法对大数据集进行分析,以找...

    数据挖掘:概念与技术-韩家炜

    10. **未来趋势**:随着大数据时代的到来,数据挖掘技术不断演进,如深度学习、流数据挖掘、半结构化和非结构化数据处理等,这些都在扩展数据挖掘的应用边界。 以上是《数据挖掘:概念与技术》一书中的核心知识点,...

    数据挖掘:概念与技术(原书第3版)

    数据转换通常包括规范化和离散化,以适应不同的挖掘算法;而数据规约则是为了降低数据复杂性,提高挖掘效率。 接着,书中详细阐述了各种数据挖掘技术。分类算法如决策树、贝叶斯网络和神经网络,通过学习数据集中的...

    数据挖掘试题(150道)

    这些问题涉及到数据挖掘的基本概念、方法和技术,以及在实际应用中的问题解决。 知识点1:关联规则发现 关联规则发现是一种常见的数据挖掘技术,它可以挖掘出数据中的关联关系。例如,在某超市的销售记录数据中,...

    数据挖掘期末考试复习.doc

    15. 数据规约的策略:包括维规约、数量规约、数据压缩、数据立方体聚集、离散化和概念分层等。 16. 数据光滑的分箱方法:包括用箱均值光滑、用箱中位数光滑、用箱边界光滑等。 17. 数据挖掘的主要功能:包括概念...

    数据挖掘概念与技术pdf.rar

    数据挖掘是一种从海量数据中提取有价值知识的过程,它结合了计算机科学、统计学和机器学习等领域的理论与方法。在21世纪的信息时代,数据挖掘的重要性日益凸显,因为随着大数据的爆炸式增长,如何有效利用这些数据...

    ff.rar_Discretization_data discretization_对数据离散化_离散化

    数据离散化是数据分析领域中的一个关键步骤,尤其在处理连续型数据时,它能够将数值数据转换为离散的类别或区间,从而简化数据、减少数据的复杂性,并为后续的数据挖掘、机器学习任务提供便利。标题"ff.rar_...

    数据挖掘基本概念

    数据挖掘是一种从海量数据中提取有价值知识的过程,它结合了计算机科学、统计学和机器学习等领域的理论与方法。在当今大数据时代,数据挖掘成为了一种至关重要的技能,帮助企业、研究机构和个人从复杂的数据中发现...

    数据清洗之 数据离散化

    数据离散化 数据离散化就是分箱 一把你常用分箱方法是等频分箱或者等宽分箱 一般使用pd.cut或者pd.qcut函数 pandas.cut(x, bins, right=True, labels) x: 数据 bins: 离散化的数目,或者切分的区间 labels: 离散化后...

    离散数学学习笔记.zip

    这份“离散数学学习笔记.zip”文件显然包含了作者对离散数学核心概念的深入理解和总结,非常适合那些准备期末复习的学生使用。以下是根据描述和标签提炼出的一些关键知识点: 1. **集合论**:离散数学的基础,包括...

    山东大学数据仓库数据挖掘2021期末考试复习题(含答案)

    13. 数据离散化和概念分层: 数据离散化是将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续(取值)属性的取值个数。概念分层是一种技术,将低层概念集映射到高层概念集,允许在各种抽象级别上处理数据...

    数据挖掘概念与技术原书数据预处理PPT学习教案.pptx

    数据预处理的主要任务包括数据清理、数据集成、数据变换、数据归约、离散化和概念分层生成。数据清理旨在填充缺失值,平滑噪声,识别并处理异常值,以及解决数据不一致性。数据集成涉及将多个数据源合并为一个统一的...

Global site tag (gtag.js) - Google Analytics