`

数据挖掘之数据预处理

阅读更多

数据预处理

 

目的:预处理数据,提高数据质量,从而提高挖掘结果的质量

 

数据预处理的方法包括:数据清理、数据集成和转换、数据归约。

数据清理可以去掉数据中的噪音,纠正不一致。数据集成将数据由多

个源合并成一致的数据存储,如数据仓库或数据方。数据变换(如规范化)也可以使用。例如,规范化可以改进涉及距离度量的挖掘算法的精度和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。这些数据处理技术在数据挖掘之前使用,可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。

 

数据清理例程通过填写遗漏的值,平滑噪音数据,识别、删除局外者,并解决不一致来“清理”数据。脏数据造成挖掘过程陷入困惑,导致不可靠的输出

 

怎样才能为该属性填上遗漏的值?

1.  忽略元组、除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比很高时,它的性能非常差。

2.  人工填写遗漏值

3.  使用一个全局常量填充遗漏值

4.  使用属性的平均值填充遗漏值

5.  使用与给定元组属同一类的所有样本的平均值

6.  使用最可能的值填充遗漏值

 

噪音是测量变量的随机错误或偏差。去掉噪音:

1.  分箱:分箱方法通过考察“邻居”(即,周围的值)来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。由于分箱方法导致值相邻,因此它进行局部平滑(按平均值平滑、按中值平滑、按边界平滑)

2.  聚类:局外者可以被聚类检测。聚类将类似的值组织成群或“聚类”。直观地,落在聚类集合之外的值被视为局外者。计算机和人工检查结合:可以通过计算机和人工检查结合的办法来识别局外者。回归:可以通过让数据适合一个函数(如回归函数)来平滑数据。线性回归涉及找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。

 

 

数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储

实体识别、冗余问题、数据值冲突的检测与处理需要考虑。

 

数据变换将数据转换成适合于挖掘的形式。数据变换可能涉及如下内容:

n 平滑:去掉数据中的噪音。这种技术包括分箱、聚类和回归。

n 聚集:对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。通常,这一步用来为多粒度数据分析构造数据方。

n 数据泛化:使用概念分层,用高层次概念替换低层次“原始”数据。例如,分类的属性,如street,可以泛化为较高层的概念,如city country。类似地,数值属性,如age,可以映射到较高层概念,如young, middle-age senior

n 规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 1.0 0.0 1.0

n 属性构造(或特征构造):可以构造新的属性并添加到属性集中,以帮助挖掘过程。

 

最小-最大规范化对原始数据进行线性变换

 

数据集将非常大!在海量数据上进行

复杂的数据分析和挖掘将需要很长时间,使得这种分析不现实或不可行。

数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近地保持原数据的完整性。

这样,在归约后的数据集上挖掘将更有效,并产生相同(或几乎相同)的分析结果。

数据归约的策略如下:

1. 数据方聚集:聚集操作用于数据方中的数据。

2. 维归约:可以检测并删除不相关、弱相关或冗余的属性或维。

3. 数据压缩:使用编码机制压缩数据集。

4. 数值压缩:用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图。

5离散化和概念分层产生:属性的原始值用区间值或较高层的概念替换。概念分层允许挖掘多个抽象层上的数据,是数据挖掘的一种强有力的工具

 

维归约通过删除不相关的属性(或维)减少数据量。通常使用属性子集选择方法。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。在压缩的属性集上挖掘还有其它的优点。它减少了出现在发现模式上的属性的数目,使得模式更易于理解。

 

 

属性子集选择的基本启发式方法包括以下技术:

1. 逐步向前选择:该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合

中。在其后的每一次迭代,将原属性集剩下的属性中的最好的属性添加到该集合中。

2. 逐步向后删除:该过程由整个属性集开始。在每一步,删除掉尚在属性集中的最坏属性。

3. 向前选择和向后删除的结合:向前选择和向后删除方法可以结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。

 

如果原数据可以由压缩数据重新构造而不丢失任何信息,则所使用的数据压缩技术是无损的。如果我们只能重新构造原数据的近似表示,则该数据压缩技术是有损的。

 

两种流行、有效的有损数据压缩方法:小波变换和主要成分分析。

小波变换

离散小波变换(DWT)是一种线性信号处理技术,当用于数据向量D 时,将它转换成不同的数值向量小波系数D’。两个向量具有相同的长度。

 

关键在于小波变换后的数据可以裁减。仅存放一小部分最强的小波系数,就能保留近似的压

缩数据。

 

主要成分分析

假定待压缩的数据由N个元组或数据向量组成,取自k-维。主要成分分析(PCA,又称Karhunen-LoeveK-L 方法)搜索c 个最能代表数据的k-维正交向量;这里c £ k。这样,原来的数据投影到一个较小的空间,导致数据压缩。PCA 可以作为一种维归约形式使用。

分享到:
评论

相关推荐

    Python数据挖掘之数据预处理

    目录Python主要数据预处理函数1、interpolate2、unique3、isnull / notnull4、andom5、PCA Python主要数据预处理函数 ...统计发现,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%。 ​

    数据挖掘实验报告-数据预处理.pdf

    在数据挖掘过程中,数据预处理是至关重要的一步,因为它直接影响到后续分析和挖掘结果的准确性和可靠性。本实验报告主要关注数据预处理中的数据平滑技术,包括均值平滑、中值平滑和边界值平滑,这些都是降低噪声、...

    《Python 数据挖掘实践》教学课件—第4章 数据探索与数据预处理.pdf

    《Python 数据挖掘实践》教学课件—第4章 数据探索与数据预处理.pdf《Python 数据挖掘实践》教学课件—第4章 数据探索与数据预处理.pdf《Python 数据挖掘实践》教学课件—第4章 数据探索与数据预处理.pdf《Python ...

    数据挖掘中的数据预处理技术.pdf

    数据预处理技术是数据挖掘领域中至关重要的一个步骤,它指的是在进行数据分析或挖掘之前,对原始数据进行的一系列处理工作。数据预处理的目的在于提高数据的质量和准确性,确保数据挖掘过程能够顺利进行,并最终获得...

    论数据挖掘中的数据预处理技术

    数据预处理技术是数据挖掘中的一个关键步骤,它对于提高数据挖掘的有效性和准确度起着至关重要的作用。在数据挖掘过程中,原始数据通常包含噪声、缺失值以及不一致性等问题,这些问题如果不加以处理,将直接影响到...

    《数据挖掘与大数据分析》实验报告-数据预处理

    数据挖掘和大数据分析的核心环节之一是数据预处理,这一过程对于获取有效且可靠的洞察至关重要。在《数据挖掘与大数据分析》的实验报告中,我们关注的是心脏病数据库,它源自多个医疗机构,包括UCI机器学习存储库...

    3 数据挖掘_数据预处理_2021.pdf

    3 数据挖掘_数据预处理_2021.pdf

    数据挖掘中的数据预处理方法研究(建模培训稿).pdf

    文献中提到,数据预处理在数据挖掘过程中占据了大约60%的时间,而后续的挖掘工作仅占10%,这突显了预处理的重要性和复杂性。Weka系统在ACM SIGKDD会议上的获奖,也证明了高质量的预处理工具对数据挖掘领域的重要性。...

    数据挖掘中数据预处理关键技术研究.pdf

    在数据挖掘领域中,数据预处理是极为关键的环节,其目的在于提高后续数据分析与挖掘任务的效率和准确性。本篇研究论文《数据挖掘中数据预处理关键技术研究》主要探讨了数据预处理阶段中训练集和测试集划分的方法,...

    python数据挖掘实验-数据的预处理和探索.docx

    总之,Python数据挖掘实验旨在通过数据预处理和探索,提升我们对数据的理解,为后续的建模和分析打下坚实基础。在这个过程中,掌握数据处理的技巧,如缺失值处理、异常值检测、数据规范化和可视化,将对我们的数据...

    数据挖掘,数据预处理,数据仓库,

    首先,数据预处理是数据挖掘流程中的关键步骤,它涉及数据清洗、数据集成、数据转换和数据规约。数据清洗主要是去除数据集中的噪声、不一致性,如缺失值、异常值和重复值。数据集成是将来自不同来源的数据合并到一起...

    数据挖掘论文合集之数据预处理篇

    在数据挖掘过程中,数据预处理是至关重要的第一步,因为原始数据往往存在诸多问题,如缺失值、异常值、噪声、不一致性等,这些问题会影响后续分析的准确性和有效性。本论文合集专注于数据预处理阶段,旨在探讨如何...

    【数据挖掘】数据预处理 思维导图

    数据预处理 思维导图

    水闸安全监测数据挖掘中的数据预处理方法.pdf

    数据预处理是数据挖掘过程中一个极其重要的环节,它涉及到数据清洗、转换、规约等一系列操作,目的是为了消除数据集中的冗余、噪声、不完整性和不一致性。一个好的数据预处理方法能够有效提高数据挖掘的效率和数据...

    数据挖掘原理与SPSS Clementine应用-数据预处理教程

    数据预处理基本功能 数据预处理的方法 基本粗集理论的简约方法; 复共线性数据预处理方法; 基于Hash函数取样的数据预处理方法; 基于遗传算法数据预处理方法; 基于神经网络的数据...Web挖掘的数据预处理方法等等。

    图像数据挖掘的预处理技术.pdf

    然而,为了确保图像数据挖掘结果的准确性,图像预处理技术显得尤为重要。图像预处理包括多个步骤,其主要目的就是要提高数据的质量,消除噪音干扰,突出关键特征,以便于后续的特征提取和数据挖掘工作。 在图像...

    Web挖掘中的数据预处理算法研究

    在Web挖掘过程中,数据预处理是确保后续数据分析准确性与有效性的重要步骤之一。本文将重点探讨Web挖掘预处理中的三个关键环节:数据清洗、用户识别和会话识别,并提出了一种改进的用户识别算法。 ##### 1. 数据...

    Web日志挖掘数据预处理技术的研究与实现

    ### Web日志挖掘数据预处理技术的研究与实现 #### 摘要 本文旨在探讨Web日志挖掘数据预处理技术的重要性和其实现方法。Web日志挖掘是指通过对Web服务器日志进行数据分析,揭示用户访问模式及其行为特征的一种数据...

    基于全球典型油气田数据库的数据挖掘预处理.pdf

    油气田数据通常来源于生产数据、测井数据、地震数据、油藏模拟数据等,数据类型多样,数据量庞大,如何快速高效地获取所需数据是数据预处理的挑战之一。 属性选择是数据预处理的第二步,指的是从大量的属性中挑选出...

Global site tag (gtag.js) - Google Analytics