`

数据挖掘 学习笔记 概述篇

阅读更多

数据挖掘学习笔记

1.概述

数据挖掘火热的主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。

数据挖掘是信息技术自然进化的结果。进化过程的见证是数据库工业界开发以下功能:数据收集和数据库创建,数据管理(包括数据存储和提取,数据库事务处理),以及数据分析与理解(涉及数据仓库和数据挖掘)

 

现在,数据可以存放在不同类型的数据库中。

数据仓库是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP 是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力

 

数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医

学研究作出了巨大贡献。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。

 

 

数据挖掘是从大量数据中提取或“挖掘”知识。如数据库中知识挖掘、知识提取、数据/模式分析、数据考古和数据捕捞。有和数据挖掘类似

 

知识发现过程:

数据清理(消除噪音或不一致数据)

数据集成(多种数据源可以组合在一起)

数据选择(从数据库中提取与分析任务相关的数据)

数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)

数据挖掘(基本步骤,使用智能方法提取数据模式)

模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)

知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。

 

数据挖掘步骤可以与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放在知识库中。

 

数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据挖掘有趣知识的过程。

 

典型的数据挖掘系统具有以下主要成分:

数据库、数据仓库、或其它信息库:这是一个或一组数据库、数据仓库、展开的表、或其它类型的信息库。可以在数据上进行数据清理和集成。

数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其它例子有兴趣度限制或阈值和元数据(例如,描述来自多个异种数据源的数据)。

数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析。

模式评估模块:通常,该部分使用兴趣度度量,并与挖掘模块交互,以便将搜索聚焦在有

趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上。

图形用户界面:该模块在用户和挖掘系统之间通讯,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,该成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。

 

 

数据挖掘涉及多学科技术的集成,包括数据库技术、统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息提取、图象与信号处理和空间数据分析。

 

一个算法是可规模化的,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据库大小线性增加。通过数据挖掘,可以从数据库提取有趣的知识、规律、或高层信息,并可以从不同角度观察或浏览。发现的知识可以用于决策、过程控制、信息管理、查询处理、等等

 

 

原则上讲,数据挖掘可以在任何类型的信息存储上进行。这包括关系数据库、数据仓库、事务数据库、先进的数据库系统、展平的文件和WWW。先进的数据库系统包括面向对象和对象-关系数据库;面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库。挖掘的挑战和技术可能因存储系统而异。

 

数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造

 

通常,数据仓库用多维数据库结构建模。其中,每个维对应于模式中一个或一组属性,每个单元存放聚集度量。数据仓库的实际物理结构可以是关系数据存储或多维数据方。

它提供数据的多维视图,并允许快速访问预计算的和汇总的数据。

 

数据仓库收集了整个组织的主题信息,因此,它是企业范围的。另一方面,数据集市是数据仓库的一个部门子集。它聚焦在选定的主题上,是部门范围的。

 

一般地,事务数据库由一个文件组成,其中每个记录代表一个事务。通常,一个事务包含一个唯一的事务标识号(trans_ID),和一个组成事务的项的列表

 

 

面向对象数据库基于面向对象程序设计范例。用一般术语,每个实体被看作一个对象

 

涉及一个对象的数据和代码封装在一个单元中。每个对象关联:

一个变量集,它描述数据。这对应于实体-联系和关系模型的属性。

一个消息集,对象可以使用它们与其它对象,或与数据库系统的其它部分通讯。

一个方法集,其中每个方法存放实现一个消息的代码。一旦收到消息,方法就返回一个响应值

 

共享公共特性集的对象可以归入一个对象类。每个对象都是其对象类的实例。对象类可以组成类/子类层次结构,使得每个类代表该类对象共有的特性

 

时间数据库和时间序列数据库都存放与时间有关的数据。时间数据库通常存放包含时间相关属性的数据。这些属性可能涉及若干时间标签,每个都具有不同的语义。时间序列数据库存放随时间变化的值序

文本数据库是包含对象文字描述的数据库;多媒体数据库存放图象、音频和视频数据。

 

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任务可以分两类:

描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。

 

数据可以与类或概念相关联,用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据,或(2)数据区分,将目标类与一个或多个比较类(通常称为对比类)进行比较,或(3)数据特征化和比较。

 

数据特征是目标类数据的一般特征或特性的汇总。通常,用户指定类的数据通过数据库查询收集

 

 

数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系或规则(称作特征规则)形式提供。

 

数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。目标类和对比类由用户指定,而对应的数据通过数据库查询提取。

 

关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析

 

 

分类是这样的过程,它找描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象。导出模型是基于对训练数据集(即,其类标号已知的数据对象)的分析。

分类可以用来预测数据对象的类标号。当被预测的值是数值数据时,通常称之为预测

 

相关分析可能需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性。这些属性应当排除。

 

与分类和预测不同,聚类分析数据对象,而不考虑已知的类标号。一般地,

训练数据中不提供类标号,因为不知道从何开始。聚类可以产生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。即,对象的聚类这样形成,使得在一个聚类中的对象具有很高的相似性,而与其它聚类中的对象很不相似。所形成的每个聚类可以看作一个对象类,由它可以导出规则。聚类也便于分类编制,将观察组织成类分层结构,类似的事件组织在一起。

 

 

数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是局外者。大部分数据挖掘方法将局外者视为噪音或例外而丢弃。局外者数据分析称作局外者挖掘。局外者可以使用统计试验检测

 

数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。

 

一个模式是有趣的,如果(1)它易于被人理解,(2)在某种程度上,对于新的或测试数据是有效的,(3)是潜在有用的,(4)是新颖的。如果一个模式符合用户确信的某种假设,它也是有趣的。有趣的模式表示知识。

 

依赖于所挖掘的数据类型或给定的数据挖掘应用,数据挖掘系统也可能集成空间数据分析、信息提取、模式识别、图象分析、信号处理、计算机图形学、Web 技术、经济、或心理学领域的技术。

 

根据不同的标准,数据挖掘系统可以分类如下:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据所用的技术分类、根据应用分类。

 

数据挖掘的主要问题

数据挖掘技术和用户界面问题:这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、特定的挖掘和知识显示。

 

关于数据库类型的多样性问题。关系的和复杂的数据类型的处理:由于关系数据库和数据仓库已经广泛使用,对它们开发有效的数据挖掘系统是重要的。然而,其它数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据、或事务数据。由于数据类型的多样性和数据挖掘的目标不同,指望一个系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据,应当构造特定的数据挖掘系统。这样,对于不同类型的数据,我们可能有不同的数据挖掘系统。

 

 

分享到:
评论

相关推荐

    北京大学北京大学软件与微电子学院莫同老师数据挖掘课程复习资料.doc

    数据挖掘概述与基础知识点 数据挖掘是从大量数据中提取有价值的信息和知识的过程。数据是将不同类型的属性经数据处理数据化得到的结果,知识则是保障我们达成既定目标的基础。数据记录了现象,通过现象总结出知识。...

    学习笔记5:数据预处理与数据挖掘十大经典算法.docx

    通过对数据预处理方法的详细介绍以及数据挖掘经典算法的概述,我们可以看到,数据预处理是确保数据挖掘结果准确性和有效性的关键步骤。通过合理地运用数据清理、数据集成、数据变换和数据归约等技术,可以极大地提高...

    数据挖掘.zip

    压缩包中的文件名"数据挖掘"可能是一个总的概述,涵盖了数据挖掘的基本概念、方法和应用。而"╩²╛▌═┌╛≥"看起来像是乱码,可能是由于文件名在传输过程中出现了编码错误,通常需要修复才能正常访问。在实际学习...

    谭浩强C语言学习笔记

    * 计算机科学技术的应用领域:人工智能、数据挖掘、网络安全 六、微机原理及接口技术 * 微处理器的结构和工作原理 * 微处理器的类型:8位、16位、32位、64位 * 微处理器的接口技术:总线、寄存器、I/O端口 七、...

    数据挖掘课程知识点笔记.pdf

    本课程的知识点涵盖了从数据挖掘的概述到具体的技术方法,包括机器学习模型的选择、评估以及实际应用。以下是关键知识点的详细解析: 1. **数据挖掘与知识发现**: - 知识发现是一个系统性的过程,包括确定目标、...

    《数据挖掘》读书笔记.docx

    通过对《数据挖掘》这本书的学习,我们可以了解到数据挖掘不仅涵盖了数据的观察与分析,还包括了数据挖掘技术及其在实际场景中的应用。本书通过介绍各种分类算法和技术,为我们提供了丰富的工具和方法论,帮助我们在...

    MySQL学习笔记

    ### MySQL学习笔记知识点详解 #### 一、数据库概述 数据库是指按照特定的数据结构来组织、存储和管理数据的集合体。随着信息技术的进步和社会需求的增长,数据库已经从最初的简单存储发展成为用户所需的各种复杂...

    (学习笔记)软考-数据库系统工程师.zip

    【数据库系统工程师学习笔记概述】 本学习笔记是针对“软考-数据库系统工程师”这一资格认证的备考资料,作者在复习过程中对重要知识点进行了整理,特别标记了关键内容,帮助考生高效备考。通过作者的努力,他在...

    斯坦福机器学习笔记

    3. 主要课程内容:课程内容涵盖了机器学习、数据挖掘和统计模式识别的广泛主题,包括监督学习、无监督学习、机器学习最佳实践等。监督学习部分涵盖参数/非参数算法、支持向量机、核函数、神经网络;无监督学习部分...

    SQL_Server_2000学习笔记

    本学习笔记将深入探讨SQL Server 2000的核心概念、功能以及如何有效地使用它来存储、管理和处理数据。 一、SQL Server 2000概述 SQL Server 2000基于客户-服务器(C/S)架构,支持多层应用程序开发。其主要组件包括...

    semantic web学习笔记

    在《语义网学习笔记》中,你可以找到关于这些核心技术的详细解释、示例和应用,这将帮助你深入理解语义网的概念和实践。同时,`README.txt`文件可能包含了对笔记的概述、使用说明或作者的额外注解,对于学习过程也...

    机器学习课程笔记完整版

    作为人工智能领域(数据挖掘/机器学习方向)的提升课程,掌握更深更有效的解决问题技能 目标 应用Scikit-learn实现数据集的特征工程 掌握机器学习常见算法原理 应用Scikit-learn实现机器学习算法的应用,结合...

    机器学习个人笔记

    - Octave:一种免费的数值计算软件,提供类似于MATLAB的环境,常用于机器学习和数据挖掘中的算法开发和实验。 在文档的个人笔记中,作者不仅记录了课程的主要内容,还提到了学习资源的获取、翻译过程、以及对课程的...

    斯坦福大学吴恩达2014机器学习个人笔记完整版v5.3-A4打印版

    本课程内容涵盖了机器学习、数据挖掘、统计模式识别等众多领域,并包括以下重要主题: - 监督学习:包括参数和非参数算法、支持向量机(SVM)、核函数、神经网络等。 - 无监督学习:包括聚类、降维、推荐系统等。 -...

    聚类算法学习笔记 (4).pdf

    【聚类算法学习笔记概述】 聚类是一种无监督学习方法,旨在将数据集分成多个子集,即“簇”,使得每个簇内的数据对象彼此相似,而不同簇之间的数据对象则尽可能不同。聚类分析的核心是根据数据对象的属性计算相似度...

    lucene 3.5学习笔记

    《Lucene 3.5 学习笔记》 在信息技术高速发展的今天,搜索引擎技术成为了信息检索的核心工具。Apache Lucene,作为一个开源全文检索库,为开发者提供了强大的文本搜索功能。本文将深入探讨Lucene 3.5版本的相关知识...

    数据分析笔记共1页.pdf.zip

    描述中的内容与标题相同,进一步确认了这是一个压缩文件,其内容是一页关于数据分析的学习笔记。 在IT行业中,数据分析是一项至关重要的技能,它涉及收集、清理、转换和模型化数据,以便提取有用信息,支持决策制定...

    物联网中的智能决策概述.pptx

    分类与预测是另一种重要的数据挖掘任务,通过学习历史数据建立模型,对未来的状态或事件进行预测。这在物联网设备的故障预测、能源消耗预测等方面有着广泛的应用。 物联网中的智能决策面临诸多挑战,如数据的实时性...

Global site tag (gtag.js) - Google Analytics