`
vanhukset
  • 浏览: 29088 次
  • 性别: Icon_minigender_1
  • 来自: 南京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

数据挖掘笔记1

 
阅读更多

概念/类描述:特征和区分

数据可以与类或概念相关联。

例如,在AllElectronics 商店,销售的商品类包括计算机和打印机,顾客概念包括bigSpenders 和budgetSpenders。用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到

(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据,或

(2)数据区分,将目标类与一个或多个比较类(通常称为对比类)进行比较,或

(3)数据特征化和比较。数据特征是目标类数据的一般特征或特性的汇总。

通常,用户指定类的数据通过数据库查询收集。例如,为研究上一年销售增加10%的软件产品的特征,可以通过执行一个SQL 查询收集关于这些产品的数据。有许多有效的方法,将数据特征化和总。例如,基于数据方的 OLAP 上卷操作(1.3.2 小节)可以用来执行用户控制的、沿着指定维的数据汇总。该过程将在第2 章介绍数据仓库时进一步详细讨论。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必一步步地与用户交互。这一技术将在第5 章讨论。数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表


关联分析

“什么是关联分析?”关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。


分类和预测

分类是这样的过程,它找描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象。导出模型是基于对训练数据集(即,其类标号已知的数据对象)的分析。“如何提供导出模型?”导出模式可以用多种形式表示,如分类(IF-THEN)规则、判定树、数学公式、或神经网络。判定树是一个类似于流程图的结构,每个结点代表一个属性值上的测试,每个分枝代表测试的一个输出,树叶代表类或类分布。判定树容易转换成分类规则。当用于分类时,神经网络是一组类似于神经元的处理单元,单元之间加权连接。分类可以用来预测数据对象的类标号。然而,在某些应用中,人们可能希望预测某些遗漏的或不知道的数据值,而不是类标号。当被预测的值是数值数据时,通常称之为预测。尽管预测可以涉及数据值预测和类标号预测,通常预测限于值预测,并因此不同于分类。预测也包含基于可用数据的分布趋势识别。相关分析可能需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性。这些属性应当排除。

分享到:
评论

相关推荐

    数据挖掘导论(笔记)

    数据挖掘导论 (英文PPT)(Pang-Ning Tan, Michael Steinbach, Vipin Kumar) 原书第四章(Introduction to Data Mining CH4)高清:http://download.csdn.net/detail/flyingpoops/9406233 原书第六章...

    Python金融大数据挖掘与分析全流程详解-学习笔记及案例代码.zip

    Python金融大数据挖掘与分析全流程详解-学习笔记及案例代码.zip Python金融大数据挖掘与分析全流程详解-学习笔记及案例代码.zip Python金融大数据挖掘与分析全流程详解-学习笔记及案例代码.zip Python金融大数据挖掘...

    山东大学数据挖掘期末复习笔记.pdf

    山东大学数据挖掘期末复习笔记 数据挖掘是指从大量数据中自动发现(pattern)或关系的过程。数据挖掘技术可以应用于多个领域,如商业、金融、医疗、科学研究等。在本文中,我们将对山东大学数据挖掘期末复习笔记中的...

    《数据挖掘技术》课程学习笔记

    本篇学习笔记主要涵盖了数据挖掘的基础概念、常用算法以及实践应用。 首先,我们需要理解数据挖掘的定义:它是从大量数据中通过运用专门的算法和技术,提取出有用信息并进行模式识别的过程。数据挖掘的目标通常分为...

    《New Internet 大数据挖掘》读书笔记

    自己在看《New Internet 大数据挖掘》这本书时做的一些笔记,与大家分享!

    数据挖掘笔记01-031

    在数据挖掘笔记01-031中,主要涉及了数据预处理、SQL查询、在线分析处理(OLAP)以及了解数据等核心概念。 1. 数据预处理: 数据预处理是数据挖掘的关键步骤,它包括了数据清洗、数据集成、数据转换和数据规约四大...

    自己亲自整理的数据挖掘概念与技术+数据挖掘(精心整理)笔记+习题及其答案+课本及其答案

    自己亲自整理的数据挖掘概念与技术+数据挖掘(精心整理)笔记+习题及其答案+课本及其答案。 东西都是自己亲自整理的,绝对物有所值,经得起时间的考验,大家用得好的欢迎给好评,这是我的动力 数据挖掘 笔记 第三版

    数据挖掘笔记07-091

    数据挖掘笔记07-091摘要 本节笔记主要讲解了数据挖掘中分类算法的两种主要方法:Classification I和Classification II。下面是本节笔记的详细知识点总结: Classification I 在Classification I中,我们讨论了三...

    数据挖掘导论(完整版)

    《数据挖掘导论(完整版)》全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外...

    《数据挖掘概念与技术》-思维导图学习笔记,第一章。

    1. 数据挖掘定义:数据挖掘是一种从大量数据中通过算法发现有价值信息的过程。它涉及到模式识别、统计分析和机器学习等多个领域,旨在将原始数据转化为可操作的知识。 2. 数据挖掘任务类型:主要分为五类:分类、...

    数据挖掘笔记思维导图1

    数据挖掘是信息技术领域的一个关键分支,它涉及到从大量数据中提取有用信息,形成知识和洞察。数据挖掘的任务主要分为三类:分类、预测型任务和描述型任务。分类任务是根据已有特征将数据对象归入预定义的类别;预测...

    数据挖掘读书笔记.pdf

    数据挖掘读书笔记 数据挖掘是一种从大型数据库中提取有用信息的技术,通过对数据的分析和处理,挖掘出有价值的模式和关系。数据挖掘的应用非常广泛,包括商业、金融、医疗、科学研究等领域。 数据挖掘可以挖掘的...

    BI基础知识 数据仓库 数据挖掘 笔记

    BI涵盖了数据仓库、在线分析处理(OLAP)和数据挖掘等多个领域。 1. **数据仓库**是BI运行的基础,是一个专门设计用于决策支持的数据集合。它具有以下特性: - 面向主题:数据仓库围绕特定业务主题进行组织,而非...

    数据挖掘入门与实战笔记

    ### 数据挖掘入门与实战笔记 #### 一、数据挖掘概览 数据挖掘是一种从大量数据中提取出有用的信息和知识的过程。在这个过程中,利用各种算法和技术来发现隐藏于数据内部的模式、趋势和关联,从而帮助企业或组织...

    数据挖掘笔记11-121

    这篇笔记主要涵盖了数据挖掘中的聚类分析,这是数据挖掘中无监督学习的一种重要方法。 1. 聚类分析简介:聚类分析是将数据集中的对象按照它们的相似性或距离进行分组,使得同一组内的对象彼此相似,而不同组之间的...

    数据挖掘与分析笔记+习题+课本.exe

    数据挖掘与分析自解压文件数据挖掘(Data mining)又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索...

    数据挖掘笔记041

    数据挖掘中的数据立方体是一种用于分析大量多维数据的高效工具,尤其在在线分析处理(OLAP)中广泛应用。数据立方体的构建是数据仓库和OLAP系统的核心组成部分,它能够快速响应用户的多角度查询,提供决策支持。 ...

    数据挖掘完整项目/课堂记录笔记/比赛代码

    本项目提供了从零基础到精通的数据挖掘全过程,旨在帮助学习者掌握实际操作技能,并通过课堂记录笔记和比赛代码来深化理解。 首先,我们关注的是"海量数据挖掘"。在当今大数据时代,数据量呈指数级增长,传统的数据...

    数据挖掘网课学习笔记1

    1. KDD(Knowledge Discovery and Data Mining):这是数据挖掘和知识发现领域最重要的会议之一,涵盖了从数据预处理到模式评估的广泛主题。 2. SDM(SIAM International Conference on Data Mining):由SIAM(美国...

    数据挖掘与分析学习笔记数据

    数据挖掘与分析学习笔记数据

Global site tag (gtag.js) - Google Analytics