`

数据挖掘之挖掘大型数据库中的关联规则学习笔记

阅读更多

挖掘大型数据库中的关联规则

 

 

关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析。

 

关联规则挖掘寻找给定数据集中项之间的有趣联系

 

规则的支持度和置信度是两个规则兴趣度度量,它们分别反映发现规则的有用性和确定性,。关联规则是有趣的,如果它满足最小支持度阈值和最小置信度阈值。这些阈值可以由用户或领域专家设定。

 

I = { i1 , i2 ,..., im }是项的集合。设任务相关的数据D 是数据库事务的集合,其中每个事务T

是项的集合,使得T Í I。每一个事务有一个标识符,称作TID。设A 是一个项集,事务T 包含A当且仅当A Í T。关联规则是形如A Þ B 的蕴涵式,其中A Ì IB Ì I,并且A Ç B = Æ。规则A ÞB 在事务集D 中成立,具有支持度s,其中s D 中事务包含A È B(即,A B 二者)的百分比。

它是概率P(A È B)规则A Þ B 在事务集D 中具有置信度c,如果D 中包含A 的事务同时也包含B的百分比是c。这是条件概率P(B|A)。即

support (A Þ B ) = P(A È B)

confidence (A Þ B ) = P(B|A)

 

同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则。为方便计,我们用0%100%之间的值,而不是用0 1 之间的值表示支持度和置信度。

项的集合称为项集15。包含k 个项的项集称为k-项集。

 

项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。项集满足最小支持度min_sup,如果项集的出现频率大于或等于min_sup D 中事务总数的乘积。如果项集满足最小支持度,则称它为频繁项集16。频繁k -项集的集合通常记作Lk

 

关联规则的挖掘是一个两步的过程:

找出所有频繁项集:根据定义,这些项集出现的频繁性至少和预定义的最小支持计数一样;

由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。

 

关联规则挖掘:一个路线图

 

根据规则中所处理的值类型:如果规则考虑的关联是项的在与不在,则它是布尔关联规则。

根据规则中涉及的数据维:如果关联规则中的项或属性每个只涉及一个维,则它是单维关联规则

根据规则集所涉及的抽象层:有些挖掘关联规则的方法可以在不同的抽象层发现规则

 

分享到:
评论

相关推荐

    《数据挖掘技术》课程学习笔记

    在《数据挖掘》课程学习笔记中,还可能包含了特征选择的内容。特征选择是挑选出对模型预测能力最有贡献的变量,可以降低过拟合风险,提高模型解释性。常见的特征选择方法有过滤法、包裹法和嵌入法。 此外,笔记可能...

    数据挖掘读书笔记.pdf

    数据挖掘是一种从大型数据库中提取有用信息的技术,通过对数据的分析和处理,挖掘出有价值的模式和关系。数据挖掘的应用非常广泛,包括商业、金融、医疗、科学研究等领域。 数据挖掘可以挖掘的数据类型包括数据库...

    北京大学北京大学软件与微电子学院莫同老师数据挖掘课程复习资料.doc

    数据挖掘与机器学习、统计、数据管理的区别与联系是,机器学习为数据挖掘提供理论方法,统计学要求有数据分布模型的先验假设,数据挖掘没有上述要求,数据库是演绎推理,数据挖掘是归纳推理。 数据属性的类别有标称...

    海南大学数据挖掘入土笔记.pdf

    首先,数据挖掘的概念指的是在大型数据库中自动发现有用信息的过程。这一过程涉及数据的处理和分析,以找出数据中隐藏的、有意义的模式和关联。数据挖掘的过程可以类比于数学中的函数映射问题,即通过一组数据点集合...

    学习笔记5:数据预处理与数据挖掘十大经典算法.docx

    在数据挖掘的过程中,数据预处理是一个至关重要的环节。现实世界中的数据往往存在各种各样的问题,例如缺失值、噪声、异常值等,这些问题会直接影响到数据挖掘的结果质量。因此,对数据进行预处理能够显著提高数据...

    数据挖掘课件(ETL工具)

    朱建秋教授在数据挖掘领域有深厚的理论基础和实践经验,他的研究可能涵盖了多种数据挖掘方法,如分类、聚类、关联规则、序列模式、预测模型等。这些方法广泛应用于商业智能、推荐系统、市场分析、客户关系管理等多个...

    数据挖掘笔记01-031

    数据挖掘是一种从海量数据中发现有价值信息的过程,它结合了统计学、机器学习、数据库技术等多个领域的知识。在数据挖掘笔记01-031中,主要涉及了数据预处理、SQL查询、在线分析处理(OLAP)以及了解数据等核心概念...

    清华出版的数据仓库和数据挖掘陈志泊等的讲义

    "第4章 关联规则.ppt"会介绍关联规则学习,这是一种发现数据中项集之间有趣关系的方法,如著名的“啤酒与尿布”例子。"第5章 数据分类.ppt"则讲解了监督学习,包括决策树、朴素贝叶斯和神经网络等分类算法。"第6章 ...

    数据库\数据库概论学习笔记

    通过应用程序,数据库的价值得以体现,支持多方面的业务需求和技术发展,例如数据挖掘、数据分析、智能决策等。 通过以上梳理,我们可以清晰地看到数据管理从简单的手工管理到复杂的数据库管理的发展过程,以及...

    哈工大研究生数据挖掘课程

    数据挖掘是信息技术领域中一个非常重要的分支,它涉及到统计学、机器学习、数据库技术等多个学科,旨在从海量数据中发现有价值的、未知的、可理解的模式。哈工大的研究生数据挖掘课程显然是一门深入探讨这一领域的...

    [浙大-数据挖掘].1-10\4.rar [浙大-数据挖掘].1-10\4.rar

    在浙江大学的数据挖掘课程中,可能会涵盖这些基本概念,同时深入到更具体的算法和技术,如SVM(支持向量机)、决策树、神经网络、Apriori算法、K-means聚类等。此外,还可能涉及数据库管理系统、统计学基础、机器...

    DBMS数据库系统工程师学习笔记

    【数据库管理系统(DBMS)...以上就是DBMS数据库系统工程师学习笔记中的核心内容,这些知识点对于理解和处理数据库系统的设计、管理和维护至关重要。通过深入理解这些概念,工程师可以更好地应对实际工作中的各种挑战。

    数据挖掘数据分析资料.zip

    数据挖掘与数据分析是现代信息技术领域中的重要组成部分,它们在商业智能、科学研究、市场预测等多个领域发挥着关键作用。这份名为“数据挖掘数据分析资料.zip”的压缩包文件,显然是一份为初学者和爱好者准备的学习...

    数据仓库笔记

    数据挖掘的任务涉及分类、回归、聚类、关联规则学习等,而数据挖掘方法则包括有监督学习和无监督学习。有监督学习是基于带标签的数据进行训练,无监督学习则不使用带标签的数据。 在学习算法方面,笔记中提到了各种...

    I_数据挖掘与数据挖掘工具[收集].pdf

    数据挖掘是一种从海量数据中提取有价值信息的过程,它旨在揭示隐藏的模式、关联和知识,为企业决策提供有力支持。在上述描述中,"神机妙算客服系统"就是一种运用数据挖掘技术的例子,通过分析客户的个人信息、搜索...

    sql server数据库笔记.zip

    数据库引擎负责数据存储和检索,Analysis Services提供数据挖掘和OLAP(在线分析处理)功能,Integration Services用于数据集成和ETL(提取、转换、加载)过程,Reporting Services则为企业提供报表服务。...

    电子商务数据库技术的笔记总结

    数据挖掘则从海量历史数据中寻找有价值的信息。 6. **电子商务网站的建设**:企业建立电子商务网站涉及ISP和ICP的选择、域名注册、网页设计、数据库创建与维护、数据库与网站的整合等多个步骤。其中,数据库驱动的...

    数据模型(ER&DM&DV)学习笔记 - R(1).pdf

    数据模型ER - 关系数据模型DM - 维度数据模型DV - Data Vault模型 ...* 数据挖掘:关系数据模型可以用于数据挖掘,例如关联规则挖掘、分类挖掘等 * 数据仓库:关系数据模型可以用于数据仓库,例如数据集成、数据转换等

    2023年数据库视频笔记.doc

    6. **SQL Server 2023体系结构**:SQL Server由多个组件构成,如数据库引擎负责数据存储和查询,分析服务提供OLAP和数据挖掘,报表服务用于报表创建和发布,数据集成平台处理数据提取、转换和加载。 7. **IIS服务**...

Global site tag (gtag.js) - Google Analytics