本文所有涉及到的数据挖掘代码的都放在了我的github上了。
地址链接: https://github.com/linyiqun/DataMiningAlgorithm
大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希望能够帮助大家学习。
1.C4.5算法。C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断,而C4.5采用的是增益率。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42395865
2.CART算法。CART算法的全称是分类回归树算法,他是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法,
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42558235
3.KNN(K最近邻)算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42613011
4.Naive Bayes(朴素贝叶斯)算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42680161
5.SVM(支持向量机)算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42780439
6.EM(期望最大化)算法。期望最大化算法,可以拆分为2个算法,1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架,在每次计算结果之后,逼近统计模型参数的最大似然或最大后验估计。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42921789
7.Apriori算法。Apriori算法是关联规则挖掘算法,通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满足最小置信度的要求。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43059211
8.FP-Tree(频繁模式树)算法。这个算法也有被称为FP-growth算法,这个算法克服了Apriori算法的产生过多侯选集的缺点,通过递归的产生频度模式树,然后对树进行挖掘,后面的过程与Apriori算法一致。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43234309
9.PageRank(网页重要性/排名)算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准,如果1个网页内部包含了多个指向外部的链接,则PR值将会被均分,PageRank算法也会遭到Link Span攻击。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43311943
10.HITS算法。HITS算法是另外一个链接算法,部分原理与PageRank算法是比较相似的,HITS算法引入了权威值和中心值的概念,HITS算法是受用户查询条件影响的,他一般用于小规模的数据链接分析,也更容易遭受到攻击。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43311943
11.K-Means(K均值)算法。K-Means算法是聚类算法,k在在这里指的是分类的类型数,所以在开始设定的时候非常关键,算法的原理是首先假定k个分类点,然后根据欧式距离计算分类,然后去同分类的均值作为新的聚簇中心,循环操作直到收敛。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43373159
12.BIRCH算法。BIRCH算法利用构建CF聚类特征树作为算法的核心,通过树的形式,BIRCH算法扫描数据库,在内存中建立一棵初始的CF-树,可以看做数据的多层压缩。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43532111
13.AdaBoost算法。AdaBoost算法是一种提升算法,通过对数据的多次训练得到多个互补的分类器,然后组合多个分类器,构成一个更加准确的分类器。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43635115
14.GSP算法。GSP算法是序列模式挖掘算法。GSP算法也是Apriori类算法,在算法的过程中也会进行连接和剪枝操作,不过在剪枝判断的时候还加上了一些时间上的约束等条件。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43699083
15.PreFixSpan算法。PreFixSpan算法是另一个序列模式挖掘算法,在算法的过程中不会产生候选集,给定初始前缀模式,不断的通过后缀模式中的元素转到前缀模式中,而不断的递归挖掘下去。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43766253
16.CBA(基于关联规则分类)算法。CBA算法是一种集成挖掘算法,因为他是建立在关联规则挖掘算法之上的,在已有的关联规则理论前提下,做分类判断,只是在算法的开始时对数据做处理,变成类似于事务的形式。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43818787
17.RoughSets(粗糙集)算法。粗糙集理论是一个比较新颖的数据挖掘思想。这里使用的是用粗糙集进行属性约简的算法,通过上下近似集的判断删除无效的属性,进行规制的输出。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43876001
18.gSpan算法。gSpan算法属于图挖掘算法领域。,主要用于频繁子图的挖掘,相较于其他的图算法,子图挖掘算法是他们的一个前提或基础算法。gSpan算法用到了DFS编码,和Edge五元组,最右路径子图扩展等概念,算法比较的抽象和复杂。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43924273
相关推荐
1. **超大规模数据挖掘架构**:对数据进行预处理、数据转换、特征选择、数据降维等,是数据挖掘前的重要步骤,这有助于提高挖掘算法的性能和挖掘结果的准确性。 2. **设计目标**:一个优秀的数据挖掘架构设计目标...
6. **数据挖掘方法**: - **特征化与区分**:特征化是概括目标类数据的特性,区分是对比目标类与对比类的特征差异,帮助识别数据的显著特征。 - **频繁模式、关联和相关性**:挖掘频繁出现的模式,寻找数据中的...
10.1 关联规则基本概念 10.2 关联规则算法原理 10.3 分层搜索经典算法-Apriori算法 10.4 并行挖掘算法 10.5 增量更新挖掘算法 10.6 多层关联规则挖掘 10.7 多维关联规则挖掘 10.8 约束性关联规则挖掘 ...10.13 小结
- 小结:总结数据挖掘的关键点和挑战。 #### 机器学习过程中的问题 - 数据不平衡问题:处理类别不平衡的情况。 - 模型过拟合与欠拟合:避免模型过于复杂或过于简单。 - 特征选择与工程:选择合适的特征进行模型...
数据挖掘是一种从海量数据中提取有价值知识的过程,而Apriori算法是数据挖掘领域中用于发现关联规则的经典算法。Apriori算法的核心在于其逐层搜索的策略,通过生成频繁项集并以此为基础挖掘出强关联规则。然而,原始...
- **知识点**: SQL Server 2005 提供了多种数据挖掘算法,如决策树、神经网络、聚类分析等,每种算法都有其适用场景和配置选项。 - **截图示例**: 可能展示了算法选择界面,以及如何配置特定算法的参数,例如设置...
通过提供实证分析,这项研究促进了数据挖掘算法在乳腺癌复发风险预测中的应用,为提高乳腺癌治疗的效果和患者生活质量提供了科学依据。在数据分析领域,数据挖掘的运用越来越广泛,尤其在生物信息学和健康数据分析中...
数据挖掘是一种从大规模数据集中提取有价值信息和知识的过程。随着数据规模的增长,传统的单机算法在处理速度和效率上遇到了挑战,因此并行算法的研究变得至关重要。本章主要介绍了基于MapReduce的数据挖掘基础算法...
兰州大学数据挖掘与大数据分析 Assignment 1 数据集(20 分) • 使用正弦函数生成一个包含两个正弦周期的数据集(振幅可自行设定),从中均匀采样20 个 数据样本,对每个样本的目标变量yi 添加一个随机的扰动值...
数据挖掘是一种从大量、繁杂、模糊的数据中,通过相应的技术和方法提取有效信息的技术。这一概念在信息化时代下发展起来,旨在解决信息数据化后,如何快速有效地从海量数据中选择所需信息的难题。 2、数据挖掘内容 ...
BSYES算法 论文+答辩PPT 目录 第一章 6 1.1引言 6 1.2研发背景 6 第二章 7 2.1数据库 7 2.1.1 SQL数据库 7 2.1.2 数据库模型 7 ...4.2 工作结果小结 8 第五章 总结与展望 8 第六章 致谢 8 第七章 参考文献 8
决策树是一种常用的数据挖掘算法,其原理基于树状结构,每个内部节点代表一个特征或属性测试,每个分支代表一个测试结果,而叶节点则对应一个决策或类别。决策树易于理解和解释,能处理分类和回归问题,适用于处理...
作者提出,传统的教学评价形式较为单一,主要依赖成绩和成绩形式进行评价,而利用教育大数据挖掘和数据分析技术能够更加客观、精准和有效地评价教学质量,为教育教学改革提供科学依据。 文章详细描述了实训课程教学...
#### 小结 本文档主要介绍了数据挖掘中分类与预测的相关概念和技术,包括决策树、贝叶斯分类、后向传播以及基于关联规则的分类等。通过对这些方法的学习,可以帮助我们更好地理解和分析数据,从而做出更加准确的...
17.1基于损失函数的标准 17.1.1混淆矩阵 17.1.2准确率及误差的度量 17.1.3两个评价模型成本的可视化工具 17.1.4评估分类器的准确率 17.2基于统计检验的准则 17.2.1统计模型之间的距离 17.2.2统计模型的离差 ...17.6小结
【聚类分析方法小结】 聚类分析是数据挖掘中的一个重要技术,主要目的是通过比较对象间的相似性,将相似的对象归为一类,形成所谓的“簇”。与分类不同,聚类无需预定义类别,而是允许数据自身揭示其内在的结构。在...
数据挖掘是在大数据背景下,通过人工智能算法对海量数据进行提炼和筛选,最终提取出符合条件的有用信息的技术。它能够帮助决策者根据过去和现在的数据,评估未来管理决策的可行性,是现代医院管理和科研发展的重要...
大数据分析结课论文 大数据技术是指无法在可承受的时间X围内用常规软件工具进行捕捉、管理和处理的数据集合。随着互联网的发展,数据的爆炸性增长使得大数据技术的应用前景广阔。为了挖掘大数据的价值,需要不断地...