大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希望能够帮助大家学习。
1.C4.5算法。C4.5算法与ID3算法一样,都是数学分类算法,C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断,而C4.5采用的是增益率。
详细介绍链接:http://blog.csdn.NET/androidlushangderen/article/details/42395865
2.CART算法。CART算法的全称是分类回归树算法,他是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法,
详细介绍链接:http://blog.csdn.Net/androidlushangderen/article/details/42558235
3.KNN(K最近邻)算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42613011
4.Naive Bayes(朴素贝叶斯)算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42680161
5.SVM(支持向量机)算法。支持向量机算法是一种对线性和非线性数据进行分类的方法,非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42780439
6.EM(期望最大化)算法。期望最大化算法,可以拆分为2个算法,1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架,在每次计算结果之后,逼近统计模型参数的最大似然或最大后验估计。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/42921789
7.Apriori算法。Apriori算法是关联规则挖掘算法,通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满足最小置信度的要求。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43059211
8.FP-Tree(频繁模式树)算法。这个算法也有被称为FP-growth算法,这个算法克服了Apriori算法的产生过多侯选集的缺点,通过递归的产生频度模式树,然后对树进行挖掘,后面的过程与Apriori算法一致。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43234309
9.PageRank(网页重要性/排名)算法。PageRank算法最早产生于Google,核心思想是通过网页的入链数作为一个网页好快的判定标准,如果1个网页内部包含了多个指向外部的链接,则PR值将会被均分,PageRank算法也会遭到Link Span攻击。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43311943
10.HITS算法。HITS算法是另外一个链接算法,部分原理与PageRank算法是比较相似的,HITS算法引入了权威值和中心值的概念,HITS算法是受用户查询条件影响的,他一般用于小规模的数据链接分析,也更容易遭受到攻击。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43311943
11.K-Means(K均值)算法。K-Means算法是聚类算法,k在在这里指的是分类的类型数,所以在开始设定的时候非常关键,算法的原理是首先假定k个分类点,然后根据欧式距离计算分类,然后去同分类的均值作为新的聚簇中心,循环操作直到收敛。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43373159
12.BIRCH算法。BIRCH算法利用构建CF聚类特征树作为算法的核心,通过树的形式,BIRCH算法扫描数据库,在内存中建立一棵初始的CF-树,可以看做数据的多层压缩。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43532111
13.AdaBoost算法。AdaBoost算法是一种提升算法,通过对数据的多次训练得到多个互补的分类器,然后组合多个分类器,构成一个更加准确的分类器。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43635115
14.GSP算法。GSP算法是序列模式挖掘算法。GSP算法也是Apriori类算法,在算法的过程中也会进行连接和剪枝操作,不过在剪枝判断的时候还加上了一些时间上的约束等条件。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43699083
15.PreFixSpan算法。PreFixSpan算法是另一个序列模式挖掘算法,在算法的过程中不会产生候选集,给定初始前缀模式,不断的通过后缀模式中的元素转到前缀模式中,而不断的递归挖掘下去。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43766253
16.CBA(基于关联规则分类)算法。CBA算法是一种集成挖掘算法,因为他是建立在关联规则挖掘算法之上的,在已有的关联规则理论前提下,做分类判断,只是在算法的开始时对数据做处理,变成类似于事务的形式。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43818787
17.RoughSets(粗糙集)算法。粗糙集理论是一个比较新颖的数据挖掘思想。这里使用的是用粗糙集进行属性约简的算法,通过上下近似集的判断删除无效的属性,进行规制的输出。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43876001
18.gSpan算法。gSpan算法属于图挖掘算法领域。,主要用于频繁子图的挖掘,相较于其他的图算法,子图挖掘算法是他们的一个前提或基础算法。gSpan算法用到了DFS编码,和Edge五元组,最右路径子图扩展等概念,算法比较的抽象和复杂。
详细介绍链接:http://blog.csdn.net/androidlushangderen/article/details/43924273
相关推荐
以下是关于数据挖掘算法的详细阐述: 一、数据挖掘的目标与类型 数据挖掘的目标包括分类、聚类、关联规则学习、序列模式挖掘、异常检测和回归分析等。其中,分类是将数据分为预定义的类别;聚类则是无监督学习,将...
本资源聚焦于Java实现的经典数据挖掘算法,涵盖了分类、关联分析、集成采矿、聚类、连接挖掘以及统计学习等多个方面。 首先,分类算法是数据挖掘中的核心部分,它根据已有的特征将数据分为不同的类别。常见的Java...
模式发现阶段则包括了各种数据挖掘算法的应用。而知识表达则关注于如何将挖掘出的模式以易于理解的方式呈现。 数据挖掘与其他相关技术的关系主要涉及数据挖掘与数据库知识发现、OLAP(在线分析处理)、人工智能和...
在这个过程中,算法的选择至关重要,其中决策树是一种被广泛应用的数据挖掘方法。本话题将深入探讨两个经典的决策树改进算法:C4.5和随机森林。 C4.5算法是ID3算法的升级版,由Ross Quinlan提出。ID3算法基于信息熵...
第七部分,数据结构与算法,讲解了如数组、链表、树、图等基本数据结构以及排序、查找等经典算法,这些都是有效解决数据挖掘问题的基础。 第八部分,SQL知识,介绍了SQL(结构化查询语言),它是处理关系数据库的...
### 数据挖掘经典算法综述 #### 一、引言 数据挖掘是一门融合了数据库技术、统计学、机器学习等多个领域的综合性学科。随着信息技术的飞速发展,数据挖掘已成为企业和研究机构的重要工具,用于从海量数据中提取有...
十大经典数据挖掘算法概论,视频不是很清晰,但不影响对算法的学习和了解。想了解这方面内容的同学请下载
### 快速构造数据挖掘算法的方法 #### 一、引言 随着信息技术的快速发展,数据挖掘已成为企业和社会从海量数据中提取有价值信息的关键技术之一。数据挖掘算法作为数据挖掘过程的核心,其性能直接关系到挖掘结果的...
学习数据挖掘必须知道的10大经典算法,包括C4.5, Apriori, SVM, k-means等10个算法,里面这个算法的介绍,和现在的状况,未来的发展发向,介绍的很具体,现在被大量论文引用,所以说学习数据挖掘算法,必须先看这篇...
数据挖掘十大经典机器学习算法,国际权威的学术组织 the IEEE International Conference on Data Mining (ICDM) 2006 年 12 月评选出了数据挖掘领域的十大经典算法: C4.5, k-Means, SVM, Apriori, EM, PageRank, ...
### 基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 #### 概述 随着互联网技术的快速发展及数据量的急剧增长,如何有效地管理和挖掘这些海量数据成为了一个亟待解决的问题。传统的数据挖掘技术在面对大规模...
本资料集包含的数据挖掘算法实例,将帮助我们深入理解这一领域的核心概念。 第一章《数据挖掘基本知识》会介绍数据挖掘的基本概念,包括定义、目标和应用领域。它可能涵盖数据挖掘的三大任务:分类、聚类和关联规则...
以下是一些在标题和描述中提到的经典数据挖掘算法的详细说明: 1. C4.5:C4.5是ID3算法的升级版,由Ross Quinlan开发,主要用于决策树的构建。它通过信息增益和信息增益率来选择最佳属性进行划分,可以处理连续和...
在这个“数据挖掘10大经典算法实践”中,我们将深入探讨几种广泛使用的算法,包括Apriori、C4.5、CART、EM、K-means、KNN以及PageRank。 1. Apriori算法:这是一种关联规则学习的算法,主要用于发现购物篮中的商品...
本书在介绍了数据挖掘原理的基础上,从实用的角度出发,详细地介绍了数据挖掘的经典算法。...第4章-第8章详细介绍了数据挖掘的经典领域的算法,其中第6章简单介绍了数据可视化的内容。第9章介绍了开放的数据挖掘平台。
本文涉及的关键知识点包括数据挖掘算法、数据仓库构建、时间序列分析、多层挖掘技术、灵活的数据挖掘方法,以及行业数据应用等方面。为了实现这些算法,研究人员和工程师需要熟悉多种技术,包括但不限于分类、聚类、...
C#作为Microsoft .NET框架的主要编程语言,为实现数据挖掘算法提供了强大的支持。本资料包"数据挖掘算法源程序C#"显然是针对那些希望通过C#语言进行数据挖掘实践或者研究的开发者准备的。 首先,我们要理解数据挖掘...
为了帮助开发者和研究者更深入地理解和掌握数据挖掘算法,我们整合了一系列数据挖掘算法的源程序及其学习资料,形成了一个综合性的工具包。 关联规则挖掘是数据挖掘的一个重要分支,其目的是从海量数据中发现项之间...
大数据挖掘技术是指在海量的数据中通过特定的算法和工具提取有价值信息和知识的过程。随着信息技术的迅猛发展和全球信息化的加速,大数据已经成为社会发展的重要驱动力。有效的大数据挖掘技术可以帮助企业、政府和...