本月博客排行
-
第1名
龙儿筝 -
第2名
zysnba -
第3名
johnsmith9th - wy_19921005
- sgqt
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- wy_19921005
- benladeng5225
- fantaxy025025
- javashop
- qepwqnp
- e_e
- 解宜然
- zysnba
- ssydxa219
- sam123456gz
- ranbuijj
- arpenker
- tanling8334
- kaizi1992
- sichunli_030
- xpenxpen
- gaojingsong
- wiseboyloves
- xiangjie88
- ganxueyun
- xyuma
- wangchen.ily
- jh108020
- zxq_2017
- jbosscn
- lemonhandsome
- luxurioust
- Xeden
- lzyfn123
- forestqqqq
- zhanjia
- nychen2000
- ajinn
- wjianwei666
- johnsmith9th
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
最新文章列表
python sklearn-06:聚类-k-means
聚类是用于找出不带标签数据的相似性的算法。
译文链接:https://muxuezi.github.io/posts/6-clustering-with-k-means.html
1.K-Means算法
由于具有出色的速度和良好 ...
K-均值聚类算法(集体智慧编程)
上篇博客中讲到的分级聚类算法为我们返回了一棵形象直观的树,但是这个方法有两个缺点。
1.在没有额外的投入的情况下,树形视图是不会真正将数据拆分成不同组的。
2.该算法的计算量非常惊人,因为我们必须计算每两个配对项之间的关系,并且在合并项之后,这些关系还得重新再计算,所以在处理很大规模的数据集时,该算法的运行速度会非常缓慢。
K-均值聚类完全不同于分级聚类,因为我们会预先告诉算法希望生 ...
Java实现的朴素贝叶斯分类器
目前的算法只能处理结果只有两种的情况,即true or false. 多分枝或者是数字类型的还无法处理。
用到的一些基础数据结构可以参考上一篇关于ID3的代码。
这里只贴出来实现贝叶斯分类预测的部分:
package classifier;
import java.util.ArrayList;
import java.util.HashMap;
import java.u ...
Weka聚类算法的两个实现算法
在这里将使用Weka自带的K-means以及EM算法对同一份数据进行聚类。
目前使用的是自带的数据集。我也不太清楚这样聚类的效果如何 sigh...
Weka Version: 3.7.10
K-Means K-均值算法
import java.io.File;
import weka.clusterers.SimpleKMeans;
import weka.core ...
Weka入门实例之KMean聚类实现
/*上次我介绍了分类器的使用方法,这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与分类算法(supervised learning)相对的。在它们两者之间还一种叫做半监督学习(semi-supervised learning)这个我会在后面的文章中重点介绍。所谓无监督学习就是在预先不知道样本类别的情况下,由聚类算法来判别样本 ...
Clustering: Canopy
Canopy
本文介绍聚类算法:canopy
该算法的主要特点:无需设置集群个数
算法的步骤
1. 设置参数T1和T2, 其中T1>T2, 参数敏感
2. 在样本集和钟任务一个样本P, 计算P与所有Canopy之间的距离,初始的时候Canopy为空,直接把P
当成一个Canopy. 如果P与某个Canopy距离在T1以内,则将P认为是一个Canopy。如果在T ...
K-MEANS聚类算法
K-MEANS
算法
输入聚类个数
k
,以及包含
n
个数据对象的数据库,输出满足方差最小标准的
k
个聚类。
k-means
算法接受输入量
k
;然后将
n
个数据对象划分为
k
个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得 ...
一个基于Mahout与hadoop的聚类搭建
mahout是基于hadoop的数据挖掘工具,因为有了hadoop,所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R,所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你,如何使用hadoop + mahout搭出一个简易的聚类工具。
第一步:搭建hadoop平台。
我使用的是ubuntu 11.04,如果没有ubuntu的开发环境,就参考我的帖子《Ubun ...