Weka聚类算法的两个实现算法

RangerWolf

浏览: 236764 次
性别:
来自: 南京

最近访客更多访客>>

dazhou

xubukang

minxiaomin

qihongce

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java
Weka
数据挖掘

weka 聚类数据挖掘 java

在这里将使用Weka自带的K-means以及EM算法对同一份数据进行聚类。

目前使用的是自带的数据集。我也不太清楚这样聚类的效果如何 sigh...

Weka Version: 3.7.10

K-Means K-均值算法

import java.io.File;

import weka.clusterers.SimpleKMeans;
import weka.core.DistanceFunction;
import weka.core.Instances;
import weka.core.converters.ArffLoader;


public class TestKMeans {
	
	public static void main(String[] args) {
		Instances ins = null;
		
		SimpleKMeans KM = null;
		
		// 目前没有使用到，但是在3.7.10的版本之中可以指定距离算法
		// 默认是欧几里得距离
		DistanceFunction disFun = null;
		
		try {
			// 读入样本数据
			File file = new File("D:\\Program Files\\Weka-3-7\\data\\contact-lenses.arff");
			ArffLoader loader = new ArffLoader();
			loader.setFile(file);
			ins = loader.getDataSet();
			
			// 初始化聚类器 （加载算法）
			KM = new SimpleKMeans();
			KM.setNumClusters(2); 		//设置聚类要得到的类别数量
			KM.buildClusterer(ins);		//开始进行聚类
			
			// 打印聚类结果
			System.out.println(KM.toString());
//			for(String option : KM.getOptions()) {
//				System.out.println(option);
//			}
//			System.out.println("CentroIds:" + tempIns);
		} catch(Exception e) {
			e.printStackTrace();
		}
		
	}
}

在上面的算法之中，使用的是SimpleKMeans这个类。

使用EM算法的方法几乎一样，唯一的不同就是在设置类数目的时候可以设置成-1. 如下：

EM em = null;
em = new EM();
// 使用交叉验证自动选择聚类数目
em.setNumClusters(-1);
em.setMaxIterations(100);
em.buildClusterer(ins);

具体可以看源码：

/**
   * Set the number of clusters (-1 to select by CV).
   * 
   * @param n the number of clusters
   * @throws Exception if n is 0
   */
  @Override
  public void setNumClusters(int n) throws Exception {

    if (n == 0) {
      throw new Exception("Number of clusters must be > 0. (or -1 to "
          + "select by cross validation).");
    }

    if (n < 0) {
      m_num_clusters = -1;
      m_initialNumClusters = -1;
    } else {
      m_num_clusters = n;
      m_initialNumClusters = n;
    }
  }

关于EM 以及K-Means的具体描述，请自行百度吧~

分享到：

Weka 界面操作实例 | [Lucene] 使用Lucene创建自定义的词干分析 ...

2014-02-07 23:08
浏览 9271
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Weka聚类算法的两个实现算法

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Weka聚类算法的两个实现算法

评论

发表评论

相关推荐

[Lucene] Lucene 4.10 显示分词结果

[Hadoop] 分布式Join : Replicated Join

[Hadoop]使用Hadoop进行ReduceSideJoin

[Hadoop] Hadoop 链式任务 : ChainMapper and ChainReducer的使用

[Hadoop] 练习：使用Hadoop计算两个向量的内积

[Hadoop] TopK的一个简单实现

[Mahout] 使用Mahout 对Kddcup 1999的数据进行分析 -- Naive Bayes

[Mahout] 为什么mahout需要sequencefile ?

[Mahout] mahout 0.9 的 seqdirectory 有bug

[Mahout] 使用Mahout对iris数据进行分析 - Logistic Regression

[Mahout] Windows + Eclipse 构建mahout运行环境

[Mahout] 第一个小实验：使用GroupLens进行推荐模型的检验

[Mahout] Windows下Mahout单机安装

[Kaggle实战] Titanic 逃生预测 (5) - 使用Dot语言绘制决策树

[Kaggle实战] Titanic 逃生预测 (4) - 决策树建模

[Kaggle实战] Titanic 逃生预测 (3) - Age离散化

[Kaggle实战] Titanic 逃生预测 (2) - 数据预处理

[Kaggle实战] Titanic 逃生预测 (1) - 项目起步

Java实现的朴素贝叶斯分类器

使用Java实现的ID3算法

最近访客更多访客>>