KNN（转）

strayly

浏览: 97951 次
性别:
来自: 上海

最近访客更多访客>>

士大夫地方

孤狼18

pengcong90

yjlhope

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java
数据挖掘

import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;

import edu.udo.cs.wvtool.main.WVTWordVector;

public class KNN {	
    
    private int k = 15;
    private int cLimit = 1;
    private double[] ClassSim = null;
    private static Map<Integer, String> indexmap = null;
    
    static {
    	if (indexmap == null)
    	{
    		indexmap = new HashMap<Integer, String>();
    		indexmap.put(0, "计算机");
    		indexmap.put(1, "房地产");
    		/*
    		indexmap.put(0, "汽车");
    		indexmap.put(1, "教育");
    		indexmap.put(2, "娱乐");
    		indexmap.put(3, "财经");
    		indexmap.put(4, "房产");
    		indexmap.put(5, "军事");
    		indexmap.put(6, "奥运");
    		indexmap.put(7, "时政");
    		indexmap.put(8, "体育");
    		indexmap.put(9, "科技");
    		*/
    	}
    }
    
    public KNN()
    {
    	
    }
	
	public List LazyLearning(WVTWordVector v, WVTWordVector[] vectors, int numClasses)	
	{
		if (v == null || vectors == null)
			return null;
		
		System.out.println("number of documents : " + vectors.length);
		System.out.println("number of classes: " + numClasses);
		ClassSim = new double[numClasses];
		for (int i = 0; i < numClasses; i++)
		{
			ClassSim[i] = 0;
		}
		
		k = (k < vectors.length)? k : vectors.length;
		double[] Sim = new double[vectors.length];
		for (int i = 0; i < Sim.length; i++)
		{
			Sim[i] = 0;
			Map map1 = v.getWordMap();
			Map map2 = vectors[i].getWordMap();
			for (Iterator it = map1.keySet().iterator(); it.hasNext();)
			{
				String word1 = (String)it.next();
				if (map2.containsKey(word1))
				{
					double value1 = Double.valueOf(map1.get(word1).toString());
					double value2 = Double.valueOf(map2.get(word1).toString());
					Sim[i] += (value1 * value2);
				}
			}
		}
		
		for (int i = 0; i < k; i++)
		{
			for (int j = i + 1; j < Sim.length; j++)
			{
				if (Sim[j] > Sim[i])
				{
					double dtemp = Sim[i];
					Sim[i] = Sim[j];
					Sim[j] = dtemp;
					
					WVTWordVector wv = vectors[i];
					vectors[i] = vectors[j];
					vectors[j] = wv;
				}
			}
		}
		
		double TotalSim = 0;
		for (int i = 0; i < k; i++)
		{
			WVTWordVector wv = vectors[i];
			int numClass = wv.getDocumentInfo().getClassValue();
			ClassSim[numClass] += Sim[i];
			TotalSim += Sim[i];
		}
		
		// output the first 3 class
		int[] index = new int[ClassSim.length];
		for (int i = 0; i < ClassSim.length; i++)
			index[i] = i;
		for (int i = 0; i < cLimit; i++)
		{			
			for (int j = i + 1; j < ClassSim.length; j++)
			{
				if (ClassSim[j] > ClassSim[i])
				{
					double dtemp = ClassSim[i];
					ClassSim[i] = ClassSim[j];
					ClassSim[j] = dtemp;
					
					int itemp = index[i];
					index[i] = index[j];
					index[j] = itemp;
				}
			}
		}
		
		List<CategoryResult> result = new ArrayList<CategoryResult>();
		for (int i = 0; i < cLimit; i++) {
			if (ClassSim[i] > 0) {
				CategoryResult cr = new CategoryResult(indexmap.get(index[i]).toString(), ClassSim[i] / TotalSim);
				result.add(cr);
			}
		}
		
		///*
		for (int i = 0; i < index.length; i++){
			System.out.println("cat:"+index[i] + ": " + ClassSim[i]);
		}			
		
		for (int i = 0; i < k; i++){
			WVTWordVector wv = vectors[i];
			String id;
	        //int cutIndex = wv.getDocumentInfo().getSourceName().lastIndexOf(File.separator);
			//if (cutIndex > 0)
	        //    id = wv.getDocumentInfo().getSourceName().substring(cutIndex + 1);
	        //else
	            id = wv.getDocumentInfo().getSourceName();
	        System.out.println("c:"+id + ": " + Sim[i]);
		}
		//*/
		return result;
	}
		
}

class CategoryResult
{
	private String CategoryName;
	private double similarity;
	
	public CategoryResult(String categoryname, double similarity)
	{
		this.CategoryName = categoryname;
		this.similarity = similarity;
	}

	public String getCategoryName() {
		return CategoryName;
	}

	public void setCategoryName(String categoryName) {
		CategoryName = categoryName;
	}

	public double getSimilarity() {
		return similarity;
	}

	public void setSimilarity(double similarity) {
		this.similarity = similarity;
	}
}

分享到：

pickle.dumps参数 | ChineseTokenizer implements WVTTokenizer ...

2016-08-12 13:19
浏览 500
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

KNN（转）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

KNN（转）

评论

发表评论

相关推荐

sklearn聚类之kmeans以及增量聚类

spark进行svd降维和kmeans聚类

spark 的 itemcf推荐

卡方检验提取特征来对文本分类

计算文本词频进行聚类

sklearn文本聚类

TensorFlow 的SSE avx fma安装

(转载)Seq2SeqModel参数

(转载)基于CRF的中文分词

(转载)jieba全应用入门

(转载)汉语词性对照表[北大标准/中科院标准]

(转)python的nltk中文使用和学习资料汇总帮你入门提高

windows下python中运用libsvm的配置(转载)

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

在eclipse上搭建spark的java开发环境

用Spark ALS通过预测推荐电影(python)

Spark ALS推荐系统简单例子(python)

spark web ui 开启history server

Ubuntu下spark安装

sklearn学习--文本分类多分类应用

最近访客更多访客>>