使用WVTool进行文本分类

strayly

浏览: 98899 次
性别:
来自: 上海

最近访客更多访客>>

士大夫地方

孤狼18

pengcong90

yjlhope

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据挖掘

Java 算法 F#.net

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.Calendar;
import java.util.List;

import edu.udo.cs.wvtool.config.WVTConfiguration;
import edu.udo.cs.wvtool.config.WVTConfigurationFact;
import edu.udo.cs.wvtool.generic.output.WordVectorWriter;
import edu.udo.cs.wvtool.generic.stemmer.DummyStemmer;
import edu.udo.cs.wvtool.generic.stemmer.WVTStemmer;
import edu.udo.cs.wvtool.generic.tokenizer.WVTTokenizer;
import edu.udo.cs.wvtool.generic.vectorcreation.TFIDF;
import edu.udo.cs.wvtool.generic.wordfilter.DummyWordFilter;
import edu.udo.cs.wvtool.generic.wordfilter.WVTWordFilter;
import edu.udo.cs.wvtool.main.WVTDocumentInfo;
import edu.udo.cs.wvtool.main.WVTFileInputList;
import edu.udo.cs.wvtool.main.WVTWordVector;
import edu.udo.cs.wvtool.main.WVTool;
import edu.udo.cs.wvtool.wordlist.WVTWordList;

public class MyTest{

     public static void main(String[] args) throws Exception {
    	 //初始化一个WVTool对象
        WVTool wvt = new WVTool(false);

        //初始化一个configuration对象
        WVTConfiguration config = new WVTConfiguration();

       WVTStemmer stemmer = new DummyStemmer();
        WVTTokenizer tk = new ChineseTokenizer();

        //DummyStopWordFilter filter = new DummyStopWordFilter();
        WVTWordFilter filter = new DummyWordFilter();
        
               
        config.setConfigurationRule(WVTConfiguration.STEP_TOKENIZER, new WVTConfigurationFact(tk));
        config.setConfigurationRule(WVTConfiguration.STEP_STEMMER, new WVTConfigurationFact(stemmer));
        config.setConfigurationRule(WVTConfiguration.STEP_WORDFILTER, new WVTConfigurationFact(filter));

         WVTFileInputList list = new WVTFileInputList(2);
        
        // Add entries
        //为输入添加一个文档信息对象 （WVTDocumentInfo）,其中sourceName对象可以是一个文件夹的名称，也可以是一个文件名称, 最后一个0这个文档信息对象的类别 
        //样本数据
        //list.addEntry(new WVTDocumentInfo("a.txt", "txt", "", "", 0));
        //list.addEntry(new WVTDocumentInfo("b.txt", "txt", "", "", 1));
        list.addEntry(new WVTDocumentInfo("D:/temp/1", "txt", "", "chinese", 0));
        list.addEntry(new WVTDocumentInfo("D:/temp/2", "txt", "", "chinese", 1));
        
        //生成wordList
        WVTWordList wordList = wvt.createWordList(list, config);
        //对wordList中词频做出一个限制，即词频在1<n<5之间
        wordList.pruneByFrequency(1, 5);

        //生成词组文件
        wordList.storePlain(new FileWriter("wordlist.txt"));
        
        // 生成词频文件  
        wordList.store(new FileWriter("wordVector.txt"));
        
        //将生成的文本向量空间写入一个特定的文件
        FileWriter outFile = new FileWriter("wv.txt");
        
        //DummyWordVectorWriter wvw = new DummyWordVectorWriter(outFile, true);
        WordVectorWriter wvw = new WordVectorWriter(outFile,true); 

        config.setConfigurationRule(WVTConfiguration.STEP_OUTPUT, new WVTConfigurationFact(wvw));
        config.setConfigurationRule(WVTConfiguration.STEP_VECTOR_CREATION, new WVTConfigurationFact(new TFIDF()));

        //Create the vectors
        WVTWordVector[] vectors = wvt.createVectors(list, config, wordList,null);

        //Close the output file
        wvw.close();
        outFile.close();

        // 一个使用wordList构建文本空间向量的实例
        //WVTWordVector q = wvt.createVector("cmu harvard net", wordList);
        
        //测试的文本
        WVTDocumentInfo d = new WVTDocumentInfo("", "txt", "", "chinese");  
        //测试文本的内容
        String txt = getContent("test.txt");
        //根据wordlist和config 生成向量
    	WVTWordVector q = wvt.createVector(txt, d, config, wordList);

        FileWriter outFile1 = new FileWriter("test_wv1.txt");
        WordVectorWriter wvw1 = new WordVectorWriter(outFile1, true);       
        wvw1.write(q);        
        wvw1.close();
        outFile1.close();
        
        //knn算法分类
        KNN knn = new KNN();	  
        //分类结果
        List result = knn.LazyLearning(q, vectors, list.getNumClasses());	     	        
        for(int i=0;i<result.size();i++){
        	CategoryResult cr = (CategoryResult) result.get(i);
        	System.out.println("rs:"+cr.getCategoryName()+" "+cr.getSimilarity());
        }

    }
     
 	public static String getContent(String file) throws IOException{
		File myfile = new File(file);
        if (!myfile.exists()) {
          return "";
        }
        File f=new File(file);
        InputStreamReader  read = new InputStreamReader (new FileInputStream(f));
        BufferedReader reader = new BufferedReader(read);
        String line;
        String strContent = "";
        while((line=reader.readLine())!=null){
        	strContent+=line;
        }
        return strContent;

	}
     
}

分享到：

使用bobo-browse 实现lucene的分组统计

2010-03-22 08:16
浏览 3823
评论(1)
分类:编程语言
查看更多

1 楼 jyjsjd 2012-03-22

请教博主这个ChineseTokenizer()你是怎么写的，能否共享一下？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用WVTool进行文本分类

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

使用WVTool进行文本分类

评论

发表评论

相关推荐

sklearn聚类之kmeans以及增量聚类

spark进行svd降维和kmeans聚类

spark 的 itemcf推荐

卡方检验提取特征来对文本分类

计算文本词频进行聚类

sklearn文本聚类

TensorFlow 的SSE avx fma安装

(转载)Seq2SeqModel参数

(转载)基于CRF的中文分词

(转载)jieba全应用入门

(转载)汉语词性对照表[北大标准/中科院标准]

(转)python的nltk中文使用和学习资料汇总帮你入门提高

windows下python中运用libsvm的配置(转载)

pyspark在windows下java.net.SocketException: Connection reset by peer 错误

在eclipse上搭建spark的java开发环境

用Spark ALS通过预测推荐电影(python)

Spark ALS推荐系统简单例子(python)

spark web ui 开启history server

Ubuntu下spark安装

sklearn学习--文本分类多分类应用

最近访客更多访客>>