`
strayly
  • 浏览: 97458 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

使用WVTool进行文本分类

阅读更多
import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.Calendar;
import java.util.List;

import edu.udo.cs.wvtool.config.WVTConfiguration;
import edu.udo.cs.wvtool.config.WVTConfigurationFact;
import edu.udo.cs.wvtool.generic.output.WordVectorWriter;
import edu.udo.cs.wvtool.generic.stemmer.DummyStemmer;
import edu.udo.cs.wvtool.generic.stemmer.WVTStemmer;
import edu.udo.cs.wvtool.generic.tokenizer.WVTTokenizer;
import edu.udo.cs.wvtool.generic.vectorcreation.TFIDF;
import edu.udo.cs.wvtool.generic.wordfilter.DummyWordFilter;
import edu.udo.cs.wvtool.generic.wordfilter.WVTWordFilter;
import edu.udo.cs.wvtool.main.WVTDocumentInfo;
import edu.udo.cs.wvtool.main.WVTFileInputList;
import edu.udo.cs.wvtool.main.WVTWordVector;
import edu.udo.cs.wvtool.main.WVTool;
import edu.udo.cs.wvtool.wordlist.WVTWordList;

public class MyTest{

     public static void main(String[] args) throws Exception {
    	 //初始化一个WVTool对象
        WVTool wvt = new WVTool(false);

        //初始化一个configuration对象
        WVTConfiguration config = new WVTConfiguration();

       WVTStemmer stemmer = new DummyStemmer();
        WVTTokenizer tk = new ChineseTokenizer();

        //DummyStopWordFilter filter = new DummyStopWordFilter();
        WVTWordFilter filter = new DummyWordFilter();
        
               
        config.setConfigurationRule(WVTConfiguration.STEP_TOKENIZER, new WVTConfigurationFact(tk));
        config.setConfigurationRule(WVTConfiguration.STEP_STEMMER, new WVTConfigurationFact(stemmer));
        config.setConfigurationRule(WVTConfiguration.STEP_WORDFILTER, new WVTConfigurationFact(filter));

         WVTFileInputList list = new WVTFileInputList(2);
        
        // Add entries
        //为输入添加一个文档信息对象 (WVTDocumentInfo),其中sourceName对象可以是一个文件夹的名称,也可以是一个文件名称, 最后一个0这个文档信息对象的类别 
        //样本数据
        //list.addEntry(new WVTDocumentInfo("a.txt", "txt", "", "", 0));
        //list.addEntry(new WVTDocumentInfo("b.txt", "txt", "", "", 1));
        list.addEntry(new WVTDocumentInfo("D:/temp/1", "txt", "", "chinese", 0));
        list.addEntry(new WVTDocumentInfo("D:/temp/2", "txt", "", "chinese", 1));
        
        //生成wordList
        WVTWordList wordList = wvt.createWordList(list, config);
        //对wordList中词频做出一个限制,即词频在1<n<5之间
        wordList.pruneByFrequency(1, 5);

        //生成词组文件
        wordList.storePlain(new FileWriter("wordlist.txt"));
        
        // 生成词频文件  
        wordList.store(new FileWriter("wordVector.txt"));
        
        //将生成的文本向量空间写入一个特定的文件
        FileWriter outFile = new FileWriter("wv.txt");
        
        //DummyWordVectorWriter wvw = new DummyWordVectorWriter(outFile, true);
        WordVectorWriter wvw = new WordVectorWriter(outFile,true); 

        config.setConfigurationRule(WVTConfiguration.STEP_OUTPUT, new WVTConfigurationFact(wvw));
        config.setConfigurationRule(WVTConfiguration.STEP_VECTOR_CREATION, new WVTConfigurationFact(new TFIDF()));

        //Create the vectors
        WVTWordVector[] vectors = wvt.createVectors(list, config, wordList,null);

        //Close the output file
        wvw.close();
        outFile.close();

        // 一个使用wordList构建文本空间向量的实例
        //WVTWordVector q = wvt.createVector("cmu harvard net", wordList);
        
        //测试的文本
        WVTDocumentInfo d = new WVTDocumentInfo("", "txt", "", "chinese");  
        //测试文本的内容
        String txt = getContent("test.txt");
        //根据wordlist和config 生成向量
    	WVTWordVector q = wvt.createVector(txt, d, config, wordList);

        FileWriter outFile1 = new FileWriter("test_wv1.txt");
        WordVectorWriter wvw1 = new WordVectorWriter(outFile1, true);       
        wvw1.write(q);        
        wvw1.close();
        outFile1.close();
        
        //knn算法分类
        KNN knn = new KNN();	  
        //分类结果
        List result = knn.LazyLearning(q, vectors, list.getNumClasses());	     	        
        for(int i=0;i<result.size();i++){
        	CategoryResult cr = (CategoryResult) result.get(i);
        	System.out.println("rs:"+cr.getCategoryName()+" "+cr.getSimilarity());
        }

    }
     
 	public static String getContent(String file) throws IOException{
		File myfile = new File(file);
        if (!myfile.exists()) {
          return "";
        }
        File f=new File(file);
        InputStreamReader  read = new InputStreamReader (new FileInputStream(f));
        BufferedReader reader = new BufferedReader(read);
        String line;
        String strContent = "";
        while((line=reader.readLine())!=null){
        	strContent+=line;
        }
        return strContent;

	}
     
}
分享到:
评论
1 楼 jyjsjd 2012-03-22  
请教博主这个ChineseTokenizer()你是怎么写的,能否共享一下?

相关推荐

    文本向量化WVTool使用 和 原程序讲解

    对于做文本分类的研究者来说,要做的第一步就是要将文本向量化,然后在向量空间中对文本进行研究。这样就出现了一个问题,如何将文本向量化?WVTool是一款开源软件,它主要做文本词频方面的处理,对于实现文本向量化...

    wvtool官方文档

    3. **文本分类、聚类与可视化**:使用WVTool操作符进行文本分类、聚类以及可视化等高级任务。 4. **参数优化**:通过调整参数设置以优化模型性能。 5. **词表管理**:创建、维护和更新词表,用于改进词向量的质量。 ...

    wvtool使用手册

    这份教程详细介绍了 `wvtool` 的使用方法和高级特性,包括如何进行更复杂的操作,如自定义输出格式、处理错误以及与其他工具集成。阅读这份文档能帮助你深入理解 `wvtool` 的全部功能,并能够熟练地将其应用于实际...

    wvtool WORD VWCTOR TOOL

    使用**wvtool**这样的工具,开发者和研究人员可以更高效地进行文本数据分析,比如情感分析、文本分类、机器翻译、问答系统等任务。通过将文本转换为向量,复杂的语言问题可以通过数学运算来解决,大大简化了自然语言...

    文本矢量生成工具java

    使用者可以通过这个工具对英文文本进行上述处理,无需手动实现这些复杂算法,极大地提高了工作效率。同时,由于它是开源的,开发者可以查看和修改源代码,以适应特定需求,或者贡献新的功能。 总的来说,"文本矢量...

    rapidminer-lib1

    在RapidMiner中,WVTool接口可能用于预处理文本数据,提取有意义的特征,为文本分类、情感分析等任务提供支持。 7. **详细帮助文档**: 提到的lib包中的详细帮助文档是英文版的,这对于用户深入理解和使用RapidMiner...

    窗函数仿真1

    - 使用`fft`函数进行FFT计算时,通常会使用`nextpow2`函数确保NFFT为2的幂,以提高计算效率。 总的来说,窗函数是MATLAB中进行信号分析和频谱估计的重要工具,选择合适的窗函数能有效改善频谱泄漏问题,提高频谱...

    MATLAB的窗函数数字滤波器设计.pdf

    本文档主要讨论了利用MATLAB进行窗函数数字滤波器设计的方法,包括有限脉冲响应(FIR)滤波器和无限脉冲响应(IIR)滤波器的设计,并对比了不同窗函数在设计中的使用和效果。 首先,要了解窗函数在时域和频域的特性...

    频谱窗口函数

    下面的MATLAB代码演示了如何使用汉宁窗对原始信号进行加窗处理,以及比较加窗前后的频谱泄漏情况。代码首先创建一个包含三个不同频率正弦波的信号,然后应用汉宁窗,再计算加窗后的频谱。结果表明,加窗虽然减少了...

    求实验数据的spwvd分布,包括功率谱,二维以及三维spwvd分布,你指的拥有,完美运行

    在MATLAB中,我们可以使用`wvtool`或自定义函数来计算SPWVD。 接下来,让我们详细解释如何在MATLAB中计算SPWVD。通常,我们需要以下步骤: 1. **导入数据**:首先,你需要将实验数据导入MATLAB。这可以通过`load`...

    基于Matlab的窗函数数字滤波器设计.pdf

    - `wvtool`函数则提供了一个可视化的界面,可以同时展示窗函数的时域和频域特性,对于Kaiser、Blackman、Rectangle、Hanning、Hamming和Gaussian等窗函数,都可以通过该工具进行分析。 2. 低通滤波器设计 - 设计...

Global site tag (gtag.js) - Google Analytics