先记一下LUCENE几行代码

httpclient_bd

浏览: 73952 次
性别:
来自: 北京

最近访客更多访客>>

joenali550

hanyi366

xaofeixa

lingyunfuyu1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

一些测试代码

lucene F#

by Alex

--------
前几天写了个文本自动分类的小程序，用到了Lucene，用向量空间夹角的方式经过对大量英文文本测试能达到70%左右的识别率。因为对Lucene不太熟悉，不过程序本身有进一步的优化空间，正在尝试优化，另一方面用神经网络来再做一个分类器，做完之后再贴测试结果的比照吧。

网上搜到的似乎都是早点版本的Lucene文章，先记一下3.x后的Lucene用到的一些API
1，建立index

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
......
doc.add(new Field("content", new FileReader(f), Field.TermVector.WITH_POSITIONS_OFFSETS));
		doc.add(new Field("category", getClass(f), Field.Store.YES, Field.Index.NOT_ANALYZED));
		doc.add(new Field("filename", f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED));

2，获取TermFreqVector（i为doc的idx）

TermFreqVector termFreqVector = reader.getTermFreqVector(i, "content");

3，分析器获取分词

Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
TokenStream stream = analyzer.tokenStream("content", new StringReader(content));
stream.addAttribute(TermAttribute.class);
while(stream.incrementToken()) {
    TermAttribute a = stream.getAttribute(TermAttribute.class);
}

4，补充个计算TFIDF的

Directory dir = new SimpleFSDirectory(new File(LuceneUtils.INDEX_BASE));
		IndexReader reader = IndexReader.open(dir);
		TermEnum enums = reader.terms();
		Similarity similarity = new DefaultSimilarity();
		int docs = reader.maxDoc();
		while(enums.next()){
			Term term = enums.term();
			if (term.field().equals("content")) {
				int freq = enums.docFreq();
				double tfidf = similarity.idf(freq,docs) * similarity.tf(freq);
			}
		}

分享到：

org.neuroph两个包-随笔

2010-05-29 23:16
浏览 985
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

先记一下LUCENE几行代码

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

先记一下LUCENE几行代码

评论

发表评论

相关推荐

初识HEROKU

java版hmac-md5 with hex

配置MAVEN的NEXUS私服

json-lib反射annotation自定义字段名的转换（bean2json_str）

jsonlib对date类型的双向转换

redhat下没装start-stop-daemon，手工编译安装的note

python zookeeper client报错

activemq JDBC M/S 配置的一些记录

limix to many open files

JDBC Master - Slave测试

GAE的WEB APP Server实现探索

resin xdebug

tokyotyrant-0.9-sources 的一些使用

自己实现OAUTH V1的consumer端协议的几个小总结

SHELL下FTP的一段代码

shell下的一段测试代码

单主机多实例跑一片ttserver， 代码备个份

ttserver管理

ttserver key value 导出

20101029 部署consumer的demo遇到的问题

最近访客更多访客>>

单主机多实例跑一片ttserver，代码备个份