论坛首页 Java企业应用论坛

发布IK Analyzer 3.0 中文分词器

浏览 66087 次
该帖已经被评为精华帖
作者 正文
   发表时间:2009-07-21  
楼主的东东,我已经接触过,这个东东一定也错不了的。收藏了。
0 请登录后投票
   发表时间:2009-07-21  
linliangyi2007 写道
melin 写道
在企业应用中,lucene 和权限结合比较难


从RBAC的数据结构机理上看,应该是不会的,而且我们公司的知识库已经成功实现了权限管理,当然是使用lucene的全文检索。


有空写篇文章,分享一下您宝贵的经验!
0 请登录后投票
   发表时间:2009-07-22  
顶好贴是javaeyer的义务。

0 请登录后投票
   发表时间:2009-07-22  
不错,用过ik ,很不错。
我记得还有一个中文分词,paoding,也不错的..
0 请登录后投票
   发表时间:2009-07-22  
不错,感谢LZ
0 请登录后投票
   发表时间:2009-07-22  
想看看和庖丁解牛分词的对比
0 请登录后投票
   发表时间:2009-07-22  
Very strong
0 请登录后投票
   发表时间:2009-07-22  
在以前项目中我采用的是切切兄的庖丁解牛,下个项目尝试一下IK
0 请登录后投票
   发表时间:2009-07-22  
好贴
楼主能不能介绍一下分页的方法

我用的是Lucene2.4
我的程序里面是这样分页的,这样分页的坏处就是,比如说有10000条记录被查出来了,要看9000多条的时候
ScoreDoc[] hits对象就要装9000多条记录,然后再去取相应的Document
//创建Query,QueryParser对象,根据Field建立的索引的KEY来搜,并设置要搜的内容
Query query = null;
try {
	query = new QueryParser("description",new ChineseAnalyzer()).parse(keyword);
} catch (ParseException e) {
	e.printStackTrace();
	return;
}
//默认查询出来的数量
int maxFind = 50;
//offset表示分页的从多少条开始
if(offset >= 30){
   maxFind = maxFind + offset;
}
TopDocCollector collector = new TopDocCollector(maxFind);
//查找
indexSearch.search(query,collector);
ScoreDoc[] hits = collector.topDocs().scoreDocs;
int max = offset+10; 
if(offset+10>hits.length){
	max = hits.length;
}
for(int i=offset;i<max;++i) {
//找到这个Document原来的索引值
int docId = hits[i].doc;
//根据这个值找到对象的Document
Document d = indexSearch.doc(docId);
Article article = new Article();
article.setId(d.get("id"));
article.setTitle(Article.addHightlights(d.get("title"), keyword));
article.setCountent(Article.addHightlights(d.get("des"), keyword));		   
list.add(article);
}



还有一个问题就是加高亮,这个怎么办啊,我都是自己写的方法来加的,这个Lucene里面非核心包有的,怎么用啊,能分享一下不

还有,我在官方看到了
http://hudson.zones.apache.org/hudson/job/Lucene-trunk/javadoc//contrib-analyzers/org/apache/lucene/analysis/cn/package-summary.html
还有这样一个类
SmartChineseAnalyzer
介绍还是比较强大的
比如说:
ChineseAnalyzer: 我-是-中-国-人
CJKAnalyzer: 我是-是中-中国-国人
SmartChineseAnalyzer: 我-是-中国-人

我一直没有下到这个JAR。。。。。你能帮一下不。。。谢谢了,非常感谢
0 请登录后投票
   发表时间:2009-07-22  
能不能有个人做个测试,测试没种中分词器的性能,看看谁的最好.
IK宣称每秒能到50W,庖丁似乎是每秒20W,差不少.
希望有个中间人做个对比测试
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics