基于lucene的几种中文分词测试代码 -

he3109006290

浏览: 27609 次
性别:
来自: 广州

最近访客更多访客>>

xlzcimos

minxiaomin

zhanghua499

113779479

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

基于lucene的几种中文分词测试代码

博客分类：

lucene

/**
@本程序测试了四种中文分词（标准，ChineseAnayzer，je，Smart(基于中科院)）的方法，读者可以通过本程序分析学习这四种中文分词方法的优劣
@其中lucene采用的2.4.1最新版本，点击这里下载学习
@中科院分词java版学习和下载到这里
@je-Analyzer下载到这里
*/
public static void main(String[] args)
    {
        String text ="发展中国家在上海大学城购买了道具和服装" ;
        StandardAnalyzer analyzerStand = new StandardAnalyzer();//内置
        ChineseAnalyzer    chineseAnalyzer = new ChineseAnalyzer();//lucene2.4版本+
        CJKAnalyzer cjkanalyzer = new CJKAnalyzer();//亚洲字符分析器
        MMAnalyzer    analyzer = new MMAnalyzer();//je-analyzer
        Analyzer    smartChineseAnalyzer = new SmartChineseAnalyzer();//基于中科院
        try
        {
            AnalyzerUtils.displaytokens(analyzerStand, text);
            AnalyzerUtils.displaytokens(chineseAnalyzer, text);
            AnalyzerUtils.displaytokens(cjkanalyzer, text);
            AnalyzerUtils.displaytokens(smartChineseAnalyzer, text);
            AnalyzerUtils.displaytokens(analyzer, text);
        }
        catch (IOException e)
        {
                e.printStackTrace();
        }

Run and Show results:

从结果可以看出2点：
正确率： Je>=Smart>=二分法>=Chinese>=Stand
时间：     Stand<=二分法Chinese<= Smart<=Je
还有一点，就是经过几次分析后，可以明显看出基于中科院的那个分词时间明显下降一个数量级，没有仔细
研究，怀疑和隐马尔科夫模型有关。

其他的优劣请读者自我发掘，有问题麻烦告诉我，Thx。
http://hi.baidu.com/lewutian推荐文章:
1. VC MFC中设置对话框的背景色、背景图片
2. 将汉字转化为拼音实现中英文混合排序 pinyin4j
3. 1
4. 1
5. Lucene 2.2.0
6. 转一篇比较好的Lucene的文章
7. Lucene构架全文搜索引擎
8. lucene 对目录索引和搜索例子
9. 用开源软件构建垂直搜索引擎
10. Lucene简单使用
11. lucene中文切词（没加庖丁方法的）算法
12. lucene demo
13. 采访IK Analyzer 中文分词器开源项目作者林良益
14. Lucene中文分词下载
15. lucence 3.0 分词测试