简单比较IKAnalyzer和je-analysis中文分词包

googya

浏览: 146106 次
性别:
来自: 汉川

最近访客更多访客>>

fh0001234

xtoo8672

zzc125

lingchenV

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎

Ajax 全文检索 lucene 算法 J#

最近在突然对全文信息检索有了兴趣，本来嘛，以前是学信息管理的，对全文信息检索有一定的了解，不过只是停留在理论上的，具体的如何操作没有什么概念，现在有一点空闲时间，来研究研究。
研究全文信息检索的，对于Lucene应该多少有一点的了解吧。当然它自己本身有分词的功能，但主要是在英文环境下面，所以对中文的支持不是好，但是它提供了一个接口，可以让其他的分词包能使用。下面简单的比较一下ikanalyzer和je-analysis这两个中文分词包，主要是它们对中文分词的效果的比较。下面是一段代码

String text = "IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。它使用了全新的正向迭代最细粒度切分算法。";

        //实例化IKAnalyzer分词器
        Analyzer analyzer = new IKAnalyzer();
        //以下是对文本进行分词的试验！
        String text2 = "ajax是我比较喜欢的技术，我am是ajax";
        StringReader sr = new StringReader(text2);
        TokenStream ts = analyzer.tokenStream("s", sr);
        Token t = ts.next();
        int j = 0;
        while (t != null) {
            System.out.print(t.termText() + " | ");
            t = ts.next();
            j++;
        }
        System.out.println("\n");
        MMAnalyzer analyzer1 = new MMAnalyzer();
        try {
            System.out.println(analyzer1.segment(text2, " | "));
        } catch (IOException e) {
            e.printStackTrace();
        }

其结果：

ajax | 是 | 我 | 比较 | 喜欢 | 的 | 技术 | 我 | am | 是 | ajax |
ajax | 是我 | 比较 | 喜欢 | 技术 | am | ajax |

我觉得还是IKAnaylzer得中文分词效果稍微好一点。当然这里只是举一个简单的例子，理由不是很充分，但至少能说明一点问题。中文分词还是蛮有意思的，希望大家能多交流交流。我是抛砖了，希望能吸引个把玉过来！

1
顶

0
踩

分享到：

用JRuby写个小MIDI | 算法之贪心

2009-07-22 13:16
浏览 8017
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论