发布 IK Analyzer 2012 版本

linliangyi2007

浏览: 1012990 次
性别:
来自: 福州

最近访客更多访客>>

anyitzy

pos3721

ymgjava

winco304

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

程序人生

java 中文分词 lucene

新版本改进：

支持分词歧义处理
支持数量词合并
词典支持中英文混合词语，如：Hold住

IK Analyzer 2012特性

采用了特有的“正向迭代最细粒度切分算法“，支持细粒度和智能分词两种切分模式；
在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。
2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符
优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。

分词效果示例
IK Analyzer 2012版本支持细粒度切分和智能切分，以下是两种切分方式的演示样例。

文本原文1:
IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了3个大版本。

智能分词结果:
ikanalyzer | 是 | 一个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级 | 的 | 中文 | 分词 | 工具包 | 从 | 2006年 | 12月 | 推出 | 1.0版 | 开始 | ikanalyzer | 已经 | 推 | 出了 | 3个 | 大 | 版本

最细粒度分词结果:
ikanalyzer | 是 | 一个 | 一 | 个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级 | 量级 | 的 | 中文 | 分词 | 工具包 | 工具 | 包 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer | 已经 | 推出 | 出了 | 3 | 个 | 大 | 版本

文本原文2:
张三说的确实在理

智能分词结果:
张三 | 说的 | 确实 | 在理

最细粒度分词结果:
张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在 | 在理

文本原文3
公路局正在治理解放大道路面积水问题

智能分词结果:
公路局 | 正在 | 治理 | 解放 | 大道 | 路面 | 积水 | 问题

最细粒度分词结果:
公路局 | 公路 | 路局 | 正在 | 治理 | 理解 | 解放 | 放大 | 大道 | 道路 | 路面 | 面积 | 积水 | 问题

文本原文4
据路透社报道，印度尼西亚社会事务部一官员星期二(29日)表示，日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡，20000余人受伤，近20万人无家可归。

智能分词结果:
据 | 路透社 | 报道 | 印度尼西亚 | 社会 | 事务部 | 一 | 官员 | 星期二 | 29日 | 表示 | 日 | 惹 | 市 | 附近 | 当地时间 | 27日 | 晨 | 5时 | 53分 | 发生 | 的 | 里氏 | 6.2级 | 地震 | 已经 | 造成 | 至少 | 5427人 | 死亡 | 20000 | 余人 | 受伤 | 近 | 20 | 万人 | 无家可归

最细粒度分词结果:
据 | 路透社 | 路透 | 社 | 报道 | 印度尼西亚 | 印度 | 尼 | 西亚 | 社会事务 | 社会 | 事务部 | 事务 | 部 | 一 | 官员 | 星期二 | 星期 | 二 | 29 | 日 | 表示 | 日 | 惹 | 市 | 附近 | 当地时间 | 当地 | 时间 | 27 | 日 | 晨 | 5 | 时 | 53 | 分发 | 分 | 发生 | 发 | 生 | 的 | 里氏 | 6.2 | 级 | 地震 | 已经 | 造成 | 至少 | 5427 | 人 | 死亡 | 20000 | 余人 | 受伤 | 近 | 20 | 万人 | 万 | 人 | 无家可归

GoogleCode下载：
http://code.google.com/p/ik-analyzer/downloads/list

分享到：

发布 IK Analyzer 2012 FF 版本 | CSDN发生严重用户账号泄密事件

2012-03-08 11:23
浏览 36176
评论(99)
分类:互联网
查看更多

19 楼 ningye 2012-03-20

您好，请教个问题，关于@+中文一起的分词，类似微博中的 @微博昵称，现在的分词结果@会直接被忽略掉（@+英文或者数字是可以的），怎样修改能让@+中文的情况下，@不丢失，谢谢！

18 楼 liaowb_1105 2012-03-16

解决了。。

17 楼 liaowb_1105 2012-03-15

期待您的回答

16 楼 liaowb_1105 2012-03-15

我想问下如果文章包括中文和西班牙语，然后我搜索的时候搜的是西班牙语能不能搜到呢

15 楼 dsf007 2012-03-15

希望您在发布更新的时候,能把src直接打包到"完整分发包"里,就更好了,这样学习源码时候资源都在一块,就更方便了.

14 楼 magic4u 2012-03-15

还有一个

linliangyi2007 写道

magic4u 写道

又有新版本发布了...我刚刚开始研究3.x版本啊。

另外，有个问题想请教一下，IK在运行期间的相似度是否是保存在内存中的？能否有方法将针对每个文档的相似度保存在硬盘上？

IK是个分词器，没有相似度的说法。
相似度是在lucene搜索中，给结果评分时用的。
相似度是根据你的关键字动态改变的，不存在存磁盘的说法

明白了，还有另外一个问题想请教一下，目前如果一段话中，中文和数字混排，比如"淮海中路1881号",分词的时候，1881的数字是不会拆分的，我怎么样才能够让1881也会拆分呢？是需要自己修改IK的代码么？理想状态下，我是想1881拆成1 18 188 1881，多谢了。

13 楼 linliangyi2007 2012-03-15

astrosy 写道

linliangyi2007 写道

astrosy 写道

现在有文章中含有“ST零七”这种又有中文又有英文的词，我不想分词，我在ext.dic中加了ST零七，还是会被拆分为ST\零七,请问有什么办法可以不拆分，谢谢

确保你的扩展词典被正确加载，2012版本支持中英文组合词语

谢谢~~现在已经可以正确使用

现在又遇到一个问题，我的字典里还需要“FE CONSORT INTL”这样的英文组合，但是现在加在字典里还是会被拆分，有没有什么办法？

这个就不可以了，因为分词器不能完全按照字典来切分的，它有既定的停止符号。

我不知道你做分词用来做啥？如果是做搜索，那么切分多个词并不影响。

如果你只是用来做词典匹配，并找出关键字，那么这个不是分词器的目标，

或者说板手可以偶尔当当锤子，当不能总当锤子用啊。

12 楼 astrosy 2012-03-15

linliangyi2007 写道

astrosy 写道

确保你的扩展词典被正确加载，2012版本支持中英文组合词语

11 楼 linliangyi2007 2012-03-14

astrosy 写道

确保你的扩展词典被正确加载，2012版本支持中英文组合词语

10 楼 astrosy 2012-03-14

9 楼 hhdem 2012-03-11

linliangyi2007 写道

hhdem 写道

ik 是否可以和 compass 结合使用？

Compass是集成lucene的，IKAnalyzer遵循Lucene3.3+的API标准，从这点上说，应该没有问题。
当然你要确认一下Compass用的lucene的版本，并参考IK的版本映射表（说明文档中有），找到对应的IK版本使用

确认过版本了目前compass最高2.2.0仅支持Lucene的2.4.1 看来要用老板的IKAnalyzer 等待compass更新了

8 楼 linliangyi2007 2012-03-10

hhdem 写道

ik 是否可以和 compass 结合使用？

7 楼 linliangyi2007 2012-03-10

astrosy 写道

linliangyi2007 写道

astrosy 写道

如果我不想用你的词库，只用我自己的词库，可以么

当然可以

请问要如何设置呢

两种方式：
1.重载Configuration类，设定你的词典加载路径
2.打开jar包中的main2012.dic文件，修改内容

6 楼 hhdem 2012-03-09

ik 是否可以和 compass 结合使用？

5 楼 astrosy 2012-03-09

linliangyi2007 写道

astrosy 写道

如果我不想用你的词库，只用我自己的词库，可以么

当然可以

请问要如何设置呢

4 楼 linliangyi2007 2012-03-09

astrosy 写道

如果我不想用你的词库，只用我自己的词库，可以么

当然可以

3 楼 astrosy 2012-03-08

如果我不想用你的词库，只用我自己的词库，可以么

2 楼 linliangyi2007 2012-03-08

magic4u 写道

IK是个分词器，没有相似度的说法。
相似度是在lucene搜索中，给结果评分时用的。
相似度是根据你的关键字动态改变的，不存在存磁盘的说法

1 楼 magic4u 2012-03-08

« 上一页 1 2 3 4 5 下一页 »

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论