`
edwardpro
  • 浏览: 310554 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

对于中文分词的简单思考

阅读更多

受了那么大的教训怎么也应该好好总结下了,下面随便说说吧。

1 词库问题
词库在分词中会非常重要,而且量比较大,这是一个很大的效率瓶颈,我个人觉得在这里应该做到如下的:

a) 多级分词 比如 字母+单字的两级索引这样效率稍高
b) 排除重复和陷阱,重复不多解释了,陷阱,我认为就是那种包含词,包含词的坏处很可能造成正确失效
c) 过长的词组的强制拦截,长词是毫无意义的,比如中华人民共和国,我认为这不是一个好词条,应该是中华 人民 共和国 这几个才对,如果用户的词库中包含过长的就应该强制处理

2 检错要求
JE分词的两大问题:1对于特殊字符有比较大的问题,这个问题一开始还没有发现,但在大规模抓取之后就非常严重了 2 错误的分词。
我个人觉得,分词一旦有错误完全应该选择单字法,这对于查询是有意义的,其实这类似与cjk的二分法看似愚蠢,但仔细看看其实却拥有不错的效果(效果是第一位的)

3 多样的接口
主要针对分词 文件 db 等等多种方式导入这是必须的。

接下来几天内抓紧实现下看看,不过在这里要好好地鄙视下JE分词的,虽然我是偷懒了,但这个分词的能力实在。。。不多说了,好多事情要做。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics