浏览 1274 次
锁定老帖子 主题:cwss bug 修复
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2011-11-07
1、当只有中文、字母和数字,没有任何其他字符的情况下,出现切词在1分钟之上的问题。 2、过滤一些特殊字符。如:┌┍┎┏┐┑┒┓┄┈├┝┞ 3、没有被切到的字符串进行规则调整。之前是二二切词。现在是1到3个字符,是不会被切词。超过三个字符以上,按一一切词。 4、调整歧义词的规则。如:信息战。被切词为信息/息战。那么,现在可能被切词成信息/战。 5、挖掘新词。在没有被切词的字符串会被保存下来,保存路径是根目录/t.txt中。假设需要挖掘新词,那么请运行 List<String> noFindWordList = new ArrayList<String>(); newWordAnalyzer wordExcavate = new newWordAnalyzer(noFindWordList); 挖掘出有可能是新词会保存在noFindWordList中。 建议,挖掘出来的新词有可能不是一个通顺的词语。所以需要人工审核一下新词。 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |