论坛首页 Java企业应用论坛

cwss bug 修复

浏览 1274 次
锁定老帖子 主题:cwss bug 修复
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2011-11-07  
修复的BUG有如下:
1、当只有中文、字母和数字,没有任何其他字符的情况下,出现切词在1分钟之上的问题。
2、过滤一些特殊字符。如:┌┍┎┏┐┑┒┓┄┈├┝┞
3、没有被切到的字符串进行规则调整。之前是二二切词。现在是1到3个字符,是不会被切词。超过三个字符以上,按一一切词。
4、调整歧义词的规则。如:信息战。被切词为信息/息战。那么,现在可能被切词成信息/战。
5、挖掘新词。在没有被切词的字符串会被保存下来,保存路径是根目录/t.txt中。假设需要挖掘新词,那么请运行
List<String> noFindWordList = new ArrayList<String>();
newWordAnalyzer wordExcavate = new newWordAnalyzer(noFindWordList);
挖掘出有可能是新词会保存在noFindWordList中。
建议,挖掘出来的新词有可能不是一个通顺的词语。所以需要人工审核一下新词。
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics