阅读更多

2顶
0踩

开源软件
snailseg是一个使用Python编写的简单的中文分词库。

项目地址:https://github.com/fxsjy/snailseg
在线分词效果展示:https://snailsegdemo.appspot.com/(使用代理访问)

使用方法

  1. 将snailseg目录放置于当前目录或者site-packages目录
  2. import snailseg
代码示例
import snailseg
words = snailseg.cut("南京市长江大桥")
for w in words:
    print w

算法

算法是统计单字在词语中出现位置的概率大小,选择最大可能的分词方案。算法很简单,只有100行纯Python代码。

性能

  • 测试环境:Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《围城》.txt
  • 速度:700 KB/Second
示例

来自: github.com
2
0
评论 共 5 条 请登录后发表评论
5 楼 fxsjy 2012-09-19 13:13
ansjsun 写道
fxsjy 写道
ansjsun 写道
支持呵呵.这几天我也一直在做这个呢...你的网站貌似打不开了....

我的演示网站放在Google App Engine上,在国内有些地方可以上,有些地方被墙了。

我看了下效果呵呵还好吧..但是有几个不好的case
他 / 说 / 的确 / 实在 / 理 /
长春市 / 长春 / 节 / 讲话 /
结婚 / 的 / 和尚 / 未 / 结婚 / 的 /
结合 / 成分 / 子时 /
旅游 / 和服 / 务 / 是 / 最好 / 的 /


的确有这个问题,因为我的算法是从左往右匹配的,而你这几个case刚好是challenge这个算法的,这几个case如果从右往左匹配就没问题。
4 楼 ansjsun 2012-09-19 13:02
这个是我的例子呢http://www.ansj.org/demo/seg.jsp
3 楼 ansjsun 2012-09-19 13:00
fxsjy 写道
ansjsun 写道
支持呵呵.这几天我也一直在做这个呢...你的网站貌似打不开了....

我的演示网站放在Google App Engine上,在国内有些地方可以上,有些地方被墙了。

我看了下效果呵呵还好吧..但是有几个不好的case
他 / 说 / 的确 / 实在 / 理 /
长春市 / 长春 / 节 / 讲话 /
结婚 / 的 / 和尚 / 未 / 结婚 / 的 /
结合 / 成分 / 子时 /
旅游 / 和服 / 务 / 是 / 最好 / 的 /

2 楼 fxsjy 2012-09-19 12:56
ansjsun 写道
支持呵呵.这几天我也一直在做这个呢...你的网站貌似打不开了....

我的演示网站放在Google App Engine上,在国内有些地方可以上,有些地方被墙了。
1 楼 ansjsun 2012-09-19 12:49
支持呵呵.这几天我也一直在做这个呢...你的网站貌似打不开了....

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Global site tag (gtag.js) - Google Analytics