论坛首页 Java企业应用论坛

中文分词 mmseg4j

浏览 21391 次
该帖已经被评为良好帖
作者 正文
   发表时间:2009-04-07   最后修改:2009-04-07
chenlb 写道
mikeandmore 写道
呃。。。忘了说了。。。
性能。。我这个项目的目的是性能的。。。


1.5版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右,(测试机:AMD athlon 64 2800+ 1G内存 xp)。

simple > paoding(900Kb/s左右) > complex > ik & mik > je

后续的版本努力提升性能....

C版本,2.6M/s
python版本惨不忍睹。。。。。T_T
但是如果不对结果进行字符串拷贝的话。
python wrapper是1.16M/s

都是complex算法
0 请登录后投票
   发表时间:2009-04-07   最后修改:2009-04-07
mikeandmore 写道
chenlb 写道
mikeandmore 写道
呃。。。忘了说了。。。
性能。。我这个项目的目的是性能的。。。


1.5版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右,(测试机:AMD athlon 64 2800+ 1G内存 xp)。

simple > paoding(900Kb/s左右) > complex > ik & mik > je

后续的版本努力提升性能....

C版本,2.6M/s
python版本惨不忍睹。。。。。T_T
但是如果不对结果进行字符串拷贝的话。
python wrapper是1.16M/s

都是complex算法


如果对结果拷贝, 是多少? 你机器怎么样?

我测试的都是分出词的, 近10M的几篇小说进行,5次测试的平均值.
0 请登录后投票
   发表时间:2009-04-07   最后修改:2009-04-07

python的太慢了。。。没办法,我的核心库只负责计算下一个分词词的长度,Python的[:]来substring实在开销太大了。。。现在正在把以前的换成StringIO。。。然后再测试看看,以前比较土,不知道有StringIO这东西。。。T_T

C的和以前差不多。。。2.36M/s
我的测试环境P4 3.06G, 1.5GDDR2, debian Linux2.6.26

0 请登录后投票
   发表时间:2009-04-07  
或许是搜狗词库?
我用的就是mmseg-cpp那个词库的。。。
0 请登录后投票
   发表时间:2009-04-07  
刚才改成了StringIO。
Python拷贝词结果能到1.16M/s。竟然能和以前一样。。。
0 请登录后投票
   发表时间:2009-04-07  
mikeandmore 写道
或许是搜狗词库?
我用的就是mmseg-cpp那个词库的。。。


词库基本没影响, 可能是还有不必要的数组复制.
0 请登录后投票
   发表时间:2009-04-12  
mikeandmore 写道

刚才改成了StringIO。Python拷贝词结果能到1.16M/s。竟然能和以前一样。。。


1.7 beta 版的可能能与你的pk, 我机子上 complex 是 1200kb/s左右
0 请登录后投票
   发表时间:2009-04-14  
chenlb 写道
mikeandmore 写道

刚才改成了StringIO。Python拷贝词结果能到1.16M/s。竟然能和以前一样。。。


1.7 beta 版的可能能与你的pk, 我机子上 complex 是 1200kb/s左右

啊,我明天测试一下。。。  
0 请登录后投票
   发表时间:2009-04-15  
囧,为什么出来的结果都是乱码啊。。。。。。
0 请登录后投票
   发表时间:2009-04-15   最后修改:2009-04-15
===========================MMSEG4J=============================
mikeandmore% time java -cp build/mmseg4j-1.7-beta.jar:. Performance /mnt/source/workspace/segc > /dev/null 2>/dev/null
java -cp build/mmseg4j-1.7-beta.jar:. Performance /mnt/source/workspace/segc   8.68s user 0.30s system 100% cpu 8.912 total

=============================SEGC==============================
C Version:
mikeandmore% time ./test > /dev/null 2>/dev/null
./test > /dev/null 2> /dev/null  5.57s user 0.28s system 99% cpu 5.871 total

Python Version:
mikeandmore% time python test_per.py >/dev/null 2>/dev/null
python test_per.py > /dev/null 2> /dev/null  17.32s user 0.26s system 99% cpu 17.593 total
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics