锁定老帖子 主题:中文分词 mmseg4j
该帖已经被评为良好帖
|
|
---|---|
作者 | 正文 |
发表时间:2009-04-07
最后修改:2009-04-07
chenlb 写道 mikeandmore 写道 呃。。。忘了说了。。。
性能。。我这个项目的目的是性能的。。。 1.5版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右,(测试机:AMD athlon 64 2800+ 1G内存 xp)。 simple > paoding(900Kb/s左右) > complex > ik & mik > je 后续的版本努力提升性能.... C版本,2.6M/s python版本惨不忍睹。。。。。T_T 但是如果不对结果进行字符串拷贝的话。 python wrapper是1.16M/s 都是complex算法 |
|
返回顶楼 | |
发表时间:2009-04-07
最后修改:2009-04-07
mikeandmore 写道 chenlb 写道 mikeandmore 写道 呃。。。忘了说了。。。
性能。。我这个项目的目的是性能的。。。 1.5版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右,(测试机:AMD athlon 64 2800+ 1G内存 xp)。 simple > paoding(900Kb/s左右) > complex > ik & mik > je 后续的版本努力提升性能.... C版本,2.6M/s python版本惨不忍睹。。。。。T_T 但是如果不对结果进行字符串拷贝的话。 python wrapper是1.16M/s 都是complex算法 如果对结果拷贝, 是多少? 你机器怎么样? 我测试的都是分出词的, 近10M的几篇小说进行,5次测试的平均值. |
|
返回顶楼 | |
发表时间:2009-04-07
最后修改:2009-04-07
python的太慢了。。。没办法,我的核心库只负责计算下一个分词词的长度,Python的[:]来substring实在开销太大了。。。现在正在把以前的换成StringIO。。。然后再测试看看,以前比较土,不知道有StringIO这东西。。。T_T C的和以前差不多。。。2.36M/s 我的测试环境P4 3.06G, 1.5GDDR2, debian Linux2.6.26 |
|
返回顶楼 | |
发表时间:2009-04-07
或许是搜狗词库?
我用的就是mmseg-cpp那个词库的。。。 |
|
返回顶楼 | |
发表时间:2009-04-07
刚才改成了StringIO。
Python拷贝词结果能到1.16M/s。竟然能和以前一样。。。 |
|
返回顶楼 | |
发表时间:2009-04-07
mikeandmore 写道 或许是搜狗词库?
我用的就是mmseg-cpp那个词库的。。。 词库基本没影响, 可能是还有不必要的数组复制. |
|
返回顶楼 | |
发表时间:2009-04-12
mikeandmore 写道 刚才改成了StringIO。Python拷贝词结果能到1.16M/s。竟然能和以前一样。。。 1.7 beta 版的可能能与你的pk, 我机子上 complex 是 1200kb/s左右 |
|
返回顶楼 | |
发表时间:2009-04-14
chenlb 写道 mikeandmore 写道 刚才改成了StringIO。Python拷贝词结果能到1.16M/s。竟然能和以前一样。。。 1.7 beta 版的可能能与你的pk, 我机子上 complex 是 1200kb/s左右 啊,我明天测试一下。。。 |
|
返回顶楼 | |
发表时间:2009-04-15
囧,为什么出来的结果都是乱码啊。。。。。。
|
|
返回顶楼 | |
发表时间:2009-04-15
最后修改:2009-04-15
===========================MMSEG4J=============================
mikeandmore% time java -cp build/mmseg4j-1.7-beta.jar:. Performance /mnt/source/workspace/segc > /dev/null 2>/dev/null java -cp build/mmseg4j-1.7-beta.jar:. Performance /mnt/source/workspace/segc 8.68s user 0.30s system 100% cpu 8.912 total =============================SEGC============================== C Version: mikeandmore% time ./test > /dev/null 2>/dev/null ./test > /dev/null 2> /dev/null 5.57s user 0.28s system 99% cpu 5.871 total Python Version: mikeandmore% time python test_per.py >/dev/null 2>/dev/null python test_per.py > /dev/null 2> /dev/null 17.32s user 0.26s system 99% cpu 17.593 total |
|
返回顶楼 | |