`
mlzboy
  • 浏览: 727118 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

pymmseg

阅读更多
这个库还是不太好,分词有点问题,还会有乱码
#! /usr/bin/env python
#coding=utf-8
#import sys
#print sys.path
from pymmseg import mmseg
mmseg.dict_load_defaults()
import chardet
import redis
r=redis.Redis(host='10.3.11.178',port=6379,db=1)
#r['foo']='bar'
#print r.get('foo')
#print r.type("foo")
#r.rpush("aa","cc")
#print r.type("aa")
#print r.lindex('aa',0)
#print r.rpush("aa","dd")
#print r.lindex('aa',1)
#print "-------------"
#print len(r.lrange('aa',0,-1))
#print r.lrange('aa',0,-1)
print r.lrange('00000001',0,0)
a=r.lrange('00000001',0,0)[0]
print a
algor = mmseg.Algorithm(a)
for tok in algor:
    print "--"
    print chardet.detect(tok.text)
    print '%s [%d..%d]' % (tok.text, tok.start, tok.end)

结果如下:
> "C:\Python25\pythonw.exe"  "F:\dm_app\tag2\test\redis_test.py"
['\xc0\xf1\xba\xd0\xb0\xfc\xd7\xb0']
礼盒包装
--
{'confidence': 0.0, 'encoding': None}
礼 [0..2]
--
{'confidence': 0.505, 'encoding': 'utf-8'}
邪 [3..5]
--
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
装 [6..8]

你看多出个邪来了,whath's the hell?



分享到:
评论

相关推荐

    64位编译完成的pymmseg

    标题“64位编译完成的pymmseg”指的是一个专为64位操作系统编译优化的Python模块,名为pymmseg。这个模块是基于libsvm(支持向量机库)的一个扩展,它可能用于文本分词或者图像分割等涉及模式识别的任务。在64位系统...

    pymmseg-cpp python中文分词

    pymmseg-cpp is a Python port of the rmmseg-cpp project. rmmseg-cpp is a MMSEG Chinese word segmenting algorithm implemented in C++ with a Python interface.

    pymmseg -python分词模块

    python分词模块,基于mmseg算法编写,核心代码c++,提供python接口

    Python中文分词实现方法(安装pymmseg)

    在Python这pymmseg-cpp 还是十分方便的! 环境 ubuntu10.04 , python2.65 步骤: 1 下载mmseg-cpp的源代码 http://code.google.com/p/pymmseg-cpp/ 2 执行: tar -zxf pymmseg-cpp*.tar.gz //解压后得到pymmseg 目录...

    视觉软件.rar_halcon_vb.net_windows pymmseg_德国视觉软件_视觉软件

    利用德国HALCON低层二次开发的视觉软件!可判别有与无,角度,坐标,等等!

    基于redis的自动补全autocomplete-redis.zip

    安装pymmseg中文分词: pip install -e git://github.com/pluskid/pymmseg-cpp.git 依赖pymmseg中文分词,安装之。 安装autocomplete-redis: pip install -e git://github.com/fengli/autocomplete-redis.git ...

Global site tag (gtag.js) - Google Analytics