这个库还是不太好,分词有点问题,还会有乱码
#! /usr/bin/env python
#coding=utf-8
#import sys
#print sys.path
from pymmseg import mmseg
mmseg.dict_load_defaults()
import chardet
import redis
r=redis.Redis(host='10.3.11.178',port=6379,db=1)
#r['foo']='bar'
#print r.get('foo')
#print r.type("foo")
#r.rpush("aa","cc")
#print r.type("aa")
#print r.lindex('aa',0)
#print r.rpush("aa","dd")
#print r.lindex('aa',1)
#print "-------------"
#print len(r.lrange('aa',0,-1))
#print r.lrange('aa',0,-1)
print r.lrange('00000001',0,0)
a=r.lrange('00000001',0,0)[0]
print a
algor = mmseg.Algorithm(a)
for tok in algor:
print "--"
print chardet.detect(tok.text)
print '%s [%d..%d]' % (tok.text, tok.start, tok.end)
结果如下:
> "C:\Python25\pythonw.exe" "F:\dm_app\tag2\test\redis_test.py"
['\xc0\xf1\xba\xd0\xb0\xfc\xd7\xb0']
礼盒包装
--
{'confidence': 0.0, 'encoding': None}
礼 [0..2]
--
{'confidence': 0.505, 'encoding': 'utf-8'}
邪 [3..5]
--
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
装 [6..8]
你看多出个邪来了,whath's the hell?
分享到:
相关推荐
标题“64位编译完成的pymmseg”指的是一个专为64位操作系统编译优化的Python模块,名为pymmseg。这个模块是基于libsvm(支持向量机库)的一个扩展,它可能用于文本分词或者图像分割等涉及模式识别的任务。在64位系统...
pymmseg-cpp is a Python port of the rmmseg-cpp project. rmmseg-cpp is a MMSEG Chinese word segmenting algorithm implemented in C++ with a Python interface.
python分词模块,基于mmseg算法编写,核心代码c++,提供python接口
在Python这pymmseg-cpp 还是十分方便的! 环境 ubuntu10.04 , python2.65 步骤: 1 下载mmseg-cpp的源代码 http://code.google.com/p/pymmseg-cpp/ 2 执行: tar -zxf pymmseg-cpp*.tar.gz //解压后得到pymmseg 目录...
利用德国HALCON低层二次开发的视觉软件!可判别有与无,角度,坐标,等等!
安装pymmseg中文分词: pip install -e git://github.com/pluskid/pymmseg-cpp.git 依赖pymmseg中文分词,安装之。 安装autocomplete-redis: pip install -e git://github.com/fengli/autocomplete-redis.git ...