文章列表
BECer是纯python实现,专门为google app engine而开发的中文分词和全文搜索模块,BECer的特点是快速而且低内存占用.不必担心google app engine的cpu时间限制和内存限制.
模块包含
__init__.py -- 目录即模块
search.py -- 从App Engine SDK的search模块修改而来,增加了中文分词功能,保留原有的英文分词.
segment.py -- 中文分词切割模块,用来完成中文句子的切割.使用简单的机械分词算法
gbk.py -- 包含所有 gbk 字符集相对应的 unicode 字符.用于过滤原文,去除非中文部分. ...