S1-jieba分词

沈寅麟

浏览: 173812 次
性别:
来自: 上海

最近访客更多访客>>

uule

张锁

孔已己

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Python

pip install jieba

简单用法
结巴分词分为三种模式：精确模式（默认）、全模式和搜索引擎模式，下面对这三种模式分别举例介绍：

精确模式
import jieba
s = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'
cut = jieba.cut(s)



print '【Output】'

print cut

print ','.join(cut)

【Output】

<generator object cut at 0x7f8dbc0efc30>

我,想,和,女朋友,一起,去,北京故宫博物院,参观,和,闲逛,。

可见分词结果返回的是一个生成器（这对大数据量数据的分词尤为重要）。

全模式
print '【Output】'
print ','.join(jieba.cut(s,cut_all = True))
【Output】
我,想,和,女朋友,朋友,一起,去,北京,北京故宫,北京故宫博物院,故宫,故宫博物院,博物,博物院,参观,和,闲逛,,
可见全模式就是把文本分成尽可能多的词。

搜索引擎模式
print '【Output】'
print ','.join(jieba.cut_for_search(s))
【Output】
我,想,和,朋友,女朋友,一起,去,北京,故宫,博物,博物院,北京故宫博物院,参观,和,闲逛,。
获取词性
每个词都有其词性，比如名词、动词、代词等，结巴分词的结果也可以带上每个词的词性，要用到jieba.posseg，举例如下：

import jieba.posseg as psg
print '【Output】'
print [(x.word,x.flag) for x in psg.cut(s)]

# 输出：
'''
[(u'我', u'r'), (u'想', u'v'), (u'和', u'c'), (u'女朋友', u'n'), (u'一起', u'm'),
(u'去', u'v'), (u'北京故宫博物院', u'ns'), (u'参观', u'n'), (u'和', u'c'), (u'闲逛', u'v'), (u'。', u'x')]
'''
可以看到成功获取到每个词的词性，这对于我们对分词结果做进一步处理很有帮助，比如只想获取分词结果列表中的名词，那么就可以这样过滤：

print [(x.word,x.flag) for x in psg.cut(s) if x.flag.startswith('n')]

# 输出：
'''
[(u'女朋友', u'n'), (u'北京故宫博物院', u'ns'), (u'参观', u'n')]
'''
至于词性的每个字母分别表示什么词性，jieba分词的结果可能有哪些词性，就要去查阅词性对照表了，本文结尾附了一份从网上搜到的词性对照表，想了解更详细的词性分类信息，可以到网上搜索"结巴分词词性对照"。

并行分词
在文本数据量非常大的时候，为了提高分词效率，开启并行分词就很有必要了。jieba支持并行分词，基于python自带的multiprocessing模块，但要注意的是在Windows环境下不支持。

用法：

# 开启并行分词模式，参数为并发执行的进程数

jieba.enable_parallel(5)

# 关闭并行分词模式

jieba.disable_parallel()

举例：开启并行分词模式对三体全集文本进行分词

santi_text = open('./santi.txt').read()
print len(santi_text)

2681968
可以看到三体全集的数据量还是非常大的，有260多万字节的长度。

jieba.enable_parallel(100)
santi_words = [x for x in jieba.cut(santi_text) if len(x) >= 2]
jieba.disable_parallel()

获取出现频率Top n的词
还是以上面的三体全集文本为例，假如想要获取分词结果中出现频率前20的词列表，可以这样获取：

from collections import Counter
c = Counter(santi_words).most_common(20)
print c

# 输出：
'''
[(u'\r\n', 21805), (u'一个', 3057), (u'没有', 2128), (u'他们', 1690), (u'我们', 1550),
(u'这个', 1357), (u'自己', 1347), (u'程心', 1320), (u'现在', 1273), (u'已经', 1259),
(u'世界', 1243), (u'罗辑', 1189), (u'可能', 1177), (u'什么', 1176), (u'看到', 1114),
(u'知道', 1094), (u'地球', 951), (u'人类', 935), (u'太空', 930), (u'三体', 883)]
'''
可以看到结果中'\r\n'居然是出现频率最高的词，还有'一个'、'没有'、'这个'等这种我们并不想要的无实际意义的词，那么就可以根据前面说的词性来进行过滤，这个以后细讲。

使用用户字典提高分词准确性
不使用用户字典的分词结果：

txt = u'欧阳建国是创新办主任也是欢聚时代公司云计算方面的专家'
print ','.join(jieba.cut(txt))
欧阳,建国,是,创新,办,主任,也,是,欢聚,时代,公司,云,计算,方面,的,专家
使用用户字典的分词结果：

jieba.load_userdict('user_dict.txt')
print ','.join(jieba.cut(txt))
欧阳建国,是,创新办,主任,也,是,欢聚时代,公司,云计算,方面,的,专家
可以看出使用用户字典后分词准确性大大提高。

注：其中user_dict.txt的内容如下：

欧阳建国 5

创新办 5 i

欢聚时代 5

云计算 5

用户字典每行一个词，格式为：

词语词频词性

其中词频是一个数字，词性为自定义的词性，要注意的是词频数字和空格都要是半角的。

附：结巴分词词性对照表（按词性英文首字母排序）
形容词(1个一类，4个二类)
a 形容词

ad 副形词

an 名形词

ag 形容词性语素

al 形容词性惯用语

区别词(1个一类，2个二类)
b 区别词

bl 区别词性惯用语

连词(1个一类，1个二类)
c 连词

cc 并列连词

副词(1个一类)
d 副词

叹词(1个一类)
e 叹词

方位词(1个一类)
f 方位词

前缀(1个一类)
h 前缀

后缀(1个一类)
k 后缀

数词(1个一类，1个二类)
m 数词

mq 数量词

名词 (1个一类，7个二类，5个三类)
名词分为以下子类：

n 名词

nr 人名

nr1 汉语姓氏

nr2 汉语名字

nrj 日语人名

nrf 音译人名

ns 地名

nsf 音译地名

nt 机构团体名

nz 其它专名

nl 名词性惯用语

ng 名词性语素

拟声词(1个一类)
o 拟声词

介词(1个一类，2个二类)
p 介词

pba 介词“把”

pbei 介词“被”

量词(1个一类，2个二类)
q 量词

qv 动量词

qt 时量词

代词(1个一类，4个二类，6个三类)
r 代词

rr 人称代词

rz 指示代词

rzt 时间指示代词

rzs 处所指示代词

rzv 谓词性指示代词

ry 疑问代词

ryt 时间疑问代词

rys 处所疑问代词

ryv 谓词性疑问代词

rg 代词性语素

处所词(1个一类)
s 处所词

时间词(1个一类，1个二类)
t 时间词

tg 时间词性语素

助词(1个一类，15个二类)
u 助词

uzhe 着

ule 了喽

uguo 过

ude1 的底

ude2 地

ude3 得

usuo 所

udeng 等等等云云

uyy 一样一般似的般

udh 的话

uls 来讲来说而言说来

uzhi 之

ulian 连（“连小学生都会”）

动词(1个一类，9个二类)
v 动词

vd 副动词

vn 名动词

vshi 动词“是”

vyou 动词“有”

vf 趋向动词

vx 形式动词

vi 不及物动词（内动词）

vl 动词性惯用语

vg 动词性语素

标点符号(1个一类，16个二类)
w 标点符号

wkz 左括号，全角：（〔［｛《【〖〈半角：( [ { <

wky 右括号，全角：）〕］｝》】〗〉半角： ) ] { >

wyz 左引号，全角：“ ‘ 『

wyy 右引号，全角：” ’ 』

wj 句号，全角：。

ww 问号，全角：？半角：?

wt 叹号，全角：！半角：!

wd 逗号，全角：，半角：,

wf 分号，全角：；半角： ;

wn 顿号，全角：、

wm 冒号，全角：：半角： :

ws 省略号，全角：…… …

wp 破折号，全角：—— －－ ——－半角：--- ----

wb 百分号千分号，全角：％ ‰ 半角：%

wh 单位符号，全角：￥＄￡ ° ℃ 半角：$

字符串(1个一类，2个二类)
x 字符串

xx 非语素字

xu 网址URL

语气词(1个一类)
y 语气词(delete yg)

状态词(1个一类)
z 状态词

分享到：

ofbiz16-gradle构建依赖配置 | 新手扒图

2018-05-08 16:06
浏览 596
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python中文分词教程之前向最大正向匹配算法详解: 以例子"S1='计算语言学课程是三个课时'"为例，我们用最大词长5进行分词。初始时，尝试匹配"计算语言学"，这个词在词典中存在，加入到分词结果S2中。接下来，尝试匹配"课程是三个"，但这个词不在词典中，于是逐字缩短...

嵌入式八股文面试题库资料知识宝典-华为的面试试题.zip: 嵌入式八股文面试题库资料知识宝典-华为的面试试题.zip

训练导控系统设计.pdf: 训练导控系统设计.pdf

嵌入式八股文面试题库资料知识宝典-网络编程.zip: 嵌入式八股文面试题库资料知识宝典-网络编程.zip

人脸转正GAN模型的高效压缩.pdf: 人脸转正GAN模型的高效压缩.pdf

少儿编程scratch项目源代码文件案例素材-几何冲刺转瞬即逝.zip: 少儿编程scratch项目源代码文件案例素材-几何冲刺转瞬即逝.zip

少儿编程scratch项目源代码文件案例素材-鸡蛋.zip: 少儿编程scratch项目源代码文件案例素材-鸡蛋.zip

嵌入式系统_USB设备枚举与HID通信_CH559单片机USB主机键盘鼠标复合设备控制_基于CH559单片机的USB主机模式设备枚举与键盘鼠标数据收发系统支持复合设备识别与HID.zip: 嵌入式系统_USB设备枚举与HID通信_CH559单片机USB主机键盘鼠标复合设备控制_基于CH559单片机的USB主机模式设备枚举与键盘鼠标数据收发系统支持复合设备识别与HID

嵌入式八股文面试题库资料知识宝典-linux常见面试题.zip: 嵌入式八股文面试题库资料知识宝典-linux常见面试题.zip

面向智慧工地的压力机在线数据的预警应用开发.pdf: 面向智慧工地的压力机在线数据的预警应用开发.pdf

基于Unity3D的鱼类运动行为可视化研究.pdf: 基于Unity3D的鱼类运动行为可视化研究.pdf

少儿编程scratch项目源代码文件案例素材-霍格沃茨魔法学校.zip: 少儿编程scratch项目源代码文件案例素材-霍格沃茨魔法学校.zip

少儿编程scratch项目源代码文件案例素材-金币冲刺.zip: 少儿编程scratch项目源代码文件案例素材-金币冲刺.zip

【HarmonyOS技术领域】HarmonyOS编译构建子系统解析：高效灵活的系统开发与优化工具: 内容概要：本文深入探讨了HarmonyOS编译构建子系统的作用及其技术细节。作为鸿蒙操作系统背后的关键技术之一，编译构建子系统通过GN和Ninja工具实现了高效的源代码到机器代码的转换，确保了系统的稳定性和性能优化。该系统不仅支持多系统版本构建、芯片厂商定制，还具备强大的调试与维护能力。其高效编译速度、灵活性和可扩展性使其在华为设备和其他智能终端中发挥了重要作用。文章还比较了HarmonyOS编译构建子系统与安卓和iOS编译系统的异同，并展望了其未来的发展趋势和技术演进方向。; 适合人群：对操作系统底层技术感兴趣的开发者、工程师和技术爱好者。; 使用场景及目标：①了解HarmonyOS编译构建子系统的基本概念和工作原理；②掌握其在不同设备上的应用和优化策略；③对比HarmonyOS与安卓、iOS编译系统的差异；④探索其未来发展方向和技术演进路径。; 其他说明：本文详细介绍了HarmonyOS编译构建子系统的架构设计、核心功能和实际应用案例，强调了其在万物互联时代的重要性和潜力。阅读时建议重点关注编译构建子系统的独特优势及其对鸿蒙生态系统的深远影响。

嵌入式八股文面试题库资料知识宝典-奇虎360 2015校园招聘C++研发工程师笔试题.zip: 嵌入式八股文面试题库资料知识宝典-奇虎360 2015校园招聘C++研发工程师笔试题.zip

嵌入式八股文面试题库资料知识宝典-腾讯2014校园招聘C语言笔试题（附答案）.zip: 嵌入式八股文面试题库资料知识宝典-腾讯2014校园招聘C语言笔试题（附答案）.zip

双种群变异策略改进RWCE算法优化换热网络.pdf: 双种群变异策略改进RWCE算法优化换热网络.pdf

三电平有源电力滤波器仿真：基于瞬时无功功率理论的双闭环控制与SVPWM调制技术: 内容概要：本文详细介绍了基于瞬时无功功率理论的三电平有源电力滤波器（APF）仿真研究。主要内容涵盖并联型APF的工作原理、三相三电平NPC结构、谐波检测方法（ipiq）、双闭环控制策略（电压外环+电流内环PI控制）以及SVPWM矢量调制技术。仿真结果显示，在APF投入前后，电网电流THD从21.9%降至3.77%，显著提高了电能质量。适用人群：从事电力系统研究、电力电子技术开发的专业人士，尤其是对有源电力滤波器及其仿真感兴趣的工程师和技术人员。使用场景及目标：适用于需要解决电力系统中谐波污染和无功补偿问题的研究项目。目标是通过仿真验证APF的有效性和可行性，优化电力系统的电能质量。其他说明：文中提到的仿真模型涉及多个关键模块，如三相交流电压模块、非线性负载、信号采集模块、LC滤波器模块等，这些模块的设计和协同工作对于实现良好的谐波抑制和无功补偿至关重要。

工业自动化领域OPC DA转MQTT网关软件设计与实现：应对不良网络环境的数据传输解决方案: 内容概要：本文探讨了在工业自动化和物联网交汇背景下，构建OPC DA转MQTT网关软件的需求及其具体实现方法。文中详细介绍了如何利用Python编程语言及相关库（如OpenOPC用于读取OPC DA数据，paho-mqtt用于MQTT消息传递），完成从OPC DA数据解析、格式转换到最终通过MQTT协议发布数据的关键步骤。此外，还讨论了针对不良网络环境下数据传输优化措施以及后续测试验证过程。适合人群：从事工业自动化系统集成、物联网项目开发的技术人员，特别是那些希望提升跨协议数据交换能力的专业人士。使用场景及目标：适用于需要在不同通信协议间建立高效稳定的数据通道的应用场合，比如制造业生产线监控、远程设备管理等。主要目的是克服传统有线网络限制，实现在不稳定无线网络条件下仍能保持良好性能的数据传输。其他说明：文中提供了具体的代码片段帮助理解整个流程，并强调了实际部署过程中可能遇到的问题及解决方案。

基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档（毕业设计&课程设计&项目开发）: 基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档~ 基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

S1-jieba分词

评论

发表评论

相关推荐

ImportError: No module named flask 但pip list 已经安装了 centeros

CenterOS 安装Python3.7 环境

AttributeError: 'Request' object has no attribute 'is_xhr' flask 错误 ERROR in 报错

pip install *太慢*无法下载*卡住*

Jupyter Notebook 快捷键汇总

线性相关及张成空间

plt.subplot 图

pandas.cut

pandas——read_csv

Pandas 的melt的使用

python3调用js的库之execjs

matplotlib 中文乱码

python input 输出 “Name 'XXX' is not defined

Mac 控制台 终端始终 出现"(base)" ?

新手扒图

DJango表单错误CSRF verification failed. Request aborted

dJangoの初习3

dJangoの初习2

dJangoの初习1

Windows下部署python环境及基本使用

最近访客更多访客>>

pip install 太慢无法下载卡住

Mac 控制台终端始终出现"(base)" ?