`

python中文分词,使用结巴分词对python进行分词

阅读更多

在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法.

中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:

  1. 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
  2. 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
  3. 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

安装(Linux环境)

下载工具包,解压后进入目录下,运行:python setup.py install

 

模式

  1. 默认模式,试图将句子最精确地切开,适合文本分析
  2. 全模式,把句子中所有的可以成词的词语都扫描出来,适合搜索引擎

 

接口

  • 组件只提供jieba.cut 方法用于分词
  • cut方法接受两个输入参数:
    •   第一个参数为需要分词的字符串
    •   cut_all参数用来控制分词模式
  • 待分词的字符串可以是gbk字符串、utf-8字符串或者unicode
  • jieba.cut返回的结构是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list  
  • seg=jieba.cut("http://www.gg4493.cn/"):

 

实例

复制代码

#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)

复制代码

结果

 

分享到:
评论

相关推荐

    python中文分词,使用结巴分词对python进行分词(实例讲解)

    3. **未登录词的识别**:对于那些在词典中不存在的新词,结巴分词采用基于汉字成词能力的隐马尔可夫模型(HMM)进行识别,并使用维特比算法(Viterbi Algorithm)找出最佳路径,从而有效识别新词。 #### 四、结巴...

    结巴分词Python代码

    结巴分词(Jieba)是Python编程语言中的一款著名中文分词库,由结巴团队开发。它以其高效、准确和易用性而受到广大开发者和数据处理人员的青睐。分词是自然语言处理(NLP)中的基础任务,对于中文文本尤其重要,因为...

    基于Python的中文结巴分词技术实现

    Python 语言提供了结巴分词接口,使得使用 Python 实现中文结巴分词算法变得非常简单和准确。Python 的优势在于其简洁性、灵活性和扩展性,能够满足中文分词的需求。 知识点五:结巴分词在自然语言处理中的应用 ...

    Python-jieba结巴中文分词做最好的Python中文分词组件

    **Python-jieba结巴中文分词:打造顶级的Python中文处理工具** jieba,一个在Python开发者中广受欢迎的库,被誉为“结巴”中文分词,是处理中文文本的强大武器。它专为了解决中文分词问题而设计,为Python提供了...

    结巴分词及其Java、Python、C++的使用示例

    结巴分词(jieba)是一款广泛应用于中文文本处理的开源分词库,它能够高效地进行中文词语切分,为自然语言处理(NLP)提供了基础支持。NLP是计算机科学领域的一个分支,主要研究如何让计算机理解、生成和处理人类的...

    Python-各大中文分词性能评测

    jieba(结巴分词) 免费使用 HanLP(汉语言处理包) 免费使用 SnowNLP(中文的类库) 免费使用 FoolNLTK(中文处理工具包) 免费使用 Jiagu(甲骨NLP) 免费使用 pyltp(哈工大语言云) 商用需要付费 THULAC...

    delphi+Python结巴分词例子源代码

    标题 "delphi+Python结巴分词例子源代码" 提供了一个关于如何在 Delphi 开发环境中集成 Python 和使用结巴分词库的实例。这个项目可能是为了展示如何在 Delphi 应用程序中调用 Python 脚本进行中文文本处理,特别是...

    结巴中文分词源代码

    结巴分词,全称为jieba分词,由李航开发,最初是为了解决中文搜索引擎的分词问题。它的核心在于实现了一种基于概率模型的分词算法,结合了最大匹配法、前向最大匹配法、逆向最大匹配法等多种分词策略,有效地提升了...

    Python中文分词工具之结巴分词用法实例总结【经典案例】

    结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性...

    结巴中文分词.zip

    "结巴中文分词"是一个知名的开源项目,主要用于处理中文文本,进行有效的分词操作。在中文自然语言处理(NLP)领域,分词是预处理的重要步骤,它将连续的汉字序列切分成具有语义的词汇单元。"jieba"因其易用性和高效...

    java版本结巴分词

    结巴分词(Jieba)最初是由Python开发的,但为了满足Java开发者的需求,也有了Java版本。本文将深入探讨Java版结巴分词的关键知识点,包括其原理、功能特性以及如何使用。 一、分词原理 1. 基于HMM(隐马尔科夫...

    西游记素材用于python结巴分词可视化素材

    西游记素材用于python结巴分词可视化素材 仅供学习,无商业用途

    基于结巴分词词库的中文分词_matlab_结巴分词_

    "基于结巴分词词库的中文分词"这一主题,主要关注如何利用结巴分词(Jieba)这一流行开源库在MATLAB环境下进行中文文本的分词操作。结巴分词是一个高效、灵活且广泛使用的中文分词工具,它支持多种分词模式,如精确...

    Python_结巴中文分词.zip

    Python作为一门强大的编程语言,拥有众多用于中文分词的库,其中“结巴分词”(Jieba)是最受欢迎且广泛使用的工具之一。这个名为“Python_结巴中文分词.zip”的压缩包可能包含有关如何使用Python和Jieba进行中文...

    结巴分词jar包

    “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English ...

    模拟搜索引擎关键词自动分词(python利用结巴分词关键词自动提取)

    结巴分词(Jieba)是Python中最受欢迎的中文分词库之一,它提供高效的分词算法,能够准确地对中文文本进行分词,支持多种分词模式,如精确模式、全模式和搜索引擎模式。 二、关键词自动提取原理 关键词提取的目标...

    结巴中文分词

    **结巴中文分词**,全称为jieba分词,是Python编程语言中广泛使用的一款高效、灵活的中文分词库。它由吕健(网名“结巴”)开发,旨在解决中文文本处理中的一个重要问题——如何准确、快速地将连续的汉字序列切分成...

    结巴分词源代码

    "结巴分词",全称为jieba分词,是中国最流行的中文分词库之一,尤其在Python社区中被广泛使用。它由吕旭东开发,最初是为了改善中文文本处理的效率和准确性。这个源代码提供了对中文文本进行分词、词性标注、关键词...

Global site tag (gtag.js) - Google Analytics