`

python结巴分词

 
阅读更多
# coding=utf-8
'''
Created on 2018年3月19日
@author: chenkai

结巴分词
支持三种分词模式:
精确模式:     试图将句子最精确地切开,适合文本分析;
全模式:       把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
'''

import jieba
import jieba.analyse


seg_list =  jieba.cut("我来到北京清华大学找,我很开心",cut_all=True)
print  "全模式: ", "/".join(seg_list)
seg_list2 =  jieba.cut("我来到北京清华大学找,我很开心",cut_all=False)
print  "精确模式: ", "/".join(seg_list2)
#jieba.cut() 默认是精确模式
seg_list3 = jieba.cut_for_search("我来到北京清华大学找,我很开心")  # 搜索引擎模式
print  "搜索引擎模式: ", "#".join(seg_list3)
list2="/".join(seg_list3)
'''
关键词提取
基于 TF-IDF 算法的关键词抽取

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件
'''
sentence="我来到北京清华大学子,我很开心"
listGJC=jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
print "关键词提取:",",".join(listGJC)





---------------------词频统计

# coding=utf-8
'''
Created on 2018年3月19日
@author: chenkai

结巴分词
支持三种分词模式:
精确模式:     试图将句子最精确地切开,适合文本分析;
全模式:       把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
'''
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import jieba
import jieba.analyse
import re,collections



def getNum(text,path):
    word = []
    counter = {}
    seg_list3 = jieba.cut(text,cut_all=True) 
    listStr="#".join(seg_list3)
    #print  "全模式: ",listStr
    list3 = listStr.decode("utf-8").split('#')
    for w in list3:
        if not w in word:
           word.append(w)
        if not w in counter:
           counter[w] = 1
        else:
           counter[w] += 1
    counter_list = sorted(counter.items(), key=lambda x: x[1], reverse=True)
    #print counter_list
    f = open(path,"w")
    for j in counter_list:
        text= "\""+j[0].encode("gb18030").decode("gb18030")+"\","+str(j[1])
        print text
        f.write(text+"\n")
    print "the result write in "+path+"..."
    print "finish..."
    f.close()
getNum(sys.argv[1],sys.argv[2])





分享到:
评论

相关推荐

    delphi+Python结巴分词例子源代码

    标题 "delphi+Python结巴分词例子源代码" 提供了一个关于如何在 Delphi 开发环境中集成 Python 和使用结巴分词库的实例。这个项目可能是为了展示如何在 Delphi 应用程序中调用 Python 脚本进行中文文本处理,特别是...

    西游记素材用于python结巴分词可视化素材

    西游记素材用于python结巴分词可视化素材 仅供学习,无商业用途

    结巴分词Python代码

    结巴分词(Jieba)是Python编程语言中的一款著名中文分词库,由结巴团队开发。它以其高效、准确和易用性而受到广大开发者和数据处理人员的青睐。分词是自然语言处理(NLP)中的基础任务,对于中文文本尤其重要,因为...

    Python 结巴分词实现关键词抽取分析

    1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词...

    python中文分词,使用结巴分词对python进行分词(实例讲解)

    ### Python中文分词技术详解与结巴分词应用 #### 一、中文分词的重要性及应用场景 中文分词是自然语言处理(NLP)中的一个关键步骤,它是指将连续的中文字符序列切分成一个个单独的、具有语义的词汇的过程。在文本...

    java版本结巴分词

    结巴分词(Jieba)最初是由Python开发的,但为了满足Java开发者的需求,也有了Java版本。本文将深入探讨Java版结巴分词的关键知识点,包括其原理、功能特性以及如何使用。 一、分词原理 1. 基于HMM(隐马尔科夫...

    结巴中文分词源代码

    结巴分词,全称为jieba分词,由李航开发,最初是为了解决中文搜索引擎的分词问题。它的核心在于实现了一种基于概率模型的分词算法,结合了最大匹配法、前向最大匹配法、逆向最大匹配法等多种分词策略,有效地提升了...

    结巴分词及其Java、Python、C++的使用示例

    在Java、Python和C++这三种不同的编程语言中,结巴分词都有对应的实现或接口,使得开发者可以根据项目需求选择最适合的语言来处理中文文本。 1. **Python版jieba** Python是NLP领域常用的编程语言,jieba在Python...

    模拟搜索引擎关键词自动分词(python利用结巴分词关键词自动提取)

    本文将深入探讨如何使用Python编程语言结合“结巴分词”这一流行的中文分词库来实现模拟搜索引擎的关键词提取。 一、Python与结巴分词 Python是一种高级编程语言,因其简洁易读的语法和丰富的第三方库支持,常被...

    基于Python的中文结巴分词技术实现

    "基于Python的中文结巴分词技术实现" 基于 Python 的中文结巴分词技术实现是自然语言处理的重要预处理操作。中文分词技术的研究尤为重要,因为非结构化文本的大量产生使得中文分词技术的需求 càng亟待解决。结巴...

    结巴分词源代码

    "结巴分词",全称为jieba分词,是中国最流行的中文分词库之一,尤其在Python社区中被广泛使用。它由吕旭东开发,最初是为了改善中文文本处理的效率和准确性。这个源代码提供了对中文文本进行分词、词性标注、关键词...

    结巴分词(支持词性标注)

    结巴分词的原始版本为python编写,目前该项目在github上的关注量为170, 打星727次(最新的数据以原仓库为准),Fork238次,可以说已经有一定的用户群。 结巴分词(java版)只保留的原项目针对搜索引擎分词的功能...

    结巴分词jar包

    “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English ...

    结巴分词、词性标注以及停用词过滤

    在自然语言处理(NLP)领域,结巴分词(jieba)是一个广泛使用的中文分词库,尤其在Python编程环境中。它为处理中文文本提供了高效且准确的分词功能,使得开发者能够轻松地对中文句子进行分析。本文将深入探讨结巴...

    jieba结巴分词.zip

    "jieba结巴分词"是一款专为中文设计的开源分词库,以其高效、易用的特点在Python社区广受欢迎。本篇文章将深入探讨jieba分词的工作原理、主要功能以及实际应用,旨在帮助读者全面理解和掌握这一工具。 首先,我们来...

    基于结巴分词词库的中文分词_matlab_结巴分词_

    1. **环境准备**:由于MATLAB原生不支持Python库,因此我们需要借助MATLAB的Python接口(`py`函数)来调用结巴分词。首先确保MATLAB已经配置了Python环境,并安装了jieba库,可以通过MATLAB的命令行运行Python命令来...

    Python中文分词工具之结巴分词用法实例总结【经典案例】

    结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性...

    结巴分词器组件

    "结巴分词器"(Jieba)是一款在Python编程语言中广泛使用的中文分词工具,因其在处理中文文本时表现出的高效性和易用性而受到开发者们的喜爱。它能够将连续的汉字序列切分成具有语义的词汇,这对于理解和处理中文...

Global site tag (gtag.js) - Google Analytics