- 浏览: 374632 次
- 性别:
- 来自: 四川
文章分类
- 全部博客 (247)
- 数据库以及sql (11)
- java (48)
- 爬虫学习 (20)
- java编程 (28)
- python编程以及安装和配置 (27)
- oracle数据库 (32)
- mongodb基本操作 (4)
- linux学习 (7)
- easyUI (2)
- nodeJs (8)
- python学习 (16)
- 其他 (13)
- hadoop (1)
- svn (1)
- 汉字 (1)
- windows (2)
- jsp (5)
- fiddler (1)
- ETL (1)
- teamviewer (1)
- maven (4)
- GIT (2)
- datagrip (1)
- ocr (1)
- redis (3)
- mysql (3)
- linux (1)
- 数据服务 (0)
最新评论
# coding=utf-8
'''
Created on 2018年3月19日
@author: chenkai
结巴分词
支持三种分词模式:
精确模式: 试图将句子最精确地切开,适合文本分析;
全模式: 把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
'''
import jieba
import jieba.analyse
seg_list = jieba.cut("我来到北京清华大学找,我很开心",cut_all=True)
print "全模式: ", "/".join(seg_list)
seg_list2 = jieba.cut("我来到北京清华大学找,我很开心",cut_all=False)
print "精确模式: ", "/".join(seg_list2)
#jieba.cut() 默认是精确模式
seg_list3 = jieba.cut_for_search("我来到北京清华大学找,我很开心") # 搜索引擎模式
print "搜索引擎模式: ", "#".join(seg_list3)
list2="/".join(seg_list3)
'''
关键词提取
基于 TF-IDF 算法的关键词抽取
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件
'''
sentence="我来到北京清华大学子,我很开心"
listGJC=jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
print "关键词提取:",",".join(listGJC)
---------------------词频统计
# coding=utf-8
'''
Created on 2018年3月19日
@author: chenkai
结巴分词
支持三种分词模式:
精确模式: 试图将句子最精确地切开,适合文本分析;
全模式: 把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
'''
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import jieba
import jieba.analyse
import re,collections
def getNum(text,path):
word = []
counter = {}
seg_list3 = jieba.cut(text,cut_all=True)
listStr="#".join(seg_list3)
#print "全模式: ",listStr
list3 = listStr.decode("utf-8").split('#')
for w in list3:
if not w in word:
word.append(w)
if not w in counter:
counter[w] = 1
else:
counter[w] += 1
counter_list = sorted(counter.items(), key=lambda x: x[1], reverse=True)
#print counter_list
f = open(path,"w")
for j in counter_list:
text= "\""+j[0].encode("gb18030").decode("gb18030")+"\","+str(j[1])
print text
f.write(text+"\n")
print "the result write in "+path+"..."
print "finish..."
f.close()
getNum(sys.argv[1],sys.argv[2])
'''
Created on 2018年3月19日
@author: chenkai
结巴分词
支持三种分词模式:
精确模式: 试图将句子最精确地切开,适合文本分析;
全模式: 把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
'''
import jieba
import jieba.analyse
seg_list = jieba.cut("我来到北京清华大学找,我很开心",cut_all=True)
print "全模式: ", "/".join(seg_list)
seg_list2 = jieba.cut("我来到北京清华大学找,我很开心",cut_all=False)
print "精确模式: ", "/".join(seg_list2)
#jieba.cut() 默认是精确模式
seg_list3 = jieba.cut_for_search("我来到北京清华大学找,我很开心") # 搜索引擎模式
print "搜索引擎模式: ", "#".join(seg_list3)
list2="/".join(seg_list3)
'''
关键词提取
基于 TF-IDF 算法的关键词抽取
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例,idf_path 为 IDF 频率文件
'''
sentence="我来到北京清华大学子,我很开心"
listGJC=jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
print "关键词提取:",",".join(listGJC)
---------------------词频统计
# coding=utf-8
'''
Created on 2018年3月19日
@author: chenkai
结巴分词
支持三种分词模式:
精确模式: 试图将句子最精确地切开,适合文本分析;
全模式: 把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
'''
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import jieba
import jieba.analyse
import re,collections
def getNum(text,path):
word = []
counter = {}
seg_list3 = jieba.cut(text,cut_all=True)
listStr="#".join(seg_list3)
#print "全模式: ",listStr
list3 = listStr.decode("utf-8").split('#')
for w in list3:
if not w in word:
word.append(w)
if not w in counter:
counter[w] = 1
else:
counter[w] += 1
counter_list = sorted(counter.items(), key=lambda x: x[1], reverse=True)
#print counter_list
f = open(path,"w")
for j in counter_list:
text= "\""+j[0].encode("gb18030").decode("gb18030")+"\","+str(j[1])
print text
f.write(text+"\n")
print "the result write in "+path+"..."
print "finish..."
f.close()
getNum(sys.argv[1],sys.argv[2])
- jieba-0.38.zip (7 MB)
- 下载次数: 0
发表评论
-
Pycharm常用快捷键
2018-10-17 16:45 803pycharm常用快捷键 1、编辑(Editing) Ctr ... -
python连接oracle数据库报错PI-1047: 64-bit Oracle Client library cannot be loaded: "解决方案
2018-10-17 16:44 7219错误原因:instantclient版本为32位,需更换成64 ... -
pycharm安装第三方库的方式
2018-10-16 17:33 21051.点击settings之后再点击project下面的proj ... -
pycharm中配置中文头, 不用每次都写
2018-10-16 17:20 1867打开file->settings->Editor- ... -
python 中__name__ = '__main__' 的作用
2018-09-14 09:50 1685出自:https://www.cnblogs.com/alan ... -
python中的textblob库的作用说明
2018-09-14 09:40 3851TextBlob 是一款 Pythonic 的文本处理工具,用 ... -
python 利用bottle微服务提供post接口,供第三方调用
2018-09-12 16:11 1196=============================== ... -
python之bottle框架的get,post请求实例
2018-09-12 15:51 3655=======================get请求 # ... -
python中的请求参数乱码 解决
2018-09-12 15:39 1309import urllib def geturltoutf8 ... -
python 安装nltk
2018-09-07 18:02 33871、在cmd窗口中,进入到python的文件夹内的 Scrip ... -
python 情感分析
2018-09-07 17:05 1683转:https://blog.csdn.net/u011001 ... -
anaconda安装与配置环境变量,以及anaconda是什么,有什么用。
2017-07-12 10:15 10689anaconda安装与配置环境变量: 官网:https://w ... -
python中利用adb shell 控制手机,完美解决中文输入问题
2017-06-03 10:25 53891.连接手机, 打开开发者选项, 连接USB, (如果需要记录 ... -
selenium设置网页文本框中文值报错解决方法
2017-03-20 10:06 1046selenium设置网页文本框中文值报错解决方法 elem = ... -
python多进程和多线程的区别
2017-03-14 17:33 1151多线程和多进程最大的 ...
相关推荐
标题 "delphi+Python结巴分词例子源代码" 提供了一个关于如何在 Delphi 开发环境中集成 Python 和使用结巴分词库的实例。这个项目可能是为了展示如何在 Delphi 应用程序中调用 Python 脚本进行中文文本处理,特别是...
西游记素材用于python结巴分词可视化素材 仅供学习,无商业用途
结巴分词(Jieba)是Python编程语言中的一款著名中文分词库,由结巴团队开发。它以其高效、准确和易用性而受到广大开发者和数据处理人员的青睐。分词是自然语言处理(NLP)中的基础任务,对于中文文本尤其重要,因为...
1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词...
### Python中文分词技术详解与结巴分词应用 #### 一、中文分词的重要性及应用场景 中文分词是自然语言处理(NLP)中的一个关键步骤,它是指将连续的中文字符序列切分成一个个单独的、具有语义的词汇的过程。在文本...
结巴分词(Jieba)最初是由Python开发的,但为了满足Java开发者的需求,也有了Java版本。本文将深入探讨Java版结巴分词的关键知识点,包括其原理、功能特性以及如何使用。 一、分词原理 1. 基于HMM(隐马尔科夫...
结巴分词,全称为jieba分词,由李航开发,最初是为了解决中文搜索引擎的分词问题。它的核心在于实现了一种基于概率模型的分词算法,结合了最大匹配法、前向最大匹配法、逆向最大匹配法等多种分词策略,有效地提升了...
在Java、Python和C++这三种不同的编程语言中,结巴分词都有对应的实现或接口,使得开发者可以根据项目需求选择最适合的语言来处理中文文本。 1. **Python版jieba** Python是NLP领域常用的编程语言,jieba在Python...
本文将深入探讨如何使用Python编程语言结合“结巴分词”这一流行的中文分词库来实现模拟搜索引擎的关键词提取。 一、Python与结巴分词 Python是一种高级编程语言,因其简洁易读的语法和丰富的第三方库支持,常被...
"基于Python的中文结巴分词技术实现" 基于 Python 的中文结巴分词技术实现是自然语言处理的重要预处理操作。中文分词技术的研究尤为重要,因为非结构化文本的大量产生使得中文分词技术的需求 càng亟待解决。结巴...
"结巴分词",全称为jieba分词,是中国最流行的中文分词库之一,尤其在Python社区中被广泛使用。它由吕旭东开发,最初是为了改善中文文本处理的效率和准确性。这个源代码提供了对中文文本进行分词、词性标注、关键词...
结巴分词的原始版本为python编写,目前该项目在github上的关注量为170, 打星727次(最新的数据以原仓库为准),Fork238次,可以说已经有一定的用户群。 结巴分词(java版)只保留的原项目针对搜索引擎分词的功能...
“结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module. Scroll down for English ...
在自然语言处理(NLP)领域,结巴分词(jieba)是一个广泛使用的中文分词库,尤其在Python编程环境中。它为处理中文文本提供了高效且准确的分词功能,使得开发者能够轻松地对中文句子进行分析。本文将深入探讨结巴...
"jieba结巴分词"是一款专为中文设计的开源分词库,以其高效、易用的特点在Python社区广受欢迎。本篇文章将深入探讨jieba分词的工作原理、主要功能以及实际应用,旨在帮助读者全面理解和掌握这一工具。 首先,我们来...
1. **环境准备**:由于MATLAB原生不支持Python库,因此我们需要借助MATLAB的Python接口(`py`函数)来调用结巴分词。首先确保MATLAB已经配置了Python环境,并安装了jieba库,可以通过MATLAB的命令行运行Python命令来...
结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性...
"结巴分词器"(Jieba)是一款在Python编程语言中广泛使用的中文分词工具,因其在处理中文文本时表现出的高效性和易用性而受到开发者们的喜爱。它能够将连续的汉字序列切分成具有语义的词汇,这对于理解和处理中文...