`

部分常用分词工具使用整理

阅读更多

 

以下分词工具均能在Python环境中直接调用(排名不分先后)。

1、jieba(结巴分词) 免费使用

2、HanLP(汉语言处理包) 免费使用

3、SnowNLP(中文的类库) 免费使用

4、FoolNLTK(中文处理工具包) 免费使用

5、Jiagu(甲骨NLP) 免费使用

6、pyltp(哈工大语言云) 商用需要付费

7、THULAC(清华中文词法分析工具包) 商用需要付费

8、NLPIR(汉语分词系统) 付费使用

 

1、jieba(结巴分词)

“结巴”中文分词:做最好的 Python 中文分词组件。

项目Github地址:jieba

安装

pip install jieba

使用

import jieba

jieba.initialize()

text = '化妆和服装'

words = jieba.cut(text)

words = list(words)

print(words)

 

2、HanLP(汉语言处理包)

HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

项目Github地址:pyhanlp

 

安装:

pip install pyhanlp

使用

import pyhanlp

text = '化妆和服装'

words = []

for term in pyhanlp.HanLP.segment(text):

words.append(term.word)

print(words)

 

3、SnowNLP(中文的类库)

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。

项目Github地址:snownlp

安装:

pip install snownlp

使用:

import snownlp

text = '化妆和服装'

words = snownlp.SnowNLP(text).words

print(words)

 

4、FoolNLTK(中文处理工具包)

可能不是最快的开源中文分词,但很可能是最准的开源中文分词。

项目Github地址:FoolNLTK

 

安装:

pip install foolnltk

使用:

import fool

text = '化妆和服装'

words = fool.cut(text)

print(words)

 

5、Jiagu(甲骨NLP)

基于BiLSTM模型,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作,将Jiagu回馈给大家。

项目Github地址:jiagu

安装:

pip3 install jiagu

使用:

import jiagu

jiagu.init()

text = '化妆和服装'

words = jiagu.seg(text)

print(words)

 

6、pyltp(哈工大语言云)

pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。

项目Github地址:pyltp,3.4模型下载链接:网盘

安装:

pip install pyltp

使用:

import pyltp

segmentor = pyltp.Segmentor()

segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路径

text = '化妆和服装'

words = segmentor.segment(text)

words = list(words)

print(words)

 

7、THULAC(清华中文词法分析工具包)

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。

项目Github地址:THULAC-Python

安装:

pip install thulac

使用:

import thulac

thu = thulac.thulac(seg_only=True)

text = '化妆和服装'

words = thu.cut(text, text=True).split()

print(words)

 

NLPIR(汉语分词系统)

主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。

项目Github地址:pynlpir

安装:

pip install pynlpir

下载证书覆盖到安装目录,NLPIR.user 例如安装目录:/usr/lib64/python3.4/site-packages/pynlpir/Data

 

使用

import pynlpir

pynlpir.open()

text = '化妆和服装'

words = pynlpir.segment(text, pos_tagging=False)

print(words)

pynlpir.close()

 

 

分享到:
评论

相关推荐

    分词词库_中文分词词库最新整理(TXT格式)

    中文分词是自然语言处理中非常重要的一个步骤,而分词词库则是分词工具的重要组成部分。一个好的词库能够极大地提升分词质量,进而提高后续自然语言处理任务的性能。通过对中文分词基本原理的理解,结合实际应用场景...

    自然语言处理分词_中文分词词库整理词库下载地址.txt

    下载之后的词库数据需要进行解压缩,并根据使用的分词工具或系统的要求,进行相应的格式化和加载工作。解压和加载之后,这些词库就可以被应用到分词系统中,帮助提高分词的准确性和效率。 第二个地址是: *** 从...

    中文分词词库整理.7z

    在这个“中文分词词库整理.7z”压缩包中,包含的可能是一个精心整理的中文词汇集合,用于支持各种中文分词算法和应用。分词词库的质量直接影响到分词系统的准确性和效率,因此,拥有一个高质量的词库对于中文信息...

    中文分词词库汇总

    汇总的中文分词词库,分为两个目录: 1、中文分词词库汇总。包含10个词库,文件名字表示...2、主流分词工具的词库。包含word/jieba/mmseg/IK分词工具的最近词库。 注意:分词时,不一定是词库中的词越多,效果越好。

    全新整理中文分词字典,242764个中文词语

    在这个标题为“全新整理中文分词字典,242764个中文词语”的资源中,提供了一个包含大量中文词语的字典,这些词语可能是从多个网络中文辞典中搜集并整合而来的,同时去除了重复项。这样的字典对于开发或优化中文分词...

    中文分词常用停用词 文档

    假设使用jieba分词工具对一段中文文本进行分词,并去除停用词: ```python import jieba from collections import Counter def load_stopwords(file_path): with open(file_path, 'r', encoding='utf-8') as f: ...

    中日韩分词词库.zip

    "中日韩分词词库"的每个条目都经过精心挑选和整理,确保覆盖了大量的常用词汇和表达,同时也考虑到了各种语法结构和语言习惯。此外,词库还可能包含一些专有名词、成语和短语,以满足特定领域的搜索需求。 在实际...

    支持英文数字中文混合分词-实现很多功能非常强大!

    描述中提到的“常用的数量和人名的匹配”是指该工具包含了对常见数量词(如“一百万”、“二千五百”等)和人名的特殊处理。在中文文本中,数量词和人名常常是难点,因为它们的表达方式多样,而此工具能有效地进行...

    中文分词词库

    标签"分词词库"明确了这个资源的核心功能,它是一个工具性的数据集,专门服务于中文分词任务。在实际应用中,这些词库可以被各种NLP系统、搜索引擎、机器翻译、情感分析等项目所使用。 压缩包子文件的文件名称...

    SCWS 中文分词

    词典是SCWS的重要组成部分,包含了大量预先整理的常用词汇,确保了分词的准确性。 在实际使用中,SCWS提供了PHP接口,如压缩包中的`scws.php`,使得开发者可以方便地在PHP项目中集成这个分词引擎。`pscws4`则可能是...

    中文综合分词词库2014-03-11

    总的来说,《中文综合分词词库2014-03-11》是中文分词领域的一个重要工具,它为处理2014年前后的中文文本提供了有力的支持,对于研究者和开发者来说,理解和利用好这个词库,能够有效地提升中文信息处理的效率和质量...

    基于php基础词库并结合自定义词库进行分词的系统,也可进行敏感词检测

    基础词库通常包含了大量常见词汇,这些词汇是经过精心挑选和整理的,包含了日常生活中常用的汉字词语。例如,汉语言文学中的成语、常用词、短语等都会被包含在内。基础词库的建立对于分词来说至关重要,因为它提供了...

    常用停用词表整理(哈工大停用词表,百度停用词表等)

    停用词表是自然语言处理领域中的一个重要工具,主要用于过滤掉在文本分析中不携带实质性信息的常见词汇,如“的”、“是”、“在”等。这些词语在语料中频繁出现,但它们通常对理解和分析文本的主题、情感或意图帮助...

    搜狗实验室新闻数据整理.zip

    在这个项目中,"已整理的搜狗实验室新闻文本数据"表明数据已经被清洗和格式化,可能包括了去除噪声、分词、词性标注等预处理步骤,使得新手可以更专注于算法的实现和优化,而不必花费大量时间在数据预处理上。...

    大数据治理中数据整理技术的研究和应用.zip

    例如,使用Apache Kafka、Spark Streaming等工具进行实时数据清洗和集成。 8. 数据湖和数据仓库:数据整理技术还涉及构建和管理数据湖和数据仓库。数据湖存储原始数据,而数据仓库则提供结构化的分析视图。通过元...

    jieba-0.42版集合包.rar

    jieba库,中文名结巴分词,是由李航(Hankcs)开发的一款开源的中文分词工具。它的主要功能是对中文文本进行精确、全模式、最短路径等多种分词方式的处理,同时支持用户自定义词典,极大地提高了中文信息处理的效率...

    THUOCL_animal.txt

    动物常用词词库大全,用于中文分词,非常全。学习分词、自然语义分析的必备词库。适用于市面绝大部分主流的自然语言处理工具包。

    stopwords-master.zip

    2. 分词预处理:使用成熟的中文分词工具,如jieba、THULAC或HanLP,将待处理的文本切分成词语。 3. 过滤停用词:遍历分词结果,移除停用词列表中的词汇。 4. 后续处理:进行词性标注、关键词提取、情感分析等其他NLP...

    搜狗中文字典(含词频)搜狗及常用停词表

    总的来说,"搜狗中文字典(含词频)搜狗及常用停词表"是NLP领域的一份宝贵资源,它提供了词汇的全面性和频率信息,结合停词表的使用,可以极大地提升中文文本处理的效果和效率。无论是学术研究还是商业应用,这份...

    中文停用词、哈工大停用词表、百度停用词表、四川大学机器智能实验室停用词库

    停用词在中文自然语言处理(NLP)中扮演着...综上所述,停用词表和分词是中文NLP中的基础工具,对于提升算法性能、优化文本处理流程至关重要。合理地使用和维护停用词表,能够有效提高自然语言处理系统的准确性和效率。

Global site tag (gtag.js) - Google Analytics