HanLP-分类模块的分词器介绍 - hadoop小学生 - ITeye博客

`

adnb34g

浏览: 83618 次

最近访客更多访客>>

adonis_yang

海麻雀

小taomi_77

zhangly2011

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

HanLP-分类模块的分词器介绍

博客分类：

人工智能，机器学习

阅读更多

最近发现一个很勤快的大神在分享他的一些实操经验，看了一些他自己关于hanlp方面的文章，写的挺好的！转载过来分享给大家！以下为分享原文（无意义的内容已经做了删除）

如下图所示，HanLP的分类模块中单独封装了适用分类的分词器，当然这些分词器都是对HanLP提供的分词器的封装。分类模块中提供的分词器都在tokenizer包中。包括：

BigramTokenizer这是一个2gram分词器，也就是把连续的2字认为是一个词

BlankTokenizer这是一个空白符分词器，以文本中的空白符作为词语间隔

HanLPTokenizer这是一个实词分词器，也就是只保留实词，它是分类模块的默认分词器

如果需要修改分类模块的分词器，需要在加载文本数据之前，设置分词器，示例代码如下：

IDataSet trainingCorpus = new FileDataSet(). // FileDataSet省内存，可加载大规模数据集

setTokenizer(new HanLPTokenizer()). // 支持不同的ITokenizer，详见源码中的文档

load(CORPUS_FOLDER, "UTF-8", 0.9); // 前90%作为训练集

IClassifier classifier = new NaiveBayesClassifier();

classifier.train(trainingCorpus);

还需要注意的是，这三种分词器其实都不太适合做情感分类的分词器，如果想用标准分词器作为情感分类的分词器，则用户需要自定义一个分词器类，该类需要实现ITokenizer接口并封装标准分词器。（如果直接调用setTokenizer方法传递下图HanLP分词器包中的分词器实例，则会报错）

查看图片附件

分享到：

Hanlp配置自定义词典遇到的问题与解决方法 | elasticsearch教程--中文分词器作用和使用

2019-06-14 10:42
浏览 340
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

HanLP-data.zip: 1. **中文分词**：HanLP的分词模块是其核心功能之一，采用统计和规则相结合的方法，能够处理各种复杂的中文语境，如歧义分词、新词识别等。数据集中可能包含不同领域的语料，如新闻、社交媒体、论坛等，用于训练分词...

HanLP-1.7.5.zip: 1. **词法分析**：HanLP的词法分析模块能够对输入的文本进行分词，识别出词汇边界，并且可以处理多词表达、新词识别以及词性标注。这对于信息抽取、文本分类、关键词提取等任务至关重要。 2. **句法分析**：句法...

hanlp-1.8.2-release.zip: 1. 分词：HanLP提供了精确、快速的分词功能，支持多种分词模式，包括新词发现、关键词提取等。其分词算法基于统计模型和规则模型的结合，能适应不断变化的语言环境。 2. 词性标注：HanLP能够对分词结果进行精准的...

HanLP-doc-zh.zip: 通常，首先需要安装Python的Jieba库来桥接Java环境，然后导入HanLP模块，创建实例，即可调用各种方法进行处理。四、性能优势 1. **高效性**：HanLP采用并行计算优化，能有效利用多核CPU资源，处理速度较快。 2. ...

hanlp-1.7.4-release.zip: 1. 分词：HanLP提供了精确和快速的中文分词算法，包括基于统计的分词方法和基于规则的分词方法，能够准确识别出文本中的词汇边界。 2. 命名实体识别（NER）：HanLP可以识别出文本中的人名、地名、机构名等特定实体...

HanLP-1.8.0.zip: 1. 分词：HanLP的分词模块是其基础，能够对中文文本进行细粒度的词汇划分，支持歧义消解，提供多种分词模式，满足不同场景的需求。例如，对于句子“我爱自然语言处理”，HanLP可以准确地将其拆分为“我”、“爱”、...

典型相关分析matlab实现代码-HanLP-1.2.4-Taikor:HanLp-1.2.4Tyk叉: 典型相关分析matlab实现代码 HanLP: Han Language Processing 汉语言处理包 HanLP是由一系列模型与算法组成的Java工具包，...在提供丰富功能的同时，HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、

HanLP中文分词所需内容_2.zip: 主要包含HanLP中文分词需要的jar包，properties文件，data文件夹，以及一些测试代码。HanLP是由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构...

data-for-1.7.7.7z: HanLP是一款由Java编写的高性能自然语言处理工具包，广泛应用于中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等领域。在Python环境中使用HanLP的数据，能够帮助开发者实现更高效、精准的文本处理...

hanlp在Python环境中的安装: 这里我们将以`Jpype1`为例介绍如何集成HanLP到Python中： 1. 安装`Jpype1`：在你的命令行或终端中运行`pip install jpype1`，这将安装Jpype1，使得Python可以调用Java类库。 2. 导入必要的Python模块： ```python ...

典型相关分析matlab实现代码-HanLP-master:汉普大师: 典型相关分析matlab实现代码HanLP: Han Language Processing 汉语言处理包 HanLP是由一系列模型与算法组成的Java工具包，...HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布，使用非

HanLP：汉语语言处理-源码: 在提供丰富功能的同时，HanLP内部模块坚持低耦合，模型坚持惰性加载，服务坚持静态提供，词典坚持明文发布，使用非常方便。默认模型训练自全世界最大规模的中文语料库，同时自带一些语料处理工具，帮助用户训练自己...

Python-无损转换OpenCC词典为HanLP格式: OpenCC和HanLP都是中文分词和转换工具，但它们各自支持的格式有所不同。本话题聚焦于如何使用Python将OpenCC的词典无损转换为HanLP格式，以便在不同的NLP任务中无缝切换。 OpenCC是由OpenCC Project开发的一款开源...

es7.4.1分词器.zip: 常见的拼音分词器有Jieba的pinyin库、HanLP的拼音模块等。在Elasticsearch中，`Analyzer-Pinyin`是一个内置的拼音分词器，它可以生成全拼和简拼，同时支持多音字处理，提高了搜索的准确性和灵活性。接下来是IK分词...

典型相关分析matlab实现代码-HanLP:分词框架工程: 典型相关分析matlab实现代码HanLP: Han Language Processing 汉语言处理包 HanLP是由一系列模型与算法组成的NLP工具包，...HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布，使用非常

Android-HanLP是由一系列用于自然语言处理模型与算法组成的Java工具包: 3. 架构清晰：HanLP的设计遵循模块化原则，使得开发者可以根据需求选择不同的组件，方便集成和扩展。 4. 语料时新：HanLP持续更新语料库，确保模型的训练基于最新、最广泛的文本数据，提高处理现代汉语的能力。 5....

HanLp数据字典（1.7.1）: HanLP由一系列模块组成，包括分词、词性标注、命名实体识别、依存句法分析等，这些功能都离不开背后强大的数据字典支持。在提供的data.zip数据中，包含了各种预训练模型和词汇资源，是汉语言处理的基础。例如，分词...

HanLP自然语言处理: 1. **分词**：这是NLP的基石，HanLP的分词模块具有高精度和高速度，能够处理各种文本，包括新闻、微博、论坛等不同类型的语料。它支持多种分词模式，如精确模式、最短路径模式、基于依存关系的分词等，以满足不同...

结巴分词源代码: 1. **源代码文件**：如`jieba.py`，这是结巴分词的主要实现模块，包含了分词、精准模式、全模式和搜索引擎模式等不同方式的分词函数。 2. **词典文件**：如`dict.txt.big`，这是结巴分词的核心数据，存储了大量的...

.hanlp.zip: 这个文件包含了多个子模块，如分词模型、词性标注模型、依存句法分析模型等，它们共同构成了一个完整的NLP处理系统。为了在Python环境中使用这些模型，我们需要导入PyHanLP库，并加载模型： ```python from pyhanlp...

Global site tag (gtag.js) - Google Analytics