Pyhanlp自然语言处理中的新词识别

adnb34g

浏览: 86562 次

最近访客更多访客>>

adonis_yang

海麻雀

小taomi_77

zhangly2011

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

大数据
人工智能，机器学习，hanlp

Pyhanlp自然语言处理中的新词识别

新词发现

本“新词发现”模块基于信息熵和互信息两种算法，可以在无语料的情况下提取一段长文本中的词语，并支持过滤掉系统中已存在的“旧词”，得到新词列表。

调用方法

静态方法

一句话静态调用接口已经封装到HanLP中：

/**

* 提取词语

* @param text 大文本

* @param size 需要提取词语的数量

* @return 一个词语列表

public static List<WordInfo> extractWords(String text, int size)

/**

* 提取词语

* @param reader 从reader获取文本

* @param size 需要提取词语的数量

* @return 一个词语列表

public static List<WordInfo> extractWords(BufferedReader reader, int size) throws IOException

/**

* 提取词语（新词发现）

* @param text 大文本

* @param size 需要提取词语的数量

* @param newWordsOnly 是否只提取词典中没有的词语

* @return 一个词语列表

public static List<WordInfo> extractWords(String text, int size, boolean newWordsOnly)

/**

* 提取词语（新词发现）

* @param reader 从reader获取文本

* @param size 需要提取词语的数量

* @param newWordsOnly 是否只提取词典中没有的词语

* @return 一个词语列表

public static List<WordInfo> extractWords(BufferedReader reader, int size, boolean newWordsOnly) throws IOException

调用示例请参考com.hankcs.demo.DemoNewWordDiscover。值得注意的是，在计算资源允许的情况下，文本越长，结果质量越高。对于一些零散的文章，应当合并为整个大文件传入该算法。

高级参数

根据语料的长度或用词的不同，默认的参数有可能不能得到最佳的结果。我们可以通过构造不同的NewWordDiscover调整提取算法。该构造函数如下：

/**

* 构造一个新词识别工具

* @param max_word_len 词语最长长度

* @param min_freq 词语最低频率

* @param min_entropy 词语最低熵

* @param min_aggregation 词语最低互信息

* @param filter 是否过滤掉HanLP中的词库中已存在的词语

public NewWordDiscover(int max_word_len, float min_freq, float min_entropy, float min_aggregation, boolean filter)

其中：

· max_word_len控制识别结果中最长的词语长度，默认值是4；该值越大，运算量越大，结果中出现短语的数量也会越多。

· min_freq控制结果中词语的最低频率，低于该频率的将会被过滤掉，减少一些运算量。由于结果是按照频率排序的，所以该参数其实意义不大。

· min_entropy控制结果中词语的最低信息熵的值，一般取0.5左右。该值越大，越短的词语就越容易被提取出来。

· min_aggregation控制结果中词语的最低互信息值，一般取50到200.该值越大，越长的词语就越容易被提取出来，有时候会出现一些短语。

· filter设为true的时候将使用内部词库过滤掉“旧词”。

分享到：

NLP自然语言处理中的hanlp分词实例 | 中文自然语言处理工具HanLP源码包的下载使 ...

2019-02-15 15:25
浏览 822
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

pyhanlp安装介绍和简单应用: HanLP本身是一个全面、高效的Java工具包，专注于中文自然语言处理，包括但不限于中文分词、词性标注、命名实体识别、依存句法分析、关键词提取、新词发现、短语提取、自动摘要、文本分类以及拼音简繁转换等功能。...

HMMSegment:使用HMM进行中文分词: **中文分词是自然语言处理（NLP）领域的一个基础任务**，它的目的是将连续的汉字序列分割成具有语义意义的词汇单元。在中文文本中，由于没有明显的空格来区分单词，因此需要借助特定的算法来完成这个任务。**隐...

基于主从博弈的共享储能与综合能源微网优化运行研究：MATLAB与CPLEX实现: 内容概要：本文详细探讨了在主从博弈框架下，共享储能与综合能源微网的优化运行及其仿真复现。通过MATLAB和CPLEX的联合使用，展示了微网运营商和用户聚合商之间的动态博弈过程。上层模型关注微网运营商的定价策略，旨在最大化利润，考虑售电收益、储能运维成本等因素。下层模型则聚焦于用户聚合商的响应，根据电价调整电热负荷并参与共享储能调度。文中还介绍了电热耦合约束、充放电互斥约束等关键技术细节，并通过迭代博弈实现了策略更新。最终仿真结果显示，在引入电制热设备后，用户侧热负荷弹性提升，博弈收敛速度加快，达到双赢效果。适合人群：从事能源系统优化、博弈论应用、MATLAB编程的研究人员和技术人员。使用场景及目标：适用于希望深入了解主从博弈在综合能源系统中应用的学者和工程师。目标是掌握如何通过数学建模和编程实现复杂的能源系统优化，理解电热耦合机制和共享储能的作用。其他说明：文章提供了详细的代码片段和仿真结果，帮助读者更好地理解和复现实验。此外，还讨论了一些常见的调试问题和解决方案，如约束冲突等。

【基于矢量射线的衍射积分（VRBDI）】基于矢量射线的衍射积分（VRBDI）和仿真工具附Matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

【深度学习应用综述】多领域关键技术及应用场景汇总：从计算机视觉到金融风控的全面解析: 内容概要：深度学习在多个领域有着广泛应用。在计算机视觉方面，涵盖图像分类、目标检测、图像分割等任务，应用于自动驾驶、医疗影像分析等领域；在自然语言处理上，包括机器翻译、文本分类、文本生成等功能，服务于信息检索、内容创作等；语音识别与合成领域，实现了语音到文本的转换以及文本到语音的生成，推动了智能交互的发展；医疗领域，深度学习助力医学影像分析、疾病预测、个性化治疗及健康监测；金融领域，深度学习用于信用风险评估、欺诈检测、高频交易等，保障金融安全并优化投资策略；自动驾驶方面，环境感知与决策控制系统确保车辆安全行驶；娱乐与媒体领域，个性化推荐和内容生成提升了用户体验；工业与制造业中，质量检测和预测性维护提高了生产效率和产品质量。适合人群：对深度学习及其应用感兴趣的初学者、研究人员以及相关领域的从业者。使用场景及目标：帮助读者全面了解深度学习在不同行业的具体应用场景，明确各领域中深度学习解决的实际问题，为后续深入研究或项目实施提供方向指引。其他说明：随着深度学习技术的持续进步，其应用范围也在不断扩大，文中提及的应用实例仅为当前主要成果展示，未来还有更多潜力待挖掘。

【ARIMA-LSTM】合差分自回归移动平均方法-长短期记忆神经网络研究附Python代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

周梁伟-大模型在融合通信中的应用实践.pdf: 周梁伟-大模型在融合通信中的应用实践

基于S7-200 PLC与组态王的花式喷泉控制系统设计及应用: 内容概要：本文详细介绍了利用西门子S7-200 PLC和组态王软件构建的一个花式喷泉控制系统的设计与实现。首先阐述了系统的硬件组成，包括三个环形喷泉组、七彩LED灯带以及功放喇叭等组件，并给出了详细的IO分配表。接着深入解析了关键的梯形图程序逻辑，如自动模式循环、灯光控制、喷泉舞步等部分的具体实现方法。此外，还分享了一些实际调试过程中遇到的问题及其解决方案，例如电源隔离、电磁干扰处理等。最后展示了组态王界面上生动有趣的动画效果设计思路。适合人群：对PLC编程和工业自动化感兴趣的工程师和技术爱好者。使用场景及目标：适用于需要设计类似互动娱乐设施的专业人士，旨在帮助他们掌握从硬件选型、程序编写到界面美化的完整流程，从而能够独立完成类似的工程项目。其他说明：文中不仅提供了理论知识讲解，还包括了许多实践经验教训，对于初学者来说非常有价值。同时，作者还在系统中加入了一些趣味性的元素，如隐藏模式等，增加了项目的吸引力。

基于COMSOL的电弧熔池多物理场耦合仿真技术详解: 内容概要：本文详细介绍了利用COMSOL进行电弧熔池多物理场耦合仿真的方法和技术要点。首先解释了电弧熔池的本质及其复杂性，然后依次讲解了几何建模、材料属性设置、求解器配置以及后处理等方面的具体步骤和注意事项。文中提供了大量实用的MATLAB、Java和Python代码片段，帮助用户更好地理解和应用相关技术。此外，作者分享了许多实践经验，如分阶段激活物理场、使用光滑过渡函数处理相变、优化网格划分等，强调了参数选择和边界条件设定的重要性。适合人群：从事电弧熔池仿真研究的专业人士，尤其是有一定COMSOL使用经验的研究人员。使用场景及目标：适用于需要精确模拟电弧熔池行为的研究项目，旨在提高仿真精度并减少计算时间。主要目标是掌握多物理场耦合仿真的关键技术，解决实际工程中遇到的问题。其他说明：文章不仅提供了详细的理论指导，还包括许多实用的操作技巧和常见错误的解决方案，有助于读者快速上手并深入理解电弧熔池仿真的难点和重点。

9f148310e17f2960fea3ff60af384a37_098bb292f553b9f4ff9c67367379fafd.png: 9f148310e17f2960fea3ff60af384a37_098bb292f553b9f4ff9c67367379fafd

spring-ai-hanadb-store-1.0.0-M7.jar中文-英文对照文档.zip: # 【spring-ai-hanadb-store-1.0.0-M7.jar中文-英文对照文档.zip】中包含：中文-英文对照文档：【spring-ai-hanadb-store-1.0.0-M7-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址：【spring-ai-hanadb-store-1.0.0-M7.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖：【spring-ai-hanadb-store-1.0.0-M7.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖：【spring-ai-hanadb-store-1.0.0-M7.jar Gradle依赖信息(可用于项目build.gradle).txt】源代码下载地址：【spring-ai-hanadb-store-1.0.0-M7-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字： spring-ai-hanadb-store-1.0.0-M7.jar中文-英文对照文档.zip,java,spring-ai-hanadb-store-1.0.0-M7.jar,org.springframework.ai,spring-ai-hanadb-store,1.0.0-M7,org.springframework.ai.vectorstore.hanadb,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,springframework,spring,ai,hanadb,store,中文-英文对照API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压【spring-ai-hanadb-store-1.0.0-M7.jar中文-英文

azure-ai-openai-1.0.0-beta.7.jar中文文档.zip: # 压缩文件中包含：中文文档 jar包下载地址 Maven依赖 Gradle依赖源代码下载地址 # 本文件关键字： jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件；

3dmax插件复制属性.ms: 3dmax插件

单相全桥PWM整流双闭环控制系统：电压环PI与电流环PR控制策略及其应用: 内容概要：本文详细介绍了单相全桥PWM整流器采用双闭环控制策略的具体实现方法和技术要点。电压环采用PI控制器来稳定直流侧电压，电流环则使用PR控制器确保交流电流与电压同相位并实现单位功率因数。文中提供了详细的MATLAB、C和Python代码片段，解释了各个控制器的设计思路和参数整定方法。此外，文章还讨论了突加负载测试、电压前馈补偿、PWM生成以及硬件选型等方面的内容，强调了系统的稳定性和快速响应能力。适合人群：从事电力电子、自动控制领域的工程师和技术人员，尤其是对PWM整流器和双闭环控制感兴趣的读者。使用场景及目标：适用于需要精确控制直流电压和交流电流的应用场景，如工业电源、新能源发电等领域。目标是提高系统的电能质量和动态响应速度，确保在负载变化时仍能保持稳定的输出。其他说明：文章不仅提供了理论分析，还包括了大量的实际测试数据和波形图，帮助读者更好地理解和掌握双闭环控制的实际效果。同时，文中提到的一些调试技巧和注意事项对于实际工程应用非常有价值。

easyocr安装包和模型: easyocr安装包和模型

AC-DIMMER交流调光灯stm32.7z: AC_DIMMER交流调光灯stm32.7z

仲量联行-负责任的房地产：实现社会价值，赋能建筑环境，创造积极的环境和社会影响.pdf: 仲量联行-负责任的房地产：实现社会价值，赋能建筑环境，创造积极的环境和社会影响

C语言全部知识点复习资料.doc: C语言全部知识点复习资料.doc

【蓝桥杯EDA】客观题解析：第十二届省赛第一场真题.pdf: 【蓝桥杯EDA】客观题解析

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论