一种利用ngram模型来消除歧义的中文分词方法

yangshangchuan

浏览: 2483531 次
性别:
来自: 北京

最近访客更多访客>>

wangyy

akingde

feilafei123

wf_chn

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

word分词

word ngram 中文分词词义消歧

这里的歧义是指：同样的一句话，可能有两种或者更多的切分方法，这些切分结果，有的正确，有的不正确。

消除歧义的目的就是从切分结果中挑选切分正确的。

假设我们要切分句子：结婚的和尚未结婚的，使用逆向最大匹配和正向最大匹配算法的结果如下：

1 2	`逆向最大匹配：[结婚, 的, 和, 尚未, 结婚, 的]` `正向最大匹配：[结婚, 的, 和尚, 未结, 婚, 的]`

再比如，这几块地面积还真不小：

1 2	`逆向最大匹配：[这, 几块, 地, 面积, 还真, 不小]` `正向最大匹配：[这, 几块, 地面, 积, 还真, 不小]`

这里就出现了歧义现象，这种歧义现象称为交集型歧义。

交集型歧义的特点是，其中的一个字既可以和前面的字结合成词，也可以和后面的字结合成词，如上面所说的“和尚未"中尚就是这样的字，既可以和前面的字结合成“和尚”也可以和后面的字结合成“尚未”。还有“地面积”中的面，既可以是地面，也可以是面积。

那么我们该选择哪一个分词结果呢？

我们可以利用ngram模型来消除歧义，我们看第一个例子的分词过程：

初始化bigram

bigram初始化完毕，bigram数据条数：1519443
 
利用bigram为逆向最大匹配算法的分词结果进行评分：
 
二元模型 结婚:的 获得分值：16.970562

二元模型 和:尚未 获得分值：2.0

二元模型 尚未:结婚 获得分值：1.4142135

二元模型 结婚:的 获得分值：16.970562
 
逆向最大匹配：[结婚, 的, 和, 尚未, 结婚, 的] : ngram分值=37.35534
 
利用bigram为正向最大匹配算法的分词结果进行评分：
 
二元模型 结婚:的 获得分值：16.970562

二元模型 的:和尚 获得分值：3.0
 
正向最大匹配：[结婚, 的, 和尚, 未结, 婚, 的] : ngram分值=19.970562
 
最大分值：37.35534, 消歧结果：[结婚, 的, 和, 尚未, 结婚, 的]

接着看第二个例子：

利用bigram为逆向最大匹配算法的分词结果进行评分：
 
二元模型 地:面积 获得分值：1.7320508
 
逆向最大匹配：[这, 几块, 地, 面积, 还真, 不小] : ngram分值=1.7320508
 
利用bigram为正向最大匹配算法的分词结果进行评分：
 
正向最大匹配：[这, 几块, 地面, 积, 还真, 不小] : ngram分值=0.0
 
最大分值：1.7320508, 消歧结果：[这, 几块, 地, 面积, 还真, 不小]

这里要解释的是，ngram中的n>1，我们这里取2(bi)，我们看到bigram中数据的条数有1519443，bigram需要从人工标注的语料库中提取，提取方法参考word分词项目，bigram中的数据格式如下：

1

2

3

4

5

6

结婚:登记 91

结婚:的 288

地:面积 3

和:尚未 4

尚未:结婚 2

的:和尚 9

表示的含义是在人工标注的语料库中，结婚这个词后面跟着登记这个词的出现次数是91次，结婚这个词后面跟着的这个词的出现次数是288次。

如果ngram中的n为3，则数据格式如下：

1

2

3

4

结婚:的:事情 3

结婚:的:人 4

结婚:的:信念 2

结婚:的:决定 13

表示的含义和bigram一致。

通过分析bigram和trigram，我们知道，在ngram中，n越大，消歧的效果就越好，但是数据也越大，耗费的内存就更多了。

利用ngram模型来消除歧义，依赖人工标注的语料库，利用了统计学的大数定律，这种方法的缺点在于无法处理少见的语言现象，以及无法处理样本覆盖不到的情况。

1
顶

2
踩

分享到：

中文分词之9271组反义词 | 一种基于词性序列的人名识别方法

2015-05-06 04:44
浏览 7741
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

一种改进的中文分词歧义消除算法研究: ### 一种改进的中文分词歧义消除算法研究 #### 关键知识点概述本文主要讨论了一种改进的中文分词歧义消除算法的研究。中文分词是自然语言处理(NLP)的重要组成部分，对于后续的语义分析、机器翻译等任务至关重要。...

word:Java分布式中文分词组件 - word分词: word分词是一个Java实现的分布式的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。能通过...

中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法: word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene...

COMSOL中铝水声子晶体能带与流固耦合仿真的关键技术解析: 内容概要：本文详细介绍了使用COMSOL进行铝水声子晶体能带结构和流固耦合仿真的方法和技术细节。首先讨论了材料参数的选择和设置，强调了铝和水的具体参数调整及其重要性。接着阐述了几何建模的方法，如采用二维晶格和蜂窝结构，并提供了具体的建模步骤和代码片段。然后深入探讨了流固耦合边界的处理方式，包括物理场设置、边界条件以及网格划分的注意事项。此外，还讲解了能带计算过程中的一些实用技巧，如扫描路径的选择、参数化扫描的应用等。最后，分享了一些常见错误及其解决办法，帮助初学者避免常见的陷阱。适合人群：对声子晶体研究感兴趣的研究人员、研究生以及从事相关领域工作的工程师。使用场景及目标：适用于希望深入了解COMSOL软件在声子晶体仿真领域的应用，掌握具体操作流程和技术要点的人群。目标是提高使用者对COMSOL的理解，增强其解决复杂工程问题的能力。其他说明：文中不仅提供了详细的理论指导，还附带了大量的实例代码和实践经验分享，有助于读者更好地理解和应用所学知识。

LabVIEW触摸键盘模块：实现可移植性和源码转出的技术解析: 内容概要：本文详细介绍了LabVIEW触摸键盘模块的设计与实现，强调了其在工业控制和手持设备交互中的应用价值。首先阐述了LabVIEW触摸键盘的魅力及其在各种场景中的实用性。接着探讨了如何通过合理的代码结构和资源配置实现键盘模块的高度可移植性，如使用配置文件管理按键参数。然后讲解了源码转出的方法，包括导出为源代码发布以及利用LabVIEW的内置功能进行源码管理和移植。最后深入剖析了触摸键盘的具体代码实现，涵盖事件驱动架构、模块化设计、触摸优化等方面的内容。适合人群：对LabVIEW编程有一定了解，希望深入了解LabVIEW触摸键盘模块设计与实现的工程师和技术爱好者。使用场景及目标：适用于需要开发定制化输入界面的工业控制系统、自动化测试系统等场景。目标是提高开发效率，增强代码的可移植性和复用性，同时确保良好的用户体验。其他说明：文中提供了多个具体的代码示例和实践经验，帮助读者更好地理解和应用所介绍的技术方法。此外，还提到了一些常见的移植问题及解决方案，有助于避免潜在的技术障碍。

jenkins-2.492.3-1.1: jenkins-2.492.3-1.1

Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）: Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档），个人经导师指导并认可通过的高分设计项目，评审分99分，代码完整确保可以运行，小白也可以亲自搞定，主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者，可作为毕业设计、课程设计、期末大作业，代码资料完整，下载可用。 Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的人脸识别系统深度学习（源码+文档）Python毕业设计-基于Python的

BP神经网络信息新陈代谢模型：基于误差逆向传播与数据更新机制的时间序列预测优化: 内容概要：本文详细介绍了如何构建一种带有信息新陈代谢机制的BP神经网络模型，用于改进时间序列预测的效果。首先通过Python的Keras库搭建了一个基础的BP神经网络，用于预测正弦曲线。接着引入了一种数据滚动更新机制，即在每次预测后将最早30%的旧数据替换为最新预测结果，从而保持数据的新鲜度。文中还展示了如何利用滑动窗口技术和适当的代谢系数来提高模型对数据突变的响应速度，并通过实例证明了这种方法的有效性。此外，文章讨论了如何通过调整学习率和添加噪声来进一步优化模型性能。适合人群：具有一定编程基础，尤其是熟悉Python和机器学习基础知识的研发人员和技术爱好者。使用场景及目标：适用于需要处理时间序列数据的场景，如股票预测、能耗分析、电商销量预测等。主要目标是通过引入信息新陈代谢机制，使模型能够更好地适应数据的变化，减少预测误差，提高预测准确性。其他说明：文中提供了多个代码片段，帮助读者理解和实现相关技术。需要注意的是，虽然该方法在大多数情况下表现良好，但在数据分布发生剧烈变化时仍需人工干预。

实证分析-ESG发展对企业新质生产力影响的研究-来自中国A股上市企业的经验.txt: 因文件较多，数据存放网盘，txt文件内包含下载链接及提取码，永久有效。失效会第一时间进行补充。样例数据及详细介绍参见文章：https://blog.csdn.net/samLi0620/article/details/147458849

COMSOL中基于弱形式PDE的两相流渗流模拟及其在水驱油中的应用: 内容概要：本文详细介绍了如何利用COMSOL Multiphysics软件进行两相流渗流模拟，特别是在水驱油过程中采用弱形式偏微分方程(PDE)建模的方法。首先解释了基本概念，如达西定律、物质守恒定律以及油水两相的饱和度关系。接着展示了关键代码片段，包括定义弱形式表达式、饱和度更新机制、边界条件处理和时间导数项的处理。文中提到通过调整渗透率参数、相对渗透率函数和其他物理属性，可以灵活模拟复杂的地质环境。此外，作者分享了模型验证的经验，将模拟结果与经典的Buckley-Leverett解析解进行了对比，验证了模型的有效性和准确性。最后讨论了一些实用技巧，如使用自适应时间步长、处理非线性问题的分步迭代方法等。适合人群：对数值模拟、油藏工程、多相流动力学感兴趣的科研人员和技术开发者。使用场景及目标：适用于研究油藏开发中的水驱油过程，帮助研究人员更好地理解和预测地下油水运动规律，优化开采方案。其他说明：文章强调了弱形式PDE建模的灵活性和强大功能，同时也指出了调试过程中可能遇到的问题及解决方案。对于希望深入理解COMSOL内部工作机制和提高仿真精度的研究者来说，是一份非常有价值的参考资料。

FPGA开发中适用于Xilinx Vivado的CPRI IP License介绍及其应用: 内容概要：本文详细介绍了针对Xilinx Vivado的CPRI IP License的特点和优势，包括其对多个Vivado版本的支持、不受限于MAC地址绑定以及永久有效性。文中还提供了具体的VHDL代码示例，展示了如何利用CPRI IP License在Vivado环境中构建并配置CPRI协议的数据传输模块。此外，文章分享了一些实用的技术细节，如Tcl脚本用于创建和配置CPRI IP核，Verilog代码用于设置时钟树和其他重要参数，以及调试过程中的一些技巧。适用人群：从事FPGA开发尤其是涉及CPRI协议的工程师和技术人员。使用场景及目标：帮助开发者更好地理解和使用Xilinx Vivado提供的CPRI IP License，提高开发效率，减少因License限制带来的不便。具体应用场景包括但不限于无线基站中的基带和射频单元间的数据传输。其他说明：文中提到的CPRI IP License不仅解决了传统License存在的设备绑定问题，还确保了一次购买即可长期使用的便利性。这对于需要频繁更换开发环境或多台设备协同工作的团队尤为重要。

【C++编程技术】修剪的灌木生长最高记录算法实现与优化：CSDN博客代码解析: 内容概要：本文主要介绍了一个名为“修剪的灌木生长最高记录”的C++程序。程序旨在模拟灌木修剪后的生长情况，通过输入参数n（代表灌木的数量或某种边界），利用数组a记录每棵灌木被修剪的情况，数组max用于保存每棵灌木的最大生长高度。程序通过循环与条件判断，模拟了灌木的修剪和生长过程，最终输出每棵灌木的最大高度。代码中使用了goto语句实现循环逻辑，通过变量k控制方向（正向或反向遍历），并通过条件判断更新最大值。程序的核心在于通过循环不断调整灌木的高度并记录最大值。适合人群：具有C++编程基础的学习者和开发者，特别是对算法和数据结构有一定了解的人群。使用场景及目标：①学习如何通过循环和条件判断来模拟现实世界中的问题，如灌木的生长与修剪；②掌握数组操作技巧，包括如何用数组记录和更新数据。阅读建议：建议读者在阅读时重点关注循环和条件判断部分，理解程序的执行流程。

无刷直流电机(BLDC)调速控制系统中速度环PID与电流滞环控制的实现及优化: 内容概要：本文详细介绍了无刷直流电机（BLDC）调速控制系统的实现方法，特别是速度环PID控制器和电流滞环比较器的设计与优化。文中首先阐述了速度环PID控制器的实现，强调了PID输出限幅和抗积分饱和的重要性，并提供了具体的代码示例。接下来讨论了电流滞环比较器的作用及其对PWM生成的影响，指出了滞环宽度的选择对于开关频率和电流纹波的平衡至关重要。此外，文章还分享了一些实用的调试技巧，如Ziegler-Nichols法整定PID参数、硬件死区时间和换相时刻的处理等。最后展示了实测数据，验证了系统的性能。适合人群：从事电机控制、嵌入式系统开发的技术人员，尤其是有一定编程基础并对PID控制和BLDC电机感兴趣的工程师。使用场景及目标：适用于需要精确控制无刷直流电机转速的应用场合，如工业自动化设备、无人机、电动工具等。目标是帮助读者掌握BLDC调速控制系统的原理和实现方法，提高系统的响应速度和稳定性。其他说明：文章不仅提供了详细的代码实现，还分享了许多实践经验，有助于读者避免常见的错误和技术陷阱。同时，文中提到的一些调试技巧和优化方法可以应用于类似控制系统的设计中。

groovy-2.5.10.jar中文文档.zip: # 压缩文件中包含：中文文档 jar包下载地址 Maven依赖 Gradle依赖源代码下载地址 # 本文件关键字： jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件；

基于MATLAB/SIMULINK的定子磁链控制直接转矩控制系统仿真研究: 内容概要：本文详细介绍了基于定子磁链控制的直接转矩控制系统（DTC）的MATLAB/SIMULINK仿真模型及其研究。首先阐述了异步电动机的工作原理和数学模型，接着解释了直接转矩控制的基本原理，包括Park变换、转矩和速度的计算以及PWM调制技术的应用。随后，文章逐步指导如何在MATLAB/SIMULINK平台上搭建DTC仿真模型，涵盖模型搭建、参数配置和编程实现的具体步骤。最后，通过对仿真结果的分析，验证了DTC系统的良好动态性能和抗干扰能力。适合人群：电气工程专业学生、从事电力电子和电机控制领域的研究人员和技术人员。使用场景及目标：适用于希望深入了解直接转矩控制原理及其仿真的读者，旨在帮助他们掌握DTC系统的构建和优化方法，提高对电力电子技术的理解和应用能力。其他说明：文中提供了大量MATLAB代码片段和仿真结果图表，有助于读者更好地理解和实践DTC系统的具体实现。此外，还分享了一些实用的经验和技巧，如参数调整、故障排除等。

flink-table-common-1.14.0.jar中文-英文对照文档.zip: # 压缩文件中包含：中文-英文对照文档 jar包下载地址 Maven依赖 Gradle依赖源代码下载地址 # 本文件关键字： jar中文-英文对照文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法：解压最外层zip，再解压其中的zip包，双击【index.html】文件，即可用浏览器打开、进行查看。 # 特殊说明： ·本文档为人性化翻译，精心制作，请放心使用。 ·只翻译了该翻译的内容，如：注释、说明、描述、用法讲解等； ·不该翻译的内容保持原样，如：类名、方法名、包名、类型、关键字、代码等。 # 温馨提示：（1）为了防止解压后路径太长导致浏览器无法打开，推荐在解压时选择“解压到当前文件夹”（放心，自带文件夹，文件不会散落一地）；（2）有时，一套Java组件会有多个jar，所以在下载前，请仔细阅读本篇描述，以确保这就是你需要的文件；

FPGA中基于VHDL的16阶FIR低通滤波器设计与实现: 内容概要：本文详细介绍了如何使用VHDL语言在FPGA上实现16阶FIR低通滤波器的设计与实现。首先，文中给出了滤波器的基本参数设定，如采样率为50MHz，截止频率为3MHz，并采用汉明窗进行设计。接着，展示了顶层实体声明及其内部逻辑结构，包括移位寄存器作为延迟线以及乘累加操作的具体实现方法。同时提供了完整的VHDL代码片段，涵盖了从顶层实体定义到具体的功能模块，如系数生成、数据移位寄存器和乘累加模块。此外，还讨论了ModelSim仿真的配置与测试激励生成方式，确保仿真结果能够正确反映滤波器性能。最后，针对硬件实现过程中可能出现的问题进行了提示，如时钟约束、资源优化等。适合人群：具有一定FPGA开发经验的技术人员，尤其是对VHDL编程有一定了解并希望深入研究FIR滤波器实现的人群。使用场景及目标：适用于需要在FPGA平台上快速搭建并验证FIR低通滤波器的应用场合。主要目标是帮助开发者掌握FIR滤波器的工作原理及其在FPGA上的高效实现方法。其他说明：文中不仅提供了详细的代码示例，还包括了许多实用的经验分享和技术要点提醒，有助于提高开发效率并减少常见错误的发生。

HALCON_标定与精确测量.pdf: HALCON_标定与精确测量.pdf

C# BMS上位机源码解析：串口协议与数据库存储的高效实现: 内容概要：本文详细介绍了C# BMS上位机项目的源码实现，重点关注串口协议和数据库存储两大核心模块。对于串口协议，文章展示了如何通过模块化设置参数和事件驱动机制提高扩展性，使得在面对新设备连接或数据格式变更时能够轻松应对。数据库存储方面，则利用SQLite实现了数据的持久化，通过参数化查询防止SQL注入风险，并采用ORM结合原生事务控制提升性能。此外，文中还探讨了一些高级特性，如通过反射自动注册指令处理器、环形缓冲区解决数据分包问题以及数据库分表策略等。适合人群：具有一定编程基础，尤其是对C#和嵌入式系统感兴趣的开发者。使用场景及目标：适用于需要开发电池管理系统或其他涉及串口通信和数据持久化的工业控制系统。主要目标是帮助开发者理解和掌握高效的串口通信和可靠的数据存储方法，从而构建更加健壮的应用程序。其他说明：文章提供了大量实用的代码片段和设计思路，强调了扩展性和性能优化的重要性。同时指出了一些潜在的问题及其解决方案，如粘包问题和数据帧完整性校验。

44页-腾讯智慧校园中小学解决方案.pdf: 踏入智慧校园的新时代，一场科技与教育的深度融合正在悄然上演。本方案以大数据、云计算、AI等前沿技术为基石，为校园管理带来前所未有的变革与便捷。一、一键智控，校园管理轻松升级想象一下，只需轻点手机，就能实现校园的全面智控。从教学教务到行政后勤，从师生考勤到校园安全，智慧校园解决方案一网打尽。通过构建统一的数据中台，实现各系统间的无缝对接与数据共享，让繁琐的管理工作变得轻松高效。智能排课、自动考勤、在线审批……一系列智能应用让校园管理如虎添翼，让校长和老师们从繁琐的事务中解放出来，专注于教学创新与质量提升。二、寓教于乐，学习生活趣味无穷智慧校园不仅让管理变得更简单，更让学习生活变得趣味无穷。AI赋能的教学系统能根据学生的学习习惯和能力，提供个性化的学习路径与资源推荐，让学习变得更加高效有趣。同时，丰富的课外活动与社团管理模块，让孩子们的课余生活也充满了欢声笑语。从智慧班牌到智能录播，从家校共育到虚拟实验室，智慧校园让每一个角落都充满了探索的乐趣与知识的光芒。三、安全守护，校园生活无忧无虑在智慧校园的守护下，校园生活变得更加安全无忧。通过高清视频监控、智能预警系统与人脸识别技术，校园安全得到了全方位保障。无论是外来人员的入侵还是学生的异常行为，都能被及时发现并处理。同时，智能化的健康管理系统还能实时监测师生的健康状况，为校园防疫工作提供有力支持。智慧校园，用科技的力量为每一位师生筑起了一道坚实的安全防线，让校园生活更加安心、舒心。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论