mmseg4j的字典数据结构（版本1.8.5）

单眼皮大娘

浏览: 114070 次
性别:
来自: 上海

最近访客更多访客>>

yujicun

yangjb

大口仔

VK血狼

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

分词

mmseg4j 分词字典结构

    最近在做分词，在网上发现了MMSEG，论文简单入理。在code.google.com上搜到了java的实现版本，非常感谢chenlb开源自己的代码。
    在学习mmseg4j对字典的结构比较困惑，做了些调研，写下自己的感受。

    mmseg4j采用 key-tree的形式存储字典数据结构，这有点类似中科院的ictclas4j的字典结构，ictclas4j的字典结构含有6768个字块（好像是这么多，可能有误），每一个子块是由含有以该字开头的词组成。结构图如下所示：

mmseg4j原始字典有两个，一个是chars.dct，另一个是words.dct。mmseg4j先加载chars.dct，这个比较简单，直接就是字和在语料库中的频率。频率是在CharNode这个类中。在加载words.dct的时候，实际上是对第一步加载chars.dct的填充，填充 CharNode 的 KeyTree字段。
KeyTree类中含有一个 TreeNode 字段，该字段也是一个类，其总定义了

                     char key;
		Map<Character, TreeNode> subNodes;
		boolean alsoLeaf;

该定义是一个递归的数据结构结构。

程序首先是通过下面的语句

CharNode cn = dic.get(line.charAt(0));

找到dic 中的 CharNode，dic即为加载chars.dct后的dct。其后开始逐渐的对CharNode填充，最后填充成这样的一种形式：所有同一个字开始的词语被放入到同一个CharNode中，而该规则是递归的，所有第二个词一样的也被列在同一个hashmap中，之后是第三个...依次类推下去。

这样构成了一个Character-CharNode的树状词典结构，在进行最大模式匹配时提升很大的效率。

以上的叙述有些粗浅。

查看图片附件

分享到：

基于本体语义标注 | 中科院分词系统的大致流程

2012-04-12 18:03
浏览 2792
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

嵌入式八股文面试题库资料知识宝典-华为的面试试题.zip: 嵌入式八股文面试题库资料知识宝典-华为的面试试题.zip

训练导控系统设计.pdf: 训练导控系统设计.pdf

嵌入式八股文面试题库资料知识宝典-网络编程.zip: 嵌入式八股文面试题库资料知识宝典-网络编程.zip

人脸转正GAN模型的高效压缩.pdf: 人脸转正GAN模型的高效压缩.pdf

少儿编程scratch项目源代码文件案例素材-几何冲刺转瞬即逝.zip: 少儿编程scratch项目源代码文件案例素材-几何冲刺转瞬即逝.zip

少儿编程scratch项目源代码文件案例素材-鸡蛋.zip: 少儿编程scratch项目源代码文件案例素材-鸡蛋.zip

嵌入式系统_USB设备枚举与HID通信_CH559单片机USB主机键盘鼠标复合设备控制_基于CH559单片机的USB主机模式设备枚举与键盘鼠标数据收发系统支持复合设备识别与HID.zip: 嵌入式系统_USB设备枚举与HID通信_CH559单片机USB主机键盘鼠标复合设备控制_基于CH559单片机的USB主机模式设备枚举与键盘鼠标数据收发系统支持复合设备识别与HID

嵌入式八股文面试题库资料知识宝典-linux常见面试题.zip: 嵌入式八股文面试题库资料知识宝典-linux常见面试题.zip

面向智慧工地的压力机在线数据的预警应用开发.pdf: 面向智慧工地的压力机在线数据的预警应用开发.pdf

基于Unity3D的鱼类运动行为可视化研究.pdf: 基于Unity3D的鱼类运动行为可视化研究.pdf

少儿编程scratch项目源代码文件案例素材-霍格沃茨魔法学校.zip: 少儿编程scratch项目源代码文件案例素材-霍格沃茨魔法学校.zip

少儿编程scratch项目源代码文件案例素材-金币冲刺.zip: 少儿编程scratch项目源代码文件案例素材-金币冲刺.zip

【HarmonyOS技术领域】HarmonyOS编译构建子系统解析：高效灵活的系统开发与优化工具: 内容概要：本文深入探讨了HarmonyOS编译构建子系统的作用及其技术细节。作为鸿蒙操作系统背后的关键技术之一，编译构建子系统通过GN和Ninja工具实现了高效的源代码到机器代码的转换，确保了系统的稳定性和性能优化。该系统不仅支持多系统版本构建、芯片厂商定制，还具备强大的调试与维护能力。其高效编译速度、灵活性和可扩展性使其在华为设备和其他智能终端中发挥了重要作用。文章还比较了HarmonyOS编译构建子系统与安卓和iOS编译系统的异同，并展望了其未来的发展趋势和技术演进方向。; 适合人群：对操作系统底层技术感兴趣的开发者、工程师和技术爱好者。; 使用场景及目标：①了解HarmonyOS编译构建子系统的基本概念和工作原理；②掌握其在不同设备上的应用和优化策略；③对比HarmonyOS与安卓、iOS编译系统的差异；④探索其未来发展方向和技术演进路径。; 其他说明：本文详细介绍了HarmonyOS编译构建子系统的架构设计、核心功能和实际应用案例，强调了其在万物互联时代的重要性和潜力。阅读时建议重点关注编译构建子系统的独特优势及其对鸿蒙生态系统的深远影响。

嵌入式八股文面试题库资料知识宝典-奇虎360 2015校园招聘C++研发工程师笔试题.zip: 嵌入式八股文面试题库资料知识宝典-奇虎360 2015校园招聘C++研发工程师笔试题.zip

嵌入式八股文面试题库资料知识宝典-腾讯2014校园招聘C语言笔试题（附答案）.zip: 嵌入式八股文面试题库资料知识宝典-腾讯2014校园招聘C语言笔试题（附答案）.zip

双种群变异策略改进RWCE算法优化换热网络.pdf: 双种群变异策略改进RWCE算法优化换热网络.pdf

三电平有源电力滤波器仿真：基于瞬时无功功率理论的双闭环控制与SVPWM调制技术: 内容概要：本文详细介绍了基于瞬时无功功率理论的三电平有源电力滤波器（APF）仿真研究。主要内容涵盖并联型APF的工作原理、三相三电平NPC结构、谐波检测方法（ipiq）、双闭环控制策略（电压外环+电流内环PI控制）以及SVPWM矢量调制技术。仿真结果显示，在APF投入前后，电网电流THD从21.9%降至3.77%，显著提高了电能质量。适用人群：从事电力系统研究、电力电子技术开发的专业人士，尤其是对有源电力滤波器及其仿真感兴趣的工程师和技术人员。使用场景及目标：适用于需要解决电力系统中谐波污染和无功补偿问题的研究项目。目标是通过仿真验证APF的有效性和可行性，优化电力系统的电能质量。其他说明：文中提到的仿真模型涉及多个关键模块，如三相交流电压模块、非线性负载、信号采集模块、LC滤波器模块等，这些模块的设计和协同工作对于实现良好的谐波抑制和无功补偿至关重要。

工业自动化领域OPC DA转MQTT网关软件设计与实现：应对不良网络环境的数据传输解决方案: 内容概要：本文探讨了在工业自动化和物联网交汇背景下，构建OPC DA转MQTT网关软件的需求及其具体实现方法。文中详细介绍了如何利用Python编程语言及相关库（如OpenOPC用于读取OPC DA数据，paho-mqtt用于MQTT消息传递），完成从OPC DA数据解析、格式转换到最终通过MQTT协议发布数据的关键步骤。此外，还讨论了针对不良网络环境下数据传输优化措施以及后续测试验证过程。适合人群：从事工业自动化系统集成、物联网项目开发的技术人员，特别是那些希望提升跨协议数据交换能力的专业人士。使用场景及目标：适用于需要在不同通信协议间建立高效稳定的数据通道的应用场合，比如制造业生产线监控、远程设备管理等。主要目的是克服传统有线网络限制，实现在不稳定无线网络条件下仍能保持良好性能的数据传输。其他说明：文中提供了具体的代码片段帮助理解整个流程，并强调了实际部署过程中可能遇到的问题及解决方案。

基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档（毕业设计&课程设计&项目开发）: 基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档~ 基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档

少儿编程scratch项目源代码文件案例素材-火柴人终极之战.zip: 少儿编程scratch项目源代码文件案例素材-火柴人终极之战.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论