粗略看了点ansj源代码,记录备忘。
词典等配置文件加载类(以调用NlpAnalysis分词类为例):
1, MyStaticValue
初始化NlpAnalysis中static的静态变量splitword时调用了MyStaticValue类,该类中几乎所有变化、方法均是静态的。包括以ResourceBundle.getBundle("library")获取library.properties配置文件,读取用户词典路径、歧义词典路径、是否用户辞典不加载相同的词isSkipUserDefine、isRealName。并读取resources目录下的company、person、newword、nature(词性表、词性关联表)等文件夹中的数据,及resources目录下bigramdict.dic(bi-gram模型)、英文词典englishLibrary.dic、数字词典numberLibrary.dic,以及加载crf模型。
2,DATDictionary
在MyStaticValue读取数据中,如加载bigramdict.dic时,会根据词调用DATDictionary.getItem获取AnsjItem,而在DATDictionary类中包含静态变量DAT,加载core.dic这个核心词典,构造双数组trie树
3,UserDefineLibrary
NlpAnalysis的父类Analysis中定义成员ambiguityForest,初始化为UserDefineLibrary.ambiguityForest。UserDefineLibrary类中均为静态方法。该类加载配置文件中userLibrary项对应路径的词典,包括用户词典,及歧义词典。均加载为Forest。
各词典内容及加载:
DATDictionary.loadDAT()中加载,返回DoubleArrayTire。(有限状态的自动机。每个节点代表自动机的一个状态,根据变量的不同,进行状态转移,当到达结束状态或者无法转移的时候,完成查询DoubleArrayTire.getItem)
理解双数组:1是base-index,2是check-index。base用于确定状态的转移,check用于检验转移的正确性
11万。第一行是树大小。
列:index(词id),name(词),base,check,status,{词性=词频,词性=词频….}
Index是dat数组的下标,对于字,是字符的ascii码
name不一定是一个词,也可能是词的前缀
base默认为65536(2的16次方)。词的index为前缀词的base+末字。如index(泰晤士报)=base(泰晤士)+‘报’。65536表示为叶子节点
check是词由哪个词转换过来的,即前缀。如公因数、公因式的check为118193,而118193为公因的id。而公因的check为20844,为公的id。单字为-1
status是当前单词的状态。status>1时用index、词性词频构成词。词的默认词性为词频最大的词性。IN_SYSTEM中只保存status<4的词,status<2的词name被赋为null。status为各个值的意义,见Analysis.analysis方法及以下词典文件:1为词性词频为null的字、词,不能单独存在,应继续;4为圆半角英文字母及';5为数字、小数点、百分号;2、3为词,其中2表示是个词但是还可以继续,3表示停止已经是个词了。
core词典参考附件
人名标注先后加载person/person.dic和person/asian_name_freq.data
人名加载在DATDictionary.loadDAT()方法中仅次于读取何鑫词典生成双数组trie树执行。PersonAttrLibrary调用MyStaticValue加载。两者加载在同一个map中,key为词,value为PersonNatureAttr。两个pna不同。前者的pna调用addFreq设置begin、end、split、allFreq,后者的pna调用setlocFreq设置词在某一长度的词中某一位置的词频。加载完后若词的长度为1且不在dat中,将其添加到dat中
person.dic词语的上下文。格式列:词,index,freq。index取值为11(人名的下文),12(两个中国人名之间的成分),44(可拆分的姓名)
asian_name_freq.data(对象反序列化)字体位频率表。初始文件加载结果为一个map,key为词,value为大小为3的数组,各元素分别为大小为2、3、4的数组。分别表示在2字人名、3字人名、4字人名中第1-2,1-3,1-4个位置出现的概率。参考http://ansjsun.iteye.com/blog/1678483
nature/nature.map四列,index,词性index,词性,词性allfreq。其中所列的词性比下表中提供的词性少,仅有其中的一类和部分二类词性(也并非子集)。
词性表参考附件
nature/nature.table是词性关联表。行数(50行)等同于nature.map中的行数,并且与nature.map相对应,即每行表示的词性同nature.map中的词性。每行中有50个列,即构成50*50的矩阵,每个(i,j)位置的数值表示从前一个词的词性i变化到下一个词的词性j的发生频次。用在词性标注工具类NatureRecognition中
词性标注:NatureRecognition.recognition()。以传入的分词结果构造NatureRecognition对象,其中成员natureTermTable为二维数组,每行表示当前词的词性数组NatureTerm[]。
词关联表。Bi-Gram。词典中为词与词之间的关联数据,@前为from,后为to及词频。
Bi-Gram,是二元的N-Gram(汉语语言模型,又称为一阶马尔科夫链。该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关)。计算出每种分词后句子出现的概率,并找出其中概率最大的,即为最好的分词方法。
用户自定义词典:library.properties中配置,MyStaticValue加载配置文件,由UserDefineLibrary根据词典路径加载词典。用户词典可以为目录,其中的词典必须后缀名为dic,如果设置了MyStaticValue.isSkipUserDefine,且在核心词典中存在该词,则跳过;若当前行只有列数不为3,以默认词性userDefine/词频1000构造。Library.insertWord(forest, value)加载用户自定义词典:添加过程:初始branch指向forest。每个字生成一个branch,除最后一个字生成的branch的status为3,参数为resultParams外,其余的branch的status为1,参数为null。在当前字branch的子节点branches中二分查找下一个字(其中branches是字典序排列的),若查找失败,添加到合适位置上,否则更新当前branch的status(1继续,2是个词语但是还可以继续,3确定nature)
加载过程中不负责解析歧义,只区分原词temp和剩下所有的词resultParams(数组),逐字添加temp到forest中。歧义词典只有一个文件。添加temp的过程为同添加用户自定义词典的过程,调用Library.insertWord。歧义词典中的词性不是很重要,但是需要。词性也可是null,若是null,分词后该词无词性标注。歧义词典中也可以只有一个词,定义一定要分的词,如“江湖上 江湖上 n”,这种情况下“江湖上”是比分的。要慎用。
crf模型:crf/crf.model
由MyStaticValue调用。该model文件是由crf++生成的明文模型调用GZIPOutputStream压缩过后的文件。Model.writeModel执行。Model.loadModel调用GZIPInputStream执行解压
CRF++模型文件model
模型格式参考:http://www.hankcs.com/nlp/the-crf-model-format-description.html(CRF模型格式)
CRFModel.parseFile读取模型文件。依次读取文件头【其中maxid为特征数,即特征权值的行数】、标签【statusMap存储输出标签,即状态。tagNum为标签数,若为BEMS则为4】、模板【同crf++训练是的template文件中的内容,去掉空行。Template.parse解析模板,返回一个Template t,其ft变量为二维数组,其大小为模板的行数,t.ft[index] = ints,其中index为每行模板的编号,ints为数组,其值为对应的行号(代码中为空格分隔,且与列位置无关)。如“U05:%x[-2,0]/%x[-1,0]/%x[0,0]”,t.ft[5] = ints[-2,-1,0],t.left、t.right分别为ints中数值的最小值与最大值】、特征函数【每行是一个TempFeature。如“107540 U05:一/方/面”,id为107540/tagNum,featureId为5,name为词,即“一方面”。其中id为16开始,而0-15为BEMS转移到BEMS的转移函数,id也不是连续的,而是隔了tagNum个】、特征函数权值【依id顺序对应每个特征函数的权值,前16行为转移函数权值,用二维数组status表示。随后返回map,myGrad,key为词,value为Feature。连续的4个权值对应一个特征函数BEMS状态下的权值,例如第17-20行权值对应id为16的特征函数。每读一行权重,更新Feature的value、w,其中value为4个权重累加,w为二维数组,大小同t.ft的大小,w[fIndex][sta],fIndex对应TempFeature中的featureId,sta为0-tagNum-1,相同的fIndex和sta权重累加,即若存在相同的特征函数和输出状态,权重累加】。
SplitWord(Model model)根据statusMap标签构造SplitWord对象
分词过程Analysis.analysisStr:
<!--[if !supportLists]-->1, <!--[endif]-->构造最短路径图Graph
<!--[if !supportLists]-->2, <!--[endif]-->判断是否启用歧义词典。若是,找出句子中是否包含歧义词。若不存在,对整个句子调用Analysis.analysis;若存在,优先歧义词:以歧义词分隔原句子,根据歧义分词数组中的词及词性逐个添加到graph中,并对非歧义词的部分分别调用Analysis.analysis。Analysis.analysis的过程为按字从DAT中找,通过GetWordsImpl.allWords()查询字在DAT中的base、check等获得状态返回单字或词,调用graph.addTerm添加节点到graph的terms数组中,同时标注是否为数字,英文
以下例子:“让战士们过一个欢乐祥和的新春佳节”,添加完后terms为如图1所示
而以下例子:“让战士们过一个阖家欢乐的新春佳节”,添加完后terms为如图2所示
原因是阖、阖家在core中的status均为1,认为不是词应继续;而欢、祥、战等的status为2,认为是词,只是可以继续
<!--[if !supportLists]-->1, <!--[endif]-->调用getResult(graph)获取分词结果。各粒度的分词结果区别就在于该方法,analysisStr都没有重写,都是调用父类的。各重写的getResult(graph)方法中均定义Merger类,包含merger()和getResult()方法,代为获取分词结果。Merger中首先调用graph.walkPath()遍历打分。 (官方说明:N最短路径的粗切分,根据隐马尔科夫模型和viterbi算法,达到最优路径的规划)
graph.walkPath()计算过程:从根节点开始,依次获取terms中各个节点,对其各个前置节点,分别计算分值,取分值最小的设置为其from节点。其中该分值表示为从from节点到当前节点的可能性,计算该分值在MathUtil.compuScore中,(hmm/viterbi算法:转移概率+表现概率),为from节点的score+当前value,而当前value由from所属词性的频率及bigramdic中设定的from到当前词的关联数值等决定。随后调用optimalRoot()根据路径从后往前修改terms数组,将不在路径上的term设为null,非null的依次就是该句的分词结果
BaseAnalysis的分词过程极为以上的过程
ToAnalysis多支持了用户词典、数字、人名的识别。在Merger.merger()中增加了NumRecognition.recognition()、AsianPersonRecognition().recognition()、userDefineRecognition等
其中userDefineRecognition是在基础分词步骤3的基础上,遍历所生成的terms数组中的词,根据词是否结束,即状态1-3,识别是不是在用户自定义词典中。若自定义词生效,即需要更新terms数组。具体步骤:
1,UserDefineRecognition().recognition()执行后找出了句子中在用户自定义词典中的词,在对应词的位置生成新的节点term,为原term的next节点
2,graph.rmLittlePath()匹配最长的term,执行后若无交叉,以最长匹配更新terms中的词,否则暂不修改
3,graph.walkPathByScore()的mergerByScore对节点遍历打分。打分类似于walkPath(),区别在于walkPath()计算分值时使用了viterbi算法,而该方法仅考虑了词频。当前词的分值为本词的负词频与from词的分值之和。由此分值往后传递。词频高的词优于词频低的词就在这体现。执行后的结果是根据最优路径修改各词的from节点和分值
如以下例子:"上海电力怎爸爸去哪儿么办",原分词结果为[上海/ns,电力/n, 怎/r, 爸爸/n, 去/v, 哪儿/r, 么/y, 办/v],若添加用户词“爸爸去哪儿”,该词生效,其中term“爸爸去哪儿”为term“爸爸”的next节点,分词结果为“上海/电力/怎/爸爸去哪儿/么/办”;若用户词为“怎爸”,不能生效;甚至用户词为“爸爸去哪”,也不能生效,虽然能识别出“爸爸”和“去”,但是“哪儿”不在用户词典所创建的树中。若用户词包含“爸爸去哪儿”和“去哪儿了呢”,且前者词频高于后者,前者被分出来;否则后者被分出来,词频相同时根据从后往前原理,也是后者优先。
IndexAnalysis和ToAnalysis类Merger的merger方法相同,区别在于Merger的getResult方法,后者仅移除terms数组中为null的term,而前者针对长度大于等于3的词,还会调用GetWordsImpl.allWords()进行一次分词,将其中长度超过1的词也添加到terms数组中
NlpAnalysis与ToAnalysis的区别在于它在标准分词的基础上会进行词性调整NatureRecognition.recognition(),并引入了crf模型来分词,以及增加了新词发现LearnTool等功能
其中词性标注NatureRecognition.recognition(),标准分词结果中的词性是取得core词典中该词freq最高的词性,而该方法会对所有的词性比较,计算各个词性到后一个词词性的可能性,该可能性与nature.table中定义的词性相关性及词性本身的频率有关,计算见MathUtil.compuNatureFreq。将计算结果最大的设为后一个词性的from词性。
LearnTool.learn方法中只有对亚洲和外国人名的识别,没有其他功能。
其他辅助类及辅助方法:
GetWordsImpl.getStatement 0.代表这个字不在词典中 1.继续 2.是个词但是还可以继续 3.停止已经是个词了。
WordAlert是字符串规范的转换类
MathUtil是计算的类,包括计算两个词性之间的分数(NatureLibrary.getTwoNatureFreq,根据NATURETABLE),两个词之间的分数(NgramLibrary.getTwoWordFreq,NgramLibrary中加载)等
Analysis.setRealName,可能是分词过程中将部分词进行了标准化,比如繁体转简体,%等(见DATDictionary.IN_SYSTEM),该方式是返回原句的分词。但是测试“%”始终返回的是原词
相关推荐
2. 初始化:创建分词器实例,并加载词典和模型。 3. 分词:调用分词器的接口,传入待分词的文本,得到分词结果。 4. 自定义词典:如果需要,可以增加自定义词典,覆盖或补充默认词典。 5. 扩展功能:根据需要,...
《永磁无刷直流电机控制系统与软件综合研究——集成电机计算软件、电机控制器及电磁设计软件的创新设计与实践》,永磁无刷直流电机计算与控制软件:高效电机控制器与电磁设计工具,永磁无刷直流电机计算软件,电机控制器,无刷电机设计软件,电机电磁设计软件 ,永磁无刷直流电机计算软件; 电机控制器; 无刷电机设计软件; 电机电磁设计软件,无刷电机设计专家:永磁无刷直流电机计算与控制器设计软件
新能源汽车VCU开发模型及策略详解:从控制策略到软件设计全面解析,新能源汽车VCU开发模型及策略详解:从控制策略到软件设计全面解析,新能源汽车VCU开发模型及控制策略,MBD电控开发 新能源汽车大势所向,紧缺VCU电控开发工程师,特别是涉及新能源三电系统,工资仅仅低于无人驾驶、智能驾驶岗位。 ——含控制策略模型 整车控制策略详细文档 通讯协议文档 接口定义 软件设计说明文档 等(超详细,看懂VCU电控策略开发就通了) 内容如下: 新能源汽车整车控制器VCU学习模型,适用于初学者。 1、模型包含高压上下电,行驶模式管理,能量回馈,充电模式管理,附件管理,远程控制,诊断辅助功能。 2、软件说明书(控制策略说明书) 3、模型有部分中文注释 对想着手或刚开始学习整车控制器自动代码生成或刚接触整车控制器有很大帮助。 ,新能源汽车VCU开发模型; 控制策略; MBD电控开发; 模型学习; 代码生成; 整车控制器; 能量回馈; 诊断辅助功能,新能源汽车电控开发详解:VCU控制策略模型及学习手册
内容概要:本文详细介绍了两种利用 Python 读取 Excel 文件的不同方法,分别是基于 pandas 和 openpyxl。对于想要利用Python 处理 Excel 数据的读者来说,文中不仅提供了简洁明了的具体代码片段以及执行效果展示,还针对每个库的应用特性进行了深度解析。此外,文档提到了一些进阶应用技巧如只读特定的工作薄、过滤某些列等,同时强调了需要注意的地方(像是路径设置、engine 参数调整之类),让读者可以在面对实际项目需求时做出更加明智的选择和技术选型。 适合人群:对 Python 有基本掌握并希望提升数据读取能力的开发人员。 使用场景及目标:适用于任何涉及到批量数据导入或是与 Excel 进行交互的业务流程。无论是做初步的数据探索还是深入挖掘隐藏于电子表格背后的故事,亦或是仅为了简化日常办公自动化任务都可以从中受益。最终目标帮助使用者熟悉两大主流 Excel 解决方案的技术特性和最佳实践。 阅读建议:本文既是一份详尽的学习指南也是一份方便随时查阅的手册。因此初学者应当认真研究所提供的示例,而有一定经验者也可以快速定位到感兴趣的部分查看关键要点。
# 医护人员排班系统 ## 1. 项目介绍 本系统是一个基于SpringBoot框架开发的医护人员排班管理系统,用于医院管理医护人员的排班、调班等工作。系统提供了完整的排班管理功能,包括科室管理、人员管理、排班规则配置、自动排班等功能。 ## 2. 系统功能模块 ### 2.1 基础信息管理 - 科室信息管理:维护医院各科室基本信息 - 医护人员管理:管理医生、护士等医护人员信息 - 排班类型管理:配置不同的排班类型(如:早班、中班、晚班等) ### 2.2 排班管理 - 排班规则配置:设置各科室排班规则 - 自动排班:根据规则自动生成排班计划 - 排班调整:手动调整排班计划 - 排班查询:查看各科室排班情况 ### 2.3 系统管理 - 用户管理:管理系统用户 - 角色权限:配置不同角色的操作权限 - 系统设置:管理系统基础配置 ## 3. 技术架构 ### 3.1 开发环境 - JDK 1.8 - Maven 3.6 - MySQL 5.7 - SpringBoot 2.2.2 ### 3.2 技术栈 - 后端框架:SpringBoot - 持久层:MyBatis-Plus - 数据库:MySQL - 前端框架:Vue.js - 权限管理:Spring Security ## 4. 数据库设计 主要数据表: - 科室信息表(keshixinxi) - 医护人员表(yihurengyuan) - 排班类型表(paibanleixing) - 排班信息表(paibanxinxi) - 用户表(user) ## 5. 部署说明 ### 5.1 环境要求 - JDK 1.8+ - MySQL 5.7+ - Maven 3.6+ ### 5.2 部署步骤 1. 创建数据库并导入SQL脚本 2. 修改application.yml中的数据库配置 3. 执行maven打包命令:mvn clean package 4. 运行jar包:java -jar xxx.jar ## 6. 使用说明 ### 6.1 系统登录 - 管理员账号:admin - 初始密码:admin ### 6.2 基本操作流程 1. 维护基础信息(科室、人员等) 2. 配置排班规则 3. 生成排班计划 4. 查看和调整排班 ## 7. 注意事项 1. 首次使用请及时修改管理员密码 2. 定期备份数据库 3. 建议定期检查和优化排班规则
MATLAB仿真的夫琅禾费衍射强度图:圆孔、圆环、矩形孔定制研究,MATLAB仿真:夫琅禾费衍射强度图的可定制性——以圆孔、圆环及矩形孔为例的研究分析,MATLAB夫琅禾费衍射强度图仿真 圆孔,圆环,矩形孔可定制。 ,MATLAB; 夫琅禾费衍射; 强度图仿真; 圆孔; 圆环; 矩形孔; 可定制。,MATLAB仿真夫琅禾费衍射强度图:定制孔型(圆孔/圆环/矩形)
详细介绍及样例数据:https://blog.csdn.net/samLi0620/article/details/145652300
基于Dugoff轮胎模型与B08_01基础建模的七自由度车辆动力学模型验证:利用MATLAB 2018及以上版本与CarSim 2020.0软件的仿真对比研究,基于Dugoff轮胎模型与B08_01框架的七自由度车辆动力学模型验证——使用MATLAB 2018及以上版本与CarSim 2020.0软件进行仿真对比研究,七自由度车辆动力学模型验证(Dugoff轮胎模型,B08_01基础上建模) 1.软件: MATLAB 2018以上;CarSim 2020.0 2.介绍: 基于Dugoff轮胎模型和车身动力学公式,搭建7DOF车辆动力学Simulink模型,对相关变量(质心侧偏角,横摆角速度,纵、横向速度及加速度)进行CarSim对比验证。 ,核心关键词:七自由度车辆动力学模型验证; Dugoff轮胎模型; B08_01建模基础; MATLAB 2018以上; CarSim 2020.0; Simulink模型; 变量对比验证。,基于Dugoff轮胎模型的七自由度车辆动力学模型验证与CarSim对比
【毕业设计】基于Java+servlet+jsp+css+js+mysql实现“转赚”二手交易平台_pgj
微猫恋爱聊妹术小程序源码介绍: 微猫恋爱聊妹术小程序源码是一款全新升级的聊天工具,它采用全新主题和UI,完美支持分享朋友圈功能。同时,它的独立后台也进行了大规模更新,让操作更加简单。其中,课堂页面、搜索页面和子话术列表页面等,均增加了流量主展示,具有超多的功能。 安装教程: 您可以先加入微猫恋爱聊妹术小程序源码的赞助群,然后在群内找到魔方安装说明。根据源码编号找到相应的安装说明,非常详细,让您轻松完成安装。
电气安装工程安全技术规程_蒋凯,杨华甫,马仲范,王清禄译;孙照森校;鞍钢工程技术编委会编
基于Copula函数的风光空间相关性联合场景生成与K-means聚类削减MATLAB研究,基于Copula函数的风光空间相关性联合场景生成与K-means聚类削减算法研究,基于copula的风光联合场景生成?K-means聚类并削减 MATLAB 由于目前大多数研究的是不计风光出力之间的相关性影响,但是地理位置相近的风电机组和光伏机组具有极大的相关性。 因此,采用 Copula 函数作为风电、光伏联合概率分布,生成风、光考虑空间相关性联合出力场景,在此基础上,基于Kmeans算法,分别对风光场景进行聚类,从而实现大规模场景的削减,削减到5个场景,最后得出每个场景的概率与每个对应场景相乘求和得到不确定性出力 ,基于Copula的风光联合场景生成; K-means聚类削减; 空间相关性; 概率分布; 场景削减,基于Copula与K-means的风光联合场景生成与削减研究
模块化多电平变流器MMC的VSG控制技术研究:基于MATLAB-Simulink的仿真分析与定制实现——支持三相与任意电平数,构网型模块化多电平变流器MMC的VSG控制策略与仿真模型:三相负荷变动下的虚拟同步发电机控制研究,构网型 模块化多电平变流器 MMC 的VSG控制 同步发电机控制 MATLAB–Simulink仿真模型,可按需求定制 10电平.14电平,任意电平可做。 三相MMC,采用VSG控制。 设置负荷变动,调整有功无功,保持电网电压和频率 ,构网型模块化多电平变流器; MMC的VSG控制; 虚拟同步发电机控制; MATLAB–Simulink仿真模型; 任意电平可做; 三相MMC; 负荷变动; 有功无功调整; 电网电压和频率保持。,基于VSG控制的模块化多电平变流器(MMC)的构网型仿真模型
暗通道算法DCP-Python实现
南师大实验室安全准入知识供学习
纯openMV寻迹小车.zip
【毕业设计】基于Java mvc架构开发的完整购物网站
以下是针对初学者的 **51单片机入门教程**,内容涵盖基础概念、开发环境搭建、编程实践及常见应用示例,帮助你快速上手。
springboot医院信管系统--