相关推荐
-
国内外优秀开源项目创始人专访
这几年陆续采访了国内外一些优秀开源项目的zuozh
-
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词。大致分析步骤如下: 数据导入——选择分词字典——分词 但是下载...
-
中文分词工具Rwordseg
Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别...
-
中文分词的应用 新浪和庖丁两种方式对比
中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...
-
Lucene下分词工具的学习探讨
今天一天学习的东西不多,除了看《Lucene实战》第20页的程序,就是研究Java版本的开源分词器了! 在网上找到了两种分词器,ansj和imdict,本质上没有什么区别,都是用采用ICTCLAS的核心。个人觉得ansj要更好一些,...
-
NLP自然语言处理干货贴
摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:9. 代码共享(完) 文件说明: 1. image... 2.OCR技术浅探:8. 综合评估 摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:8. 综合...
-
计算机术语.pdf
计算机术语.pdf
-
包括缺陷和有限视场效应的Etalon模型 matlab代码.rar
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
-
基于PLC和组态软件的智能停车场收费系统:电气控制与梯形图程序详解
内容概要:本文详细介绍了基于PLC(可编程逻辑控制器)和组态软件的智能停车场收费系统的实现方法和技术细节。首先,文章概述了系统的总体架构,指出PLC用于控制停车场的电气设备,而组态软件则提供直观的操作界面。接着,深入解析了PLC梯形图程序的具体逻辑,包括车辆检测、闸门控制、收费计算等功能模块。此外,文章还讨论了接线图的设计原则和注意事项,如防止电磁干扰、确保系统稳定性的措施。最后,介绍了组态画面的设计思路及其优化方法,如动态显示车位状态、实时更新收费信息等。通过这些内容,读者能够全面了解智能停车场收费系统的内部运作机制。 适合人群:从事自动化控制、工业物联网、智能交通等领域的工作技术人员,尤其是对PLC编程和组态软件应用感兴趣的工程师。 使用场景及目标:适用于新建或改造停车场项目的规划与实施阶段,帮助工程师理解和设计类似的自动化控制系统,提高停车场管理效率和服务质量。 其他说明:文中提供了大量实际案例和技术细节,有助于读者更好地掌握相关技术和应对实际工程中的挑战。
-
MATLAB实现电-气-热综合能源系统耦合优化调度模型
内容概要:本文详细介绍了利用MATLAB及其工具箱YALMIP和求解器CPLEX/Gurobi构建电-气-热综合能源系统耦合优化调度模型的方法。首先,文章描述了电网部分采用39节点系统进行直流潮流建模,气网部分则使用比利时20节点配气网,并对Weymouth方程进行了线性化处理,将非线性问题转化为线性规划问题。热网部分引入了热电联产(CHP)和电转气(P2G)设备,实现了热电耦合。通过模块化设计,代码能够灵活地添加新的能量存储或转换设备。实验结果显示,相比单一网络优化,三网耦合优化降低了12.6%的系统总成本,并显著改善了负荷峰谷差。 适合人群:从事能源系统优化研究的专业人士,尤其是熟悉MATLAB编程和优化理论的研究人员和技术人员。 使用场景及目标:适用于希望深入了解综合能源系统耦合优化调度机制的研究人员和技术人员。主要目标是掌握如何使用MATLAB搭建电-气-热耦合优化模型,理解各个子系统的数学建模方法以及它们之间的相互作用。 其他说明:文中提供了详细的代码片段和解释,帮助读者更好地理解和复现模型。此外,还讨论了一些实际应用中的注意事项,如求解器的选择、参数调优等。
-
计算机三级网络机试考试试题及答案(下).pdf
计算机三级网络机试考试试题及答案(下).pdf
-
NX MCD时序仿真中机械臂抓取仿真的参数配置与PLC联动实现
内容概要:本文详细介绍了使用NX MCD进行机械臂抓取仿真的方法和技术要点。首先探讨了运行时参数的配置,如夹爪力度的动态调整和位置控制的脚本编写。接着讨论了条件仿真序列的设计,包括状态机跳转、阻塞等待、异步响应和超时保护等关键概念。此外,文章还讲解了与PLC的联合仿真,展示了如何通过TIA Portal实现抓取力度的动态补偿以及信号同步。最后分享了一些实用的调试技巧,如使用半速模式观察力学变化、设置碰撞检测触发器等。 适合人群:从事自动化设备开发、机械臂控制系统设计的技术人员,尤其是对NX MCD和PLC有一定了解的工程师。 使用场景及目标:适用于需要进行复杂机械臂抓取仿真的项目,帮助工程师更好地理解和掌握NX MCD与时序仿真的核心技术,提高仿真精度和可靠性。 其他说明:文中提供了大量具体的代码片段和配置示例,便于读者快速上手实践。同时强调了参数化配置的重要性,指出这是为了在现场调试时提供更大的灵活性。
-
计算机数控系统.pdf
计算机数控系统.pdf
-
基于Qt框架的音频采集与播放工具
本人创作,禁止商用
-
大型流水线贴膜机PLC与触摸屏程序:初学者必备的工业控制项目
内容概要:本文详细介绍了一款大型流水线贴膜机的PLC程序和触摸屏程序,涵盖多个控制工艺如上下气缸控制、输送带电机控制、贴膜伺服控制等。程序适用于西门子S7-1200 PLC和KTP700触摸屏,支持V13及以上版本。文中提供了详细的代码示例和分析,解释了各个控制部分的工作原理及其优化技巧。此外,还介绍了异常处理机制、报警处理模块、以及触摸屏界面上的一些实用功能,如动画流程图显示和参数微调。 适合人群:工业自动化领域的初学者,尤其是对PLC编程和运动控制感兴趣的工程师和技术人员。 使用场景及目标:① 学习PLC编程和触摸屏程序设计的基础知识;② 掌握常见工业控制元件的编程方法和优化技巧;③ 提高对复杂控制系统的设计和调试能力。 其他说明:文章强调了程序中的关键技术和注意事项,如定时器保护、光电开关连锁、位置补偿算法等,有助于初学者避免常见错误并提高系统的可靠性和安全性。
-
基于51单片机的多点测温系统:利用DS18B20传感器与LCD1602实现实时温度监测
内容概要:本文详细介绍了基于51单片机的多点测温系统的构建方法。系统采用五个DS18B20数字温度传感器进行温度采集,并将数据实时显示在LCD1602屏幕上。文中涵盖了硬件连接、单总线通信协议、温度读取与显示的具体实现细节,以及常见问题的解决方案。特别强调了ROM匹配算法的应用,确保多个传感器在同一总线上能够正确通信。此外,还提供了Proteus仿真的注意事项和一些调试技巧。 适合人群:对嵌入式系统开发感兴趣的初学者和有一定单片机基础的研发人员。 使用场景及目标:适用于恒温箱监控、多房间温控等应用场景,旨在帮助开发者掌握多点温度监测系统的搭建方法和技术要点。 其他说明:文中附有完整的硬件连接图和核心代码片段,便于读者理解和实践。同时提到了一些扩展功能,如温度单位切换、阈值报警等,增加了项目的趣味性和实用性。
-
直流电机模糊PID控制技术详解及其Python与C语言实现
内容概要:本文详细介绍了将模糊控制与传统PID相结合应用于直流电机控制的方法。首先阐述了传统PID控制在面对负载突变或转速大幅变化时的局限性,随后引入模糊PID的概念并展示了具体的实现步骤。文中提供了完整的Python和C语言代码示例,涵盖模糊规则表的设计、隶属度函数的选择以及参数自适应调整机制。此外,作者还分享了多个实用的经验技巧,如参数调整范围限制、误差量化因子选择、抗积分饱和算法的应用等。并通过实验数据对比证明了模糊PID相比传统PID在响应速度和稳定性方面的优势。 适合人群:具有一定自动化控制理论基础和技术实践经验的研发人员,尤其是从事电机控制系统开发的技术人员。 使用场景及目标:适用于需要提高直流电机控制系统鲁棒性和响应速度的实际工程项目。主要目标是在保持系统稳定的前提下,缩短调节时间和减少超调量,从而提升整体性能。 其他说明:尽管模糊PID能够显著改善某些特定条件下的控制效果,但仍需注意合理设置初始参数和调整幅度限制。同时,对于不同类型的电机和应用场景,可能还需要进一步优化模糊规则和隶属度函数。
-
计算机试题office应用.pdf
计算机试题office应用.pdf
-
强化学习算法的功能实现,举了一个小例子,运行无问题 matlab代码.rar
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
196 楼 louiswang 2014-02-14 12:25
195 楼 ansjsun 2014-02-11 22:27
at org.ansj.lucene4.AnsjAnalysis.createComponents(AnsjAnalysis.java:38)
at org.apache.lucene.analysis.Analyzer.tokenStream(Analyzer.java:142)
ansj_seg-1.1以后就报这个错了。
是我调用的不对?
应该不是..treesplit包更新了.你得更新到1.2版本..通过http://maven.ansj.org/org/ansj/tree_split/1.2/ 下载
我一开始就是tree_split-1.2.jar+ansj_lucene4_plug-1.0.jar+ansj_seg-1.3.jar
就是报错。
把ansj_seg-1.3.jar 退回到 ansj_seg-1.1.jar 就不报错了。
你好.你联系我qq吧..因为我现在都不怎么做lucene了.而且1.3改动的地方比较大..我有点担心,偏移量我写的不对.你要是还在做.有兴趣.我帮你调试.你帮我反馈问题.我的q是5144694
194 楼 BeMyself_wangl 2014-02-11 13:56
at org.ansj.lucene4.AnsjAnalysis.createComponents(AnsjAnalysis.java:38)
at org.apache.lucene.analysis.Analyzer.tokenStream(Analyzer.java:142)
ansj_seg-1.1以后就报这个错了。
是我调用的不对?
应该不是..treesplit包更新了.你得更新到1.2版本..通过http://maven.ansj.org/org/ansj/tree_split/1.2/ 下载
我一开始就是tree_split-1.2.jar+ansj_lucene4_plug-1.0.jar+ansj_seg-1.3.jar
就是报错。
把ansj_seg-1.3.jar 退回到 ansj_seg-1.1.jar 就不报错了。
193 楼 ansjsun 2014-02-10 20:36
at org.ansj.lucene4.AnsjAnalysis.createComponents(AnsjAnalysis.java:38)
at org.apache.lucene.analysis.Analyzer.tokenStream(Analyzer.java:142)
ansj_seg-1.1以后就报这个错了。
是我调用的不对?
应该不是..treesplit包更新了.你得更新到1.2版本..通过http://maven.ansj.org/org/ansj/tree_split/1.2/ 下载
192 楼 BeMyself_wangl 2014-02-10 16:17
at org.ansj.lucene4.AnsjAnalysis.createComponents(AnsjAnalysis.java:38)
at org.apache.lucene.analysis.Analyzer.tokenStream(Analyzer.java:142)
ansj_seg-1.1以后就报这个错了。
是我调用的不对?
191 楼 ansjsun 2014-01-28 10:21
如果 你的分词是1个月前的。。那个辞典是不去重的。。。用户自定义辞典优先最大匹配原则。。
对于这种词语 “他/从/马上/掉/了/下来”会是这个结果.最新版的对用户自定义辞典中的词。进行了去重设置。
总而言之。不怕重复。对分词影响微乎其微。就算用户自定义辞典本身有词重复。也没有影响。
190 楼 louiswang 2014-01-27 23:00
189 楼 louiswang 2014-01-27 22:58
1.arrays.dic 里,序号和base数据怎么来的呢,比如:
154651 望风而 154651 121834 1 null
第一列和第三列的值,单个字是两个字节的int值,单字符串怎么来的,是相加得到么?
2.建立无环图gp后,中文应该以标点分割建立多个gp吧,这样效率会不会高些,比如“中国,中国梦”
188 楼 ansjsun 2014-01-24 23:49
2014-01-24 13:45:40,053 FATAL [IPC Server handler 23 on 43278] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1388218982030_1509_r_000003_1 - exited : java.lang.ArrayIndexOutOfBoundsException: 427277
at org.ansj.splitWord.impl.GetWordsImpl.getStatement(GetWordsImpl.java:111)
at org.ansj.splitWord.impl.GetWordsImpl.allWords(GetWordsImpl.java:57)
at org.ansj.splitWord.Analysis.analysis(Analysis.java:198)
at org.ansj.splitWord.Analysis.analysisStr(Analysis.java:138)
at org.ansj.splitWord.Analysis.parseStr(Analysis.java:218)
at org.ansj.splitWord.analysis.ToAnalysis.parse(ToAnalysis.java:117)
at cn.antvision.newword.mr.Job0_Deserializer$Reduce.reduce(Job0_Deserializ
首先你ansj版本是多少号
?因为我看你是hadoop中跑的..所以你调试估计是比较困难的..
理论上不会有任何句子会造成这种问题.哪怕传入的都是乱码..但是实际上如你所见.他真的发生了...
建议你升级到..0.1版本..对了我最近在重构分词..所以.不要升级到1.1版本.因为1.1的jar有50多m..你升级到0.91就可以..如果已经是了...那只能找到那个例句才可能解决..因为我用这个也跑过很多文本.木有发现这个错误额...
187 楼 andyshar 2014-01-24 14:05
2014-01-24 13:45:40,053 FATAL [IPC Server handler 23 on 43278] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1388218982030_1509_r_000003_1 - exited : java.lang.ArrayIndexOutOfBoundsException: 427277
at org.ansj.splitWord.impl.GetWordsImpl.getStatement(GetWordsImpl.java:111)
at org.ansj.splitWord.impl.GetWordsImpl.allWords(GetWordsImpl.java:57)
at org.ansj.splitWord.Analysis.analysis(Analysis.java:198)
at org.ansj.splitWord.Analysis.analysisStr(Analysis.java:138)
at org.ansj.splitWord.Analysis.parseStr(Analysis.java:218)
at org.ansj.splitWord.analysis.ToAnalysis.parse(ToAnalysis.java:117)
at cn.antvision.newword.mr.Job0_Deserializer$Reduce.reduce(Job0_Deserializ
186 楼 ansjsun 2014-01-18 21:17
目前ansj分词器,能够智能的识别一些词典以外的新词。而我现在是想把新词找出来,如何利用分词器判断出是词典以外的新词。似乎并非新词都是标注的nw词性,比如人名、地名、机构名。
nlpanalysis 支持新词识别。但是不很稳定。人名地名机构名。统称未登录词识别。他们的词性分别是。nr 。nz ,nt ,领域词或者其他不确定的是nw。不过词性标注可能会出错
如果不稳定的话,我不是一定要用ansj的新词识别功能。其实我是在利用大数据来实现找新词的功能。但用Ansj时,由于智能识别了一些人名、地名、机构名,所以不知这其中哪些是ansj词典里所没有的了,所以可能会漏掉一些新词。因此我想知道有无简单的方法,判断这些智能识别的词是否是词典里所没有的。
目前ansj分词器,能够智能的识别一些词典以外的新词。而我现在是想把新词找出来,如何利用分词器判断出是词典以外的新词。似乎并非新词都是标注的nw词性,比如人名、地名、机构名。
nlpanalysis 支持新词识别。但是不很稳定。人名地名机构名。统称未登录词识别。他们的词性分别是。nr 。nz ,nt ,领域词或者其他不确定的是nw。不过词性标注可能会出错
如果不稳定的话,我不是一定要用ansj的新词识别功能。其实我是在利用大数据来实现找新词的功能。但用Ansj时,由于智能识别了一些人名、地名、机构名,所以不知这其中哪些是ansj词典里所没有的了,所以可能会漏掉一些新词。因此我想知道有无简单的方法,判断这些智能识别的词是否是词典里所没有的。
你要做词典整理的工作啊?
http://demo.ansj.org/
试试这个..效果应该好一点..
这版还木有开源.因为model比较大.我得想办法压缩下...
寻找的方法.你可以把所有标注为.nr nt nw的词语都保留下来.和词典.然后去重..
185 楼 andyshar 2014-01-17 11:08
目前ansj分词器,能够智能的识别一些词典以外的新词。而我现在是想把新词找出来,如何利用分词器判断出是词典以外的新词。似乎并非新词都是标注的nw词性,比如人名、地名、机构名。
nlpanalysis 支持新词识别。但是不很稳定。人名地名机构名。统称未登录词识别。他们的词性分别是。nr 。nz ,nt ,领域词或者其他不确定的是nw。不过词性标注可能会出错
如果不稳定的话,我不是一定要用ansj的新词识别功能。其实我是在利用大数据来实现找新词的功能。但用Ansj时,由于智能识别了一些人名、地名、机构名,所以不知这其中哪些是ansj词典里所没有的了,所以可能会漏掉一些新词。因此我想知道有无简单的方法,判断这些智能识别的词是否是词典里所没有的。
184 楼 ansjsun 2014-01-13 11:01
目前ansj分词器,能够智能的识别一些词典以外的新词。而我现在是想把新词找出来,如何利用分词器判断出是词典以外的新词。似乎并非新词都是标注的nw词性,比如人名、地名、机构名。
nlpanalysis 支持新词识别。但是不很稳定。人名地名机构名。统称未登录词识别。他们的词性分别是。nr 。nz ,nt ,领域词或者其他不确定的是nw。不过词性标注可能会出错
183 楼 andyshar 2014-01-13 09:26
目前ansj分词器,能够智能的识别一些词典以外的新词。而我现在是想把新词找出来,如何利用分词器判断出是词典以外的新词。似乎并非新词都是标注的nw词性,比如人名、地名、机构名。
182 楼 rtygbwwwerr 2013-12-06 15:31
人名识别的上下文词典分3种情况
11 人名的下文
12 两个中国人名之间的成分
44 可拆分的姓名
而在代码中,12被算做了姓名的上文:
case 12:
this.end += freq;
this.begin += freq;
allFreq += freq;
break;
参见张华平的论文《基于角色标注的中国人名自动识别研究》,应该还有一类词属于人名的上文。作者对这种类型是否进行了合并?在现在的词典中,“记者”一词被标为了“11”,为人名的下文,而这词通常来说是作为人名的上文来使用的。
现在因为这个原因,导致部分人名识别不准,比如:这句话的分词“本报上海1月 30日电 记者萧关根、张炯强报道”为:“本报 上海 1月 30日 电 记者 萧关 根 、 张炯 强 报道...”,里边的两个人名都识别有误,其中决定因素是“记者”这个词被标为了11,没有作为人名上文,结果计算的得分偏大,导致识别失败。
181 楼 rtygbwwwerr 2013-11-29 18:30
int[][] locFreq,debug了一下,发现里边是一个变长的数组
{{x,x}{x,x,x}{x,x,x,x}},请问这里边数值的含义是什么?
这个是。每个名字在词位置的频率。。你得看注释。。大概就是这个意思
这个数组的含义大概明白了,就是指该字作为人名,在对应Pattern对应位置出现的频率。例如:
碧 {17,23} {2,552,119} {0,0,3,0}
模式频率数组为:
2字姓名:17,23 在模式BC中,第一个位置出现17次,第二个位置出现23次
3字姓名:2,552,119 在模式BCD中,第一个位置出现2次,第二个位置出现552次,第三个位置出现119次
4字姓名:0,0,3,0 在模式BCDE中,第一个位置出现0次,第二个位置出现0次,第三个位置出现3次,第四个位置出现0次
但是一个新的问题来了,我发现这个词典里边有许多双字词,比如:
欧阳 {153,4} {194,2,0} {0,0,0,0}
出现在3字姓名的第一个和第二个尚可理解:欧阳X,X欧阳,但是出现在2字姓名的第二个位置怎么理解?光“欧阳”这个词就已经2个字了
180 楼 cdmamata 2013-11-26 18:31
感谢孙大哥,本来想把问题整理完,一次性问完,可发现又漏掉一个,
就是 stopwords.dic 文件的第二列是一些浮点类型,他是不是表示的停用词的级别指标?是不是数字越小,他停用的级别越大。
stopwords.dic 这个 俄 。。。。不是的 。。如果是 0代表是停用此 。。如果 其他数字 。。是索引中权重占的比较少 。。你之关心 0的就可以了 。。还有 。。这个辞典我不知道你从哪里搞来的 。。。我记得我在lucene插件中已经废弃了。。。现在停用词后面已经没有数字了 。。。只要在辞典中的词全部过滤 。。也不要数字
stopwords.dic 这个是以前下载的lucene 插件中带的,可能是版本有点旧了,我更新一下版本看看。
万分感谢孙健大哥
最新的lucene插件 在这里 https://github.com/ansjsun/ansj_seg/tree/master/plug
好的,但是这个 lucene 插件 里面没有自带 新版的 stopwords.dic 文件啊,新版跟旧版区别大吗?
179 楼 ansjsun 2013-11-26 10:47
感谢孙大哥,本来想把问题整理完,一次性问完,可发现又漏掉一个,
就是 stopwords.dic 文件的第二列是一些浮点类型,他是不是表示的停用词的级别指标?是不是数字越小,他停用的级别越大。
stopwords.dic 这个 俄 。。。。不是的 。。如果是 0代表是停用此 。。如果 其他数字 。。是索引中权重占的比较少 。。你之关心 0的就可以了 。。还有 。。这个辞典我不知道你从哪里搞来的 。。。我记得我在lucene插件中已经废弃了。。。现在停用词后面已经没有数字了 。。。只要在辞典中的词全部过滤 。。也不要数字
stopwords.dic 这个是以前下载的lucene 插件中带的,可能是版本有点旧了,我更新一下版本看看。
万分感谢孙健大哥
最新的lucene插件 在这里 https://github.com/ansjsun/ansj_seg/tree/master/plug
178 楼 cdmamata 2013-11-26 10:09
感谢孙大哥,本来想把问题整理完,一次性问完,可发现又漏掉一个,
就是 stopwords.dic 文件的第二列是一些浮点类型,他是不是表示的停用词的级别指标?是不是数字越小,他停用的级别越大。
stopwords.dic 这个 俄 。。。。不是的 。。如果是 0代表是停用此 。。如果 其他数字 。。是索引中权重占的比较少 。。你之关心 0的就可以了 。。还有 。。这个辞典我不知道你从哪里搞来的 。。。我记得我在lucene插件中已经废弃了。。。现在停用词后面已经没有数字了 。。。只要在辞典中的词全部过滤 。。也不要数字
stopwords.dic 这个是以前下载的lucene 插件中带的,可能是版本有点旧了,我更新一下版本看看。
万分感谢孙健大哥
177 楼 ansjsun 2013-11-25 15:57
也就是说,
1、不能通过加载外部停用词表达到过滤的目的。
2、这个过滤不能持久化到配置文件中,只是对当前当前运行程序生效。
是这样的吗
还有,stopwords.dic 这个停用词库该怎么加载,或者说他的使用方法是怎样的
1.是的。。程序内部。没有通过外部停用此加载的目的
2.其实辞典就是持久化了。。
只不过你需要自己读取stopwords.dic 这个读取就是一行一个词。。你读取出来。然后放进去就可以了。。。
哦,了解了,就是说,通过文件流的方式,将stopwords.dic 里的内容,放到map 中,然后 setUpdateDic 。但是还有一些其他的疑问
1、流读取 stopwords.dic ,放入map,会不会对效率产生影响?
2、如何将学习到的新词持久化加到用户词库文件中呢?UserDefineLibrary.insertWord("新词测试", "userDefine", 1000);这个方法也只是对当前程序有效,有没有可以将新词直接保存到用户词库中的方法?
1.因为只初始化一次.而且停用词文件也就是几k的规模.效率基本不会影响的...
2.学习到的新词.无法写入到词典中..你可以写到一个文件中.然后补充到用户词典中.
感谢孙大哥,本来想把问题整理完,一次性问完,可发现又漏掉一个,
就是 stopwords.dic 文件的第二列是一些浮点类型,他是不是表示的停用词的级别指标?是不是数字越小,他停用的级别越大。
stopwords.dic 这个 俄 。。。。不是的 。。如果是 0代表是停用此 。。如果 其他数字 。。是索引中权重占的比较少 。。你之关心 0的就可以了 。。还有 。。这个辞典我不知道你从哪里搞来的 。。。我记得我在lucene插件中已经废弃了。。。现在停用词后面已经没有数字了 。。。只要在辞典中的词全部过滤 。。也不要数字
176 楼 cdmamata 2013-11-25 11:56
也就是说,
1、不能通过加载外部停用词表达到过滤的目的。
2、这个过滤不能持久化到配置文件中,只是对当前当前运行程序生效。
是这样的吗
还有,stopwords.dic 这个停用词库该怎么加载,或者说他的使用方法是怎样的
1.是的。。程序内部。没有通过外部停用此加载的目的
2.其实辞典就是持久化了。。
只不过你需要自己读取stopwords.dic 这个读取就是一行一个词。。你读取出来。然后放进去就可以了。。。
哦,了解了,就是说,通过文件流的方式,将stopwords.dic 里的内容,放到map 中,然后 setUpdateDic 。但是还有一些其他的疑问
1、流读取 stopwords.dic ,放入map,会不会对效率产生影响?
2、如何将学习到的新词持久化加到用户词库文件中呢?UserDefineLibrary.insertWord("新词测试", "userDefine", 1000);这个方法也只是对当前程序有效,有没有可以将新词直接保存到用户词库中的方法?
1.因为只初始化一次.而且停用词文件也就是几k的规模.效率基本不会影响的...
2.学习到的新词.无法写入到词典中..你可以写到一个文件中.然后补充到用户词典中.
感谢孙大哥,本来想把问题整理完,一次性问完,可发现又漏掉一个,
就是 stopwords.dic 文件的第二列是一些浮点类型,他是不是表示的停用词的级别指标?是不是数字越小,他停用的级别越大。
175 楼 ansjsun 2013-11-22 19:24
也就是说,
1、不能通过加载外部停用词表达到过滤的目的。
2、这个过滤不能持久化到配置文件中,只是对当前当前运行程序生效。
是这样的吗
还有,stopwords.dic 这个停用词库该怎么加载,或者说他的使用方法是怎样的
1.是的。。程序内部。没有通过外部停用此加载的目的
2.其实辞典就是持久化了。。
只不过你需要自己读取stopwords.dic 这个读取就是一行一个词。。你读取出来。然后放进去就可以了。。。
哦,了解了,就是说,通过文件流的方式,将stopwords.dic 里的内容,放到map 中,然后 setUpdateDic 。但是还有一些其他的疑问
1、流读取 stopwords.dic ,放入map,会不会对效率产生影响?
2、如何将学习到的新词持久化加到用户词库文件中呢?UserDefineLibrary.insertWord("新词测试", "userDefine", 1000);这个方法也只是对当前程序有效,有没有可以将新词直接保存到用户词库中的方法?
1.因为只初始化一次.而且停用词文件也就是几k的规模.效率基本不会影响的...
2.学习到的新词.无法写入到词典中..你可以写到一个文件中.然后补充到用户词典中.
174 楼 cdmamata 2013-11-22 16:58
也就是说,
1、不能通过加载外部停用词表达到过滤的目的。
2、这个过滤不能持久化到配置文件中,只是对当前当前运行程序生效。
是这样的吗
还有,stopwords.dic 这个停用词库该怎么加载,或者说他的使用方法是怎样的
1.是的。。程序内部。没有通过外部停用此加载的目的
2.其实辞典就是持久化了。。
只不过你需要自己读取stopwords.dic 这个读取就是一行一个词。。你读取出来。然后放进去就可以了。。。
哦,了解了,就是说,通过文件流的方式,将stopwords.dic 里的内容,放到map 中,然后 setUpdateDic 。但是还有一些其他的疑问
1、流读取 stopwords.dic ,放入map,会不会对效率产生影响?
2、如何将学习到的新词持久化加到用户词库文件中呢?UserDefineLibrary.insertWord("新词测试", "userDefine", 1000);这个方法也只是对当前程序有效,有没有可以将新词直接保存到用户词库中的方法?
173 楼 ansjsun 2013-11-22 12:22
在我git中有个tree-split的项目.中有这个包...你也可以从我git的代码仓库中直接下载这个jar...看git的首页说明谢谢
OK,呵呵,大意了,忘了修改 pom.xml,导致maven 没有将jar包导入,谢谢耐心指导。还有麻烦请教一下,ansj包含能过滤 “的,地,得,”和 标点符号 的方法吗
这个是没有的..一般你在外部用个set or map来做吧...在lucene插件中有这个功能.停用词表自己找
updateDic.put("但是", FilterModifWord._stop);
FilterModifWord.setUpdateDic(updateDic);
这个方法可以达到过滤的目的,但是,这个方法不是永久写入到词库里面,然后,
我在 lucene 插件的 library 里面找到一个 stopwords.dic 停用词表,如何加载该词表,利用该词表里面的做过滤,以达到上面停用词的目的?
词表一行一行加入到updateDic.put(word, FilterModifWord._stop);中就可以。。需要你在外部填充。没有配置填充的
也就是说,
1、不能通过加载外部停用词表达到过滤的目的。
2、这个过滤不能持久化到配置文件中,只是对当前当前运行程序生效。
是这样的吗
还有,stopwords.dic 这个停用词库该怎么加载,或者说他的使用方法是怎样的
1.是的。。程序内部。没有通过外部停用此加载的目的
2.其实辞典就是持久化了。。
只不过你需要自己读取stopwords.dic 这个读取就是一行一个词。。你读取出来。然后放进去就可以了。。。
172 楼 cdmamata 2013-11-22 10:37
在我git中有个tree-split的项目.中有这个包...你也可以从我git的代码仓库中直接下载这个jar...看git的首页说明谢谢
OK,呵呵,大意了,忘了修改 pom.xml,导致maven 没有将jar包导入,谢谢耐心指导。还有麻烦请教一下,ansj包含能过滤 “的,地,得,”和 标点符号 的方法吗
这个是没有的..一般你在外部用个set or map来做吧...在lucene插件中有这个功能.停用词表自己找
updateDic.put("但是", FilterModifWord._stop);
FilterModifWord.setUpdateDic(updateDic);
这个方法可以达到过滤的目的,但是,这个方法不是永久写入到词库里面,然后,
我在 lucene 插件的 library 里面找到一个 stopwords.dic 停用词表,如何加载该词表,利用该词表里面的做过滤,以达到上面停用词的目的?
词表一行一行加入到updateDic.put(word, FilterModifWord._stop);中就可以。。需要你在外部填充。没有配置填充的
也就是说,
1、不能通过加载外部停用词表达到过滤的目的。
2、这个过滤不能持久化到配置文件中,只是对当前当前运行程序生效。
是这样的吗
还有,stopwords.dic 这个停用词库该怎么加载,或者说他的使用方法是怎样的
171 楼 ansjsun 2013-11-22 10:27
在我git中有个tree-split的项目.中有这个包...你也可以从我git的代码仓库中直接下载这个jar...看git的首页说明谢谢
OK,呵呵,大意了,忘了修改 pom.xml,导致maven 没有将jar包导入,谢谢耐心指导。还有麻烦请教一下,ansj包含能过滤 “的,地,得,”和 标点符号 的方法吗
这个是没有的..一般你在外部用个set or map来做吧...在lucene插件中有这个功能.停用词表自己找
updateDic.put("但是", FilterModifWord._stop);
FilterModifWord.setUpdateDic(updateDic);
这个方法可以达到过滤的目的,但是,这个方法不是永久写入到词库里面,然后,
我在 lucene 插件的 library 里面找到一个 stopwords.dic 停用词表,如何加载该词表,利用该词表里面的做过滤,以达到上面停用词的目的?
词表一行一行加入到updateDic.put(word, FilterModifWord._stop);中就可以。。需要你在外部填充。没有配置填充的
170 楼 cdmamata 2013-11-21 17:59
在我git中有个tree-split的项目.中有这个包...你也可以从我git的代码仓库中直接下载这个jar...看git的首页说明谢谢
OK,呵呵,大意了,忘了修改 pom.xml,导致maven 没有将jar包导入,谢谢耐心指导。还有麻烦请教一下,ansj包含能过滤 “的,地,得,”和 标点符号 的方法吗
这个是没有的..一般你在外部用个set or map来做吧...在lucene插件中有这个功能.停用词表自己找
updateDic.put("但是", FilterModifWord._stop);
FilterModifWord.setUpdateDic(updateDic);
这个方法可以达到过滤的目的,但是,这个方法不是永久写入到词库里面,然后,
我在 lucene 插件的 library 里面找到一个 stopwords.dic 停用词表,如何加载该词表,利用该词表里面的做过滤,以达到上面停用词的目的?
169 楼 cdmamata 2013-11-19 14:00
在我git中有个tree-split的项目.中有这个包...你也可以从我git的代码仓库中直接下载这个jar...看git的首页说明谢谢
OK,呵呵,大意了,忘了修改 pom.xml,导致maven 没有将jar包导入,谢谢耐心指导。还有麻烦请教一下,ansj包含能过滤 “的,地,得,”和 标点符号 的方法吗
这个是没有的..一般你在外部用个set or map来做吧...在lucene插件中有这个功能.停用词表自己找
万分感谢孙大哥的指导
168 楼 ansjsun 2013-11-19 12:08
在我git中有个tree-split的项目.中有这个包...你也可以从我git的代码仓库中直接下载这个jar...看git的首页说明谢谢
OK,呵呵,大意了,忘了修改 pom.xml,导致maven 没有将jar包导入,谢谢耐心指导。还有麻烦请教一下,ansj包含能过滤 “的,地,得,”和 标点符号 的方法吗
这个是没有的..一般你在外部用个set or map来做吧...在lucene插件中有这个功能.停用词表自己找
167 楼 cdmamata 2013-11-19 12:06
在我git中有个tree-split的项目.中有这个包...你也可以从我git的代码仓库中直接下载这个jar...看git的首页说明谢谢
OK,呵呵,大意了,忘了修改 pom.xml,导致maven 没有将jar包导入,谢谢耐心指导。还有麻烦请教一下,ansj包含能过滤 “的,地,得,”和 标点符号 的方法吗