相关推荐
-
国内外优秀开源项目创始人专访
这几年陆续采访了国内外一些优秀开源项目的zuozh
-
R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词。大致分析步骤如下: 数据导入——选择分词字典——分词 但是下载...
-
中文分词工具Rwordseg
Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别...
-
中文分词的应用 新浪和庖丁两种方式对比
中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...
-
Lucene下分词工具的学习探讨
今天一天学习的东西不多,除了看《Lucene实战》第20页的程序,就是研究Java版本的开源分词器了! 在网上找到了两种分词器,ansj和imdict,本质上没有什么区别,都是用采用ICTCLAS的核心。个人觉得ansj要更好一些,...
-
NLP自然语言处理干货贴
摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:9. 代码共享(完) 文件说明: 1. image... 2.OCR技术浅探:8. 综合评估 摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:8. 综合...
-
计算机术语.pdf
计算机术语.pdf
-
包括缺陷和有限视场效应的Etalon模型 matlab代码.rar
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
-
基于PLC和组态软件的智能停车场收费系统:电气控制与梯形图程序详解
内容概要:本文详细介绍了基于PLC(可编程逻辑控制器)和组态软件的智能停车场收费系统的实现方法和技术细节。首先,文章概述了系统的总体架构,指出PLC用于控制停车场的电气设备,而组态软件则提供直观的操作界面。接着,深入解析了PLC梯形图程序的具体逻辑,包括车辆检测、闸门控制、收费计算等功能模块。此外,文章还讨论了接线图的设计原则和注意事项,如防止电磁干扰、确保系统稳定性的措施。最后,介绍了组态画面的设计思路及其优化方法,如动态显示车位状态、实时更新收费信息等。通过这些内容,读者能够全面了解智能停车场收费系统的内部运作机制。 适合人群:从事自动化控制、工业物联网、智能交通等领域的工作技术人员,尤其是对PLC编程和组态软件应用感兴趣的工程师。 使用场景及目标:适用于新建或改造停车场项目的规划与实施阶段,帮助工程师理解和设计类似的自动化控制系统,提高停车场管理效率和服务质量。 其他说明:文中提供了大量实际案例和技术细节,有助于读者更好地掌握相关技术和应对实际工程中的挑战。
-
MATLAB实现电-气-热综合能源系统耦合优化调度模型
内容概要:本文详细介绍了利用MATLAB及其工具箱YALMIP和求解器CPLEX/Gurobi构建电-气-热综合能源系统耦合优化调度模型的方法。首先,文章描述了电网部分采用39节点系统进行直流潮流建模,气网部分则使用比利时20节点配气网,并对Weymouth方程进行了线性化处理,将非线性问题转化为线性规划问题。热网部分引入了热电联产(CHP)和电转气(P2G)设备,实现了热电耦合。通过模块化设计,代码能够灵活地添加新的能量存储或转换设备。实验结果显示,相比单一网络优化,三网耦合优化降低了12.6%的系统总成本,并显著改善了负荷峰谷差。 适合人群:从事能源系统优化研究的专业人士,尤其是熟悉MATLAB编程和优化理论的研究人员和技术人员。 使用场景及目标:适用于希望深入了解综合能源系统耦合优化调度机制的研究人员和技术人员。主要目标是掌握如何使用MATLAB搭建电-气-热耦合优化模型,理解各个子系统的数学建模方法以及它们之间的相互作用。 其他说明:文中提供了详细的代码片段和解释,帮助读者更好地理解和复现模型。此外,还讨论了一些实际应用中的注意事项,如求解器的选择、参数调优等。
-
计算机三级网络机试考试试题及答案(下).pdf
计算机三级网络机试考试试题及答案(下).pdf
-
NX MCD时序仿真中机械臂抓取仿真的参数配置与PLC联动实现
内容概要:本文详细介绍了使用NX MCD进行机械臂抓取仿真的方法和技术要点。首先探讨了运行时参数的配置,如夹爪力度的动态调整和位置控制的脚本编写。接着讨论了条件仿真序列的设计,包括状态机跳转、阻塞等待、异步响应和超时保护等关键概念。此外,文章还讲解了与PLC的联合仿真,展示了如何通过TIA Portal实现抓取力度的动态补偿以及信号同步。最后分享了一些实用的调试技巧,如使用半速模式观察力学变化、设置碰撞检测触发器等。 适合人群:从事自动化设备开发、机械臂控制系统设计的技术人员,尤其是对NX MCD和PLC有一定了解的工程师。 使用场景及目标:适用于需要进行复杂机械臂抓取仿真的项目,帮助工程师更好地理解和掌握NX MCD与时序仿真的核心技术,提高仿真精度和可靠性。 其他说明:文中提供了大量具体的代码片段和配置示例,便于读者快速上手实践。同时强调了参数化配置的重要性,指出这是为了在现场调试时提供更大的灵活性。
-
计算机数控系统.pdf
计算机数控系统.pdf
-
基于Qt框架的音频采集与播放工具
本人创作,禁止商用
-
大型流水线贴膜机PLC与触摸屏程序:初学者必备的工业控制项目
内容概要:本文详细介绍了一款大型流水线贴膜机的PLC程序和触摸屏程序,涵盖多个控制工艺如上下气缸控制、输送带电机控制、贴膜伺服控制等。程序适用于西门子S7-1200 PLC和KTP700触摸屏,支持V13及以上版本。文中提供了详细的代码示例和分析,解释了各个控制部分的工作原理及其优化技巧。此外,还介绍了异常处理机制、报警处理模块、以及触摸屏界面上的一些实用功能,如动画流程图显示和参数微调。 适合人群:工业自动化领域的初学者,尤其是对PLC编程和运动控制感兴趣的工程师和技术人员。 使用场景及目标:① 学习PLC编程和触摸屏程序设计的基础知识;② 掌握常见工业控制元件的编程方法和优化技巧;③ 提高对复杂控制系统的设计和调试能力。 其他说明:文章强调了程序中的关键技术和注意事项,如定时器保护、光电开关连锁、位置补偿算法等,有助于初学者避免常见错误并提高系统的可靠性和安全性。
-
基于51单片机的多点测温系统:利用DS18B20传感器与LCD1602实现实时温度监测
内容概要:本文详细介绍了基于51单片机的多点测温系统的构建方法。系统采用五个DS18B20数字温度传感器进行温度采集,并将数据实时显示在LCD1602屏幕上。文中涵盖了硬件连接、单总线通信协议、温度读取与显示的具体实现细节,以及常见问题的解决方案。特别强调了ROM匹配算法的应用,确保多个传感器在同一总线上能够正确通信。此外,还提供了Proteus仿真的注意事项和一些调试技巧。 适合人群:对嵌入式系统开发感兴趣的初学者和有一定单片机基础的研发人员。 使用场景及目标:适用于恒温箱监控、多房间温控等应用场景,旨在帮助开发者掌握多点温度监测系统的搭建方法和技术要点。 其他说明:文中附有完整的硬件连接图和核心代码片段,便于读者理解和实践。同时提到了一些扩展功能,如温度单位切换、阈值报警等,增加了项目的趣味性和实用性。
-
直流电机模糊PID控制技术详解及其Python与C语言实现
内容概要:本文详细介绍了将模糊控制与传统PID相结合应用于直流电机控制的方法。首先阐述了传统PID控制在面对负载突变或转速大幅变化时的局限性,随后引入模糊PID的概念并展示了具体的实现步骤。文中提供了完整的Python和C语言代码示例,涵盖模糊规则表的设计、隶属度函数的选择以及参数自适应调整机制。此外,作者还分享了多个实用的经验技巧,如参数调整范围限制、误差量化因子选择、抗积分饱和算法的应用等。并通过实验数据对比证明了模糊PID相比传统PID在响应速度和稳定性方面的优势。 适合人群:具有一定自动化控制理论基础和技术实践经验的研发人员,尤其是从事电机控制系统开发的技术人员。 使用场景及目标:适用于需要提高直流电机控制系统鲁棒性和响应速度的实际工程项目。主要目标是在保持系统稳定的前提下,缩短调节时间和减少超调量,从而提升整体性能。 其他说明:尽管模糊PID能够显著改善某些特定条件下的控制效果,但仍需注意合理设置初始参数和调整幅度限制。同时,对于不同类型的电机和应用场景,可能还需要进一步优化模糊规则和隶属度函数。
-
计算机试题office应用.pdf
计算机试题office应用.pdf
-
强化学习算法的功能实现,举了一个小例子,运行无问题 matlab代码.rar
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
166 楼 ansjsun 2013-11-19 11:46
在我git中有个tree-split的项目.中有这个包...你也可以从我git的代码仓库中直接下载这个jar...看git的首页说明谢谢
165 楼 cdmamata 2013-11-19 11:37
164 楼 ansjsun 2013-11-01 11:10
http://stackoverflow.com/questions/4877691/is-it-possible-to-run-several-map-task-in-one-jvm/4878134#4878134
To my best knowledge, there is no easy way for multiple map tasks (Hadoop) to share static data structures.
This is actually a known problem for current Map Reduce model. The reason that current implementation doesn't share static datas across map tasks is because Hadoop is designed to be highly reliable. As a result, if a task fails, it will only crash its own JVM. It will not impact the execution of other JVMs.
163 楼 andyshar 2013-10-31 15:05
http://stackoverflow.com/questions/4877691/is-it-possible-to-run-several-map-task-in-one-jvm/4878134#4878134
To my best knowledge, there is no easy way for multiple map tasks (Hadoop) to share static data structures.
This is actually a known problem for current Map Reduce model. The reason that current implementation doesn't share static datas across map tasks is because Hadoop is designed to be highly reliable. As a result, if a task fails, it will only crash its own JVM. It will not impact the execution of other JVMs.
162 楼 ansjsun 2013-10-22 13:19
语义分析是构建语法树吗?如果有兴趣欢迎加入的。目前ansj没有语法树的构建。
关于hadoop jvm重用很简单的
http://jerrylead.iteye.com/blog/1195335
可以参考这里。我很早以前设置过一次。
词库的加载和分词其实是分开的。因为用户自定义辞典是外部的。。最新的ansj只提供了基础辞典大约10w个词左右。这10w个词主要用来处理歧义。
161 楼 andyshar 2013-10-22 10:18
160 楼 ansjsun 2013-10-21 17:26
请问这个公式的原理是?有没有相关的文章可以推荐一下,还有就是MAX_FREQUENCE的取值为什么是2079997,后边那个80000又是怎么来的?多谢了!
抄袭来的。。。:-)。你可以看最大熵马尔科夫。。然后看看北野斯。。就这两个东西。。。
159 楼 rtygbwwwerr 2013-10-21 16:28
请问这个公式的原理是?有没有相关的文章可以推荐一下,还有就是MAX_FREQUENCE的取值为什么是2079997,后边那个80000又是怎么来的?多谢了!
158 楼 woshiliulei0 2013-10-20 18:11
我从github上面下载的jar包中包含好像两个版本、第三个是从网上下载的
①ansj_seg-0.9.jar,文件大小4.63M,里面有company,META-INF,nature,newWord,org
,person,arrays.dic,bigramdict.dic,englishLibrary.dic,jianFan.dic,numberLibrary.dic,但是里面没有library.properties文件
②ansj_seg-0.8.jar.jar,文件大小7.5M,里面有文件
③ans_seg-20130615.jar(这是从网上下载的版本)里面有文件love,META-INF,org,library.properties,
写了个最简单的程序,也创建了自定义词典library/userLibrary/userLibrary.dic
public static void main(String[] args) {
// TODO Auto-generated method stub
List paser = ToAnalysis.parse("csdn创新院是一个好公司");
System.out.println(paser);
}
但是只有第①个jar包导入项目中能分词,但是不能按照自定义字典的字分,
第③②个直接在程序运行时就报错,也不能分词
init user userLibrary ok path is : D:\MyEclipse8.5\java1\library\userLibrary\userLibrary.dic
init ambiguity waring :null because : not find that file or can not to read !
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at java.lang.String.substring(String.java:1940)
at java.lang.String.subSequence(String.java:1973)
at java.util.regex.Pattern.split(Pattern.java:1002)
at java.lang.String.split(String.java:2293)
at java.lang.String.split(String.java:2335)
at org.ansj.domain.TermNature.setNatureStrToArray(Unknown Source)
at org.ansj.library.InitDictionary.initArrays(Unknown Source)
at org.ansj.library.InitDictionary.initArrays(Unknown Source)
at org.ansj.library.InitDictionary.init(Unknown Source)
at org.ansj.library.InitDictionary.<clinit>(Unknown Source)
at org.ansj.splitWord.Analysis.analysis(Unknown Source)
at org.ansj.splitWord.Analysis.analysisStr(Unknown Source)
at org.ansj.splitWord.Analysis.parseStr(Unknown Source)
at org.ansj.splitWord.analysis.ToAnalysis.parse(Unknown Source)
at java.main(java.java:20)
一定要帮帮我啊,最好加我qq:1759242922,在线请教你一下。谢谢谢谢。。。。
157 楼 ansjsun 2013-10-18 21:02
int[][] locFreq,debug了一下,发现里边是一个变长的数组
{{x,x}{x,x,x}{x,x,x,x}},请问这里边数值的含义是什么?
这个是。每个名字在词位置的频率。。你得看注释。。大概就是这个意思
156 楼 ansjsun 2013-10-18 21:00
是很慢。。因为辞典加载比较耗时。你可以每个task重用jvm来解决。。部分人名识别是有错误的但是也是不可避免的。
155 楼 rtygbwwwerr 2013-10-18 16:53
int[][] locFreq,debug了一下,发现里边是一个变长的数组
{{x,x}{x,x,x}{x,x,x,x}},请问这里边数值的含义是什么?
154 楼 andyshar 2013-10-18 11:20
153 楼 ansjsun 2013-10-12 18:47
package org.ansj.app.keyword;找不到包呢,是什么情况,如果放到java web 中怎么用呢,求解
这是maven项目的结构。。
152 楼 woshiliulei0 2013-10-12 09:03
package org.ansj.app.keyword;找不到包呢,是什么情况,如果放到java web 中怎么用呢,求解
151 楼 rtygbwwwerr 2013-10-11 09:56
150 楼 ansjsun 2013-10-10 19:40
看了下InitDictionary.java中的注释,注释内容是“数组用来存放单词的转换..其实就是一个DFA转换过程”,还是甚感疑惑。求指教,谢谢!
那些数字是数组的下标..你得看双数组tire树就明白了
149 楼 rtygbwwwerr 2013-10-10 19:15
看了下InitDictionary.java中的注释,注释内容是“数组用来存放单词的转换..其实就是一个DFA转换过程”,还是甚感疑惑。求指教,谢谢!
148 楼 曾洪星 2013-10-08 17:33
你没有看错。直接就是最优路径。。其他路径为了计算成本没有例举。。我觉得例举出来也是没有太大意义的
谢谢你的回答!还有2个疑问:
1.刚刚更新了最新版本,发现核心词典的词数好像少了很多,想问下这个词典的更改是出于什么原则?
2.发现的新词好像是加到一个树里边的吧,那这些词是怎么在以后的分词中起作用的?好像分词的过程里并没有使用到这个树吧?
刚接触这方面的知识,请指教,谢谢啦!
1.核心辞典保证词的最基本的颗粒度。。就是颗粒度越细越好。但是不好是一个字。起到一个消歧义的过程。遮阳ngrame的纬度也少一些。
2.新词发现的树是一个数据结构。。本身没有什么意义。。。倒是有一个用户自定义辞典的树是有用的
明白了,thx~~
147 楼 ansjsun 2013-10-08 16:49
你没有看错。直接就是最优路径。。其他路径为了计算成本没有例举。。我觉得例举出来也是没有太大意义的
谢谢你的回答!还有2个疑问:
1.刚刚更新了最新版本,发现核心词典的词数好像少了很多,想问下这个词典的更改是出于什么原则?
2.发现的新词好像是加到一个树里边的吧,那这些词是怎么在以后的分词中起作用的?好像分词的过程里并没有使用到这个树吧?
刚接触这方面的知识,请指教,谢谢啦!
1.核心辞典保证词的最基本的颗粒度。。就是颗粒度越细越好。但是不好是一个字。起到一个消歧义的过程。遮阳ngrame的纬度也少一些。
2.新词发现的树是一个数据结构。。本身没有什么意义。。。倒是有一个用户自定义辞典的树是有用的
146 楼 曾洪星 2013-10-08 16:01
你没有看错。直接就是最优路径。。其他路径为了计算成本没有例举。。我觉得例举出来也是没有太大意义的
谢谢你的回答!还有2个疑问:
1.刚刚更新了最新版本,发现核心词典的词数好像少了很多,想问下这个词典的更改是出于什么原则?
2.发现的新词好像是加到一个树里边的吧,那这些词是怎么在以后的分词中起作用的?好像分词的过程里并没有使用到这个树吧?
刚接触这方面的知识,请指教,谢谢啦!
145 楼 ansjsun 2013-10-08 14:11
你没有看错。直接就是最优路径。。其他路径为了计算成本没有例举。。我觉得例举出来也是没有太大意义的
144 楼 曾洪星 2013-10-07 16:25
143 楼 ansjsun 2013-09-12 21:19
将 github上面的 maven 项目打成jar包后,在 UserDefineLibrary 类的initAmbiguityLibrary 方法中,因为是在jar包中,所以 这段代码 :
"if (file.isFile() && file.canRead()) {" 始终是找不到 library 下的资源文件的,提示 "init ambiguity error : .... because : not find that file or can not to read !"
不知道这个 BUG 对结果会不会有影响。
望回复
明白了,library 是用户词库,是作为外部资源使用的。另外,用户自定义词库文件 *.dic 的格式可否说明一下
看我github的wiki里面有这个格式的说明...
142 楼 cdmamata 2013-09-11 10:29
将 github上面的 maven 项目打成jar包后,在 UserDefineLibrary 类的initAmbiguityLibrary 方法中,因为是在jar包中,所以 这段代码 :
"if (file.isFile() && file.canRead()) {" 始终是找不到 library 下的资源文件的,提示 "init ambiguity error : .... because : not find that file or can not to read !"
不知道这个 BUG 对结果会不会有影响。
望回复
明白了,library 是用户词库,是作为外部资源使用的。另外,用户自定义词库文件 *.dic 的格式可否说明一下
141 楼 cdmamata 2013-09-11 09:41
将 github上面的 maven 项目打成jar包后,在 UserDefineLibrary 类的initAmbiguityLibrary 方法中,因为是在jar包中,所以 这段代码 :
"if (file.isFile() && file.canRead()) {" 始终是找不到 library 下的资源文件的,提示 "init ambiguity error : .... because : not find that file or can not to read !"
不知道这个 BUG 对结果会不会有影响。
望回复
140 楼 cdmamata 2013-09-11 09:40
将 github上面的 maven 项目打成jar包后,在 UserDefineLibrary 类的initAmbiguityLibrary 方法中,因为是在jar包中,所以 这段代码 :
"if (file.isFile() && file.canRead()) {" 始终是找不到 library 下的资源文件的,提示 "init ambiguity error : .... because : not find that file or can not to read !"
不知道这个 BUG 对结果会不会有影响。
139 楼 ansjsun 2013-06-04 09:37
如果没有起作用.可能是因为.1.词典没有读取到.2.用户自定义词与粗分结果.产生冲突.这种情况会按照粗分接过来算.
临时加入到词典的.是放到内存中.不会写入到文件的..
为什么会出现词典没有读取到呢,library.properties文件中不是已经指定路径了么,我是直接下的源码运行的不是jar包,请问读取自定义词典的具体类和方法在哪,多谢!
UserDefineLibrary.loadFile(UserDefineLibrary.FOREST, new File("词典路径")) ;
可以通过这种方式来加载..
看这里
https://github.com/ansjsun/ansj_seg/wiki/%E7%94%A8%E6%88%B7%E8%87%AA%E5%AE%9A%E4%B9%89%E8%AF%8D%E5%85%B8%E8%B7%AF%E5%BE%84%E8%AE%BE%E7%BD%AE
ps:
138 楼 violet0925 2013-06-04 08:43
如果没有起作用.可能是因为.1.词典没有读取到.2.用户自定义词与粗分结果.产生冲突.这种情况会按照粗分接过来算.
临时加入到词典的.是放到内存中.不会写入到文件的..
为什么会出现词典没有读取到呢,library.properties文件中不是已经指定路径了么,我是直接下的源码运行的不是jar包,请问读取自定义词典的具体类和方法在哪,多谢!
137 楼 ansjsun 2013-06-03 16:32
如果没有起作用.可能是因为.1.词典没有读取到.2.用户自定义词与粗分结果.产生冲突.这种情况会按照粗分接过来算.
临时加入到词典的.是放到内存中.不会写入到文件的..