开源 Java 中文分词器 Ansj 作者孙健专访

2012-11-05 编辑 wangguo 评论(226条) 有170269人浏览

Ansj 分词 Java ictclas

声明：ITeye精华文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

Ansj 是一个开源的 Java 中文分词工具，基于中科院的 ictclas 中文分词算法，比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。

在线演示：http://ansj.sdapp.cn/demo/seg.jsp
官网地址：http://www.ansj.org/
Github地址：https://github.com/ansjsun/ansj_seg

我们本期采访了Ansj的作者孙健，请他为大家详细介绍一下这个分词工具。

ITeye期待并致力于为国内优秀的开源项目提供一个免费的推广平台，如果你和你的团队希望将自己的开源项目介绍给更多的开发者，或者你希望我们对哪些开源项目进行专访，请告诉我们，发站内短信给ITeye管理员或者发邮件到webmaster@iteye.com即可。

先来个自我介绍吧！

孙健，胸无大志，没想过创业，没想过发财，只想高高兴兴写两行代码，做了近五年Java程序员，写过页面，干过运维，做过人力，忽悠过客户，擅长字符串操作，擅长数据结构和算法。现在主要从事检索、自然语言处理、数据挖掘等方面工作。

介绍一下Ansj！

Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具，目标是“准确、高效、自由地进行中文分词”，可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域，支持行业词典、用户自定义词典。

上面是客套话，先说明一下Ansj命名的由来吧。本来开始打算叫totoro分词（同事帮忙起的名），最后发现好多厕所中卫生洁具都叫“TOTO” ^_^

正好我注册了Ansj.org域名，于是乎，就叫这个名字吧。

你认为中文分词的难点是什么？

在这里说分词有点老生常谈了。的确，中文分词已经非常成熟了，但是之间有一些问题依旧比较难解。个人认为大致有以下几点吧：

1. 中文歧义的识别

比较出名的一句话“结婚的和尚未结婚的”，如果使用正向最大匹配，容易分成“结婚/的/和尚/未/结婚的”，于是有的学者试图倒过来识别，逆向匹配会大于正向。但是碰到这句“结合成分子时”，采用逆向最大匹配，则会分为“结合/成分/子时”，更有甚者像“咬了猎人的狗”这种语意不明的词语，就更不容易正确分词了。这是中文分词的软肋。下面是些典型的歧义句：

交叉歧义（多种切分交织在一起）：内塔内亚胡说的/确实/在理
组合歧义（不同情况下切分不同）：这个人/手上有痣、我们公司人手
真歧义（几种切分都可以）：乒乓球拍/卖/完了、乒乓球/拍卖/完了

2. 实体名识别

这个是中文分词遇到的最大的难点，也是最最紧迫的。实体名识别包括人名识别、地名识别、机构名识别，还包括有监督识别和无监督识别。有监督的还好，无监督基本是无解的，比如“王大力发球”是“王大力”还是“大力发球”，一般人都难以识别。

3. 新词热词发现

目前常用的新词发现还是一个比较有研究性的课题，虽然有些论文在准确率很高，但是大多是封闭测试，这意味着结果很难应用到实际工程中。目前Ansj采用的新词发现方式比较简单，采用了高频词的匹配方式，不使用规则，用统计重复串识别新词，根据词性去掉干扰词，虽然有一定的效果，但还是差强人意。

4. 颗粒度问题

这个就是一个规则探讨的问题了，比如“北京大学”是“北京”+“大学”还是“北京大学”，人各有志，就连同一个人不同时间的标注也有可能是有区别的，虽然这个问题严格上来说不属于技术问题，但是对分词结果的评测却有着很大的关系，Ansj采用“能识别就识别”的策略方针，所以在真正R值的时候偏低，总之一句话，适合学术的不一定适合工业，反之亦然。

简单介绍一下Ansj分词用到的算法，其分词原理是什么？

Ansj并非我创新，可以说是一个ictclas的Java版本，基本原理一致，只不过在分词优化算法上做了一些改进。

该算法实现分词有以下几个步骤：

全切分，原子切分；
N最短路径的粗切分，根据隐马尔科夫模型和viterbi算法，达到最优路径的规划；
人名识别；
系统词典补充；
用户自定义词典的补充；
词性标注（可选）

Ansj分词的准确率大概是多少？

这是我采用人民日报1998年1月语料库的一个测试结果，首先要说明的是这份人工标注的语料库本身就有错误。

P（准确率）：0.984887218571267
R（召回率）：0.9626488103178712
F（综合指标F值）：0.9736410471396494

在歧义、未登录词问题上，Ansj表现怎样？

歧异方面的处理方式自我感觉还可以，基于“最佳实践规则+统计”的方式，虽然还有一部分歧异无法识别，但是已经完全能满足工程应用了。

至于未登录词的识别，目前重点做了中文人名的识别，效果还算满意，识别方式用的“字体+前后监督”的方式，也算是目前我所知道的效果最好的一种识别方式了。

Ansj的性能如何？

在我的测试中，Ansj的效率已经远超ictclas的其他开源实现版本。

核心词典利用双数组规划，每秒钟能达到千万级别的粗分。在我的MacBookAir上面，分词速度大约在300w/字/秒，在酷睿i5+4G内存组装机器上，更是达到了400w+/字/秒的速度。

如何添加自定义词典？

Ansj已经实现了用户自定义词典的动态添加删除，当然，也支持从文件加载词典。

从硬盘加载用户自定义词典的方法：

用户自定义词典默认路径：项目目录/library/userLibrary/userLibrary.dic

格式为：[自定义词] [词性] [词频]，如：csdn创新院 userDefine 1000，中间用TAB键隔开

原分词结果：[csdn，创新，院，是，一个，好，公司]

增加词典后：[csdn创新院，是，一个，好，公司]

详细内容见：用户自定义词典的添加

用户自定义词典的动态添加删除方法见：用户自定义词典的动态添加删除Demo

你在开发过程中，遇到哪些困难？

最大的困难是训练样本和语料库的不足，遗憾国内没有共享，大多数都是收费的，而且好贵。

你认为Ansj还需要在哪些方面进行完善？

我打算下一版的改进将围绕未登录词进行，采用crf来做新词的识别。当然随着系统的庞大，每次修改都要考虑效率内存占用。

虽然已经着手开始进行中，但是进展一直不快。有兴趣的同学可以多提意见，可以通过Github参与到该项目中，让我们做一个真正的Java版的高准确率分词。

Github地址：https://github.com/ansjsun/ansj_seg

查看图片附件

分享到：

评论共 226 条

226 楼 qq394829044 2017-02-20 18:09

39031 [http-bio-8080-exec-7] ERROR org.apache.solr.servlet.SolrDispatchFilter [   mycore] ? null:java.lang.RuntimeException: java.lang.NoSuchMethodError: org.ansj.lucene.util.AnsjTokenizer.<init>(Lorg/apache/lucene/util/AttributeFactory;Lorg/ansj/splitWord/Analysis;Ljava/lang/String;Z)V
        at org.apache.solr.servlet.HttpSolrCall.sendError(HttpSolrCall.java:593)
        at org.apache.solr.servlet.HttpSolrCall.call(HttpSolrCall.java:465)
        at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:227)
        at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:196)
        at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:241)
        at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:208)
        at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:220)
        at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:122)
        at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:171)
        at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102)
        at org.apache.catalina.valves.AccessLogValve.invoke(AccessLogValve.java:950)
        at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:116)
        at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:408)
        at org.apache.coyote.http11.AbstractHttp11Processor.process(AbstractHttp11Processor.java:1040)
        at org.apache.coyote.AbstractProtocol$AbstractConnectionHandler.process(AbstractProtocol.java:607)
        at org.apache.tomcat.util.net.JIoEndpoint$SocketProcessor.run(JIoEndpoint.java:316)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
        at org.apache.tomcat.util.threads.TaskThread$WrappingRunnable.run(TaskThread.java:61)
        at java.lang.Thread.run(Thread.java:724)
Caused by: java.lang.NoSuchMethodError: org.ansj.lucene.util.AnsjTokenizer.<init>(Lorg/apache/lucene/util/AttributeFactory;Lorg/ansj/splitWord/Analysis;Ljava/lang/String;Z)V
        at org.apache.lucene.analysis.ansj.AnsjTokenizerFactory.create(AnsjTokenizerFactory.java:31)
        at org.apache.lucene.analysis.util.TokenizerFactory.create(TokenizerFactory.java:75)
        at org.apache.solr.analysis.TokenizerChain.createComponents(TokenizerChain.java:64)
        at org.apache.lucene.analysis.Analyzer.tokenStream(Analyzer.java:179)
        at org.apache.solr.handler.AnalysisRequestHandlerBase.getQueryTokenSet(AnalysisRequestHandlerBase.java:148)
        at org.apache.solr.handler.FieldAnalysisRequestHandler.analyzeValues(FieldAnalysisRequestHandler.java:214)
        at org.apache.solr.handler.FieldAnalysisRequestHandler.handleAnalysisRequest(FieldAnalysisRequestHandler.java:182)
        at org.apache.solr.handler.FieldAnalysisRequestHandler.doAnalysis(FieldAnalysisRequestHandler.java:102)
        at org.apache.solr.handler.AnalysisRequestHandlerBase.handleRequestBody(AnalysisRequestHandlerBase.java:63)
        at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:143)
        at org.apache.solr.core.SolrCore.execute(SolrCore.java:2064)
        at org.apache.solr.servlet.HttpSolrCall.execute(HttpSolrCall.java:654)
        at org.apache.solr.servlet.HttpSolrCall.call(HttpSolrCall.java:450)
        ... 18 more

神，这个是什么问题呀，jar包冲突了么，希望神能给解答下？

225 楼 shiqinfu 2016-12-02 17:29

shiqinfu 写道

楼主。。求解一个问题，用你的方法无法导入用户自定义的词典包，用的maven

应该说，能导入但起不到任何作用

224 楼 shiqinfu 2016-12-02 17:25

楼主。。求解一个问题，用你的方法无法导入用户自定义的词典包，用的maven

223 楼 andyshar 2016-09-09 22:17

ansjsun。好久不见啊，几年前就用过ansj。想念。
最近研究机器学习。觉得中文智能分析大有可为啊。

222 楼 huigaotang 2016-08-10 17:37

孙大哥，请问只想将文本根据自定义的词库分词该怎么操作，具体该操作哪个类呢？感谢啊！

221 楼 huigaotang 2016-08-04 11:25

大师，您的分词系统中说的自定义词库是指用户自己将词语以文本方式存储吗？可不可以通过读取数据库中的词汇，再将读取出的词汇存储在文档中形成自己的词库呢？请指教，谢谢

220 楼 lishujuncat 2016-07-11 16:32

大师你好，刚开始学自然语言处理，想问下 ansj这个是不是只处理string啊，需要自己吧文本中的每一句话获取出来在进行分词处理，不能一次处理一个文本问题？

219 楼 miaopeiwen 2015-12-28 10:35

fdgghghjfgh 写道

请问一下，lucene5.3集成ansj分词器，Analyzer analyzer = new AnsjAnalyzer();没有参数指定哪种分词方式，是因为默认了分词方式吗？

默认是ToAnalysis

218 楼 lliiqiang 2015-11-30 14:50

英文由26个字母组成，词汇由字母组成，它天生的由空格分割词汇，不需要计算机再分词,中文由很多汉字组成,需要读者分词，计算机处理分词很麻烦。

217 楼 fdgghghjfgh 2015-10-01 13:32

请问一下，lucene5.3集成ansj分词器，Analyzer analyzer = new AnsjAnalyzer();没有参数指定哪种分词方式，是因为默认了分词方式吗？

216 楼 BeMyself_wangl 2015-04-02 16:45

lucene4.7 使用最新的ansj 版本，
对内容： “甲午年十大文史图书盘点”
生成索引后

使用关键词 “甲午年” ，“甲午” 搜索
都搜索不出结果。

使用ansj 对 “甲午年十大文史图书盘点”
的分词结果：
[甲午年/b, 十/m, 大/a, 文史/n, 图书/n, 盘点/vn]

why?

215 楼 ansjsun 2014-11-17 14:17

dsx1013 写道

这个为什么没有跟别的分词一样给个停用词字典，自己加载呢？感觉还要自己去读字典再加再加进去有点麻烦呢，楼主有没有想过整合这快呢？初学者，别见怪哈

补充问一句，加了停用词后，原本的为N的词性都变了，没在词性说明中找到nis,nnt对应的说明
[检察院/n,董事长/n,有限公司/n]
[检察院/nis,董事长/nnt,有限公司/nis]

你加的不是停用词词典。是用户自定义词典把。。你e可以参看我的文档

http://nlpchina.github.io/ansj_seg/

214 楼 ansjsun 2014-11-17 14:16

wyyina 写道

楼主你好，为什么我导入ansj_seg-2.0.7.jar包测试一下List<Term> parse = NlpAnalysis.parse("洁面仪配合洁面深层清洁毛孔");
System.out.println(parse);
这个代码 eclispe提示我的包错误

找到原因了要导入nlp-lang的一个包但我在官网没看到~

不报错了但是运行出来内存溢出！ Java heap space

把jvm内存给大点

213 楼 dsx1013 2014-09-29 16:19

dsx1013 写道

212 楼 dsx1013 2014-09-29 16:03

211 楼 wyyina 2014-09-25 17:50

wyyina 写道

找到原因了要导入nlp-lang的一个包但我在官网没看到~

不报错了但是运行出来内存溢出！ Java heap space

210 楼 wyyina 2014-09-25 17:47

wyyina 写道

找到原因了要导入nlp-lang的一个包但我在官网没看到~

209 楼 wyyina 2014-09-25 17:40

208 楼 zcl243 2014-08-07 17:43

你好，楼主，我设的自定义词典，不起作用，按照文档上的三种方法都试了，起不到作用

207 楼 ansjsun 2014-07-23 19:42

jenight 写道

楼主，我发现那个lucene的插件分出来的token会将逗号，《》书名号等都符号都作为一个词，这个看上去没有意义，谁会搜索一个逗号呢？有什么方法可以去掉这些符号？

lucene插件支持停用词表

206 楼 jenight 2014-07-18 11:46

205 楼 garfieldkai 2014-07-12 00:13

请问索引分词是什么算法原理，能有一个大概的说明么？谢谢

204 楼 ansjsun 2014-02-15 12:08

louiswang 写道

十分感谢你的回答：
1.测试时内存是调整到1024m的
2.并且先测试一句话加载词库到内存
3.测试简单的一句话，然后累计测试是可以达到180w字/s,比如测试“我是中国人”，测试十万次，计算总时间为time，500000/time.
4.测试大文本进行反复测试，明显效率下降很多，一般在30w/s
5.我是抽取关键词使用，所以必须获取词性，大文本获取词性，内存瞬间上G
6.另外我只需要分词结果，不需要人名新词等发现策略，这个自己有单独的模块去实现了。

我qq 93618236 ，合适的话加我下，我把测试文本传给你。

明白了你加我吧..5144694

203 楼 louiswang 2014-02-15 10:06

202 楼 ansjsun 2014-02-14 23:34

louiswang 写道

我把8w字的文档提前分句然后拼装结果，测试结果如下：
List<Term> terms = ToAnalysis.parse(lines[i]);
163ms

new NatureRecognition(terms).recognition();
214ms
说明文本过长建立到一个图里面对获取词性影响很大

还有一个慢的原因.如果内存不够.你把内存调整大点..应该速度会快..试试调整到 -xms1024m

201 楼 ansjsun 2014-02-14 22:47

louiswang 写道

多谢解答，
测试没算读取文本的时间，采用的就是ToAnaysis方法，测试一个8w字的文档：
List<Term> terms = ToAnalysis.parse(input);
占时间：143ms

new NatureRecognition(terms).recognition();
占时间：2473ms

另外有几个疑问：
1.为何不根据空格和标点分割建立多个有向图，这样计算最短路径时应该会提高效率。
2.标注词性时候占用时间过长，能否在分词的过程中去标注词性而非出来结果后再标注
3.有咩有考虑如果一个句子过长，假设一句话全是汉字且非常长的情况下，计算最短路径时会比较耗时。
请问你qq多少，我加你qq聊下。

1.空格和标点对分词结果也有影响的.比如人名顿号人名都是需要考虑进来的
2.词性标注如果分词的时候就标注.速度会慢更多.词性标注.不建议句子太长.太长的话对内存占用太多..
3.其实最短路径.和句子长短关系不大.短句反而时间长..

最后.我估计你时间长是把加载词典的时间也算进去了吧?否则不可能这么慢...你可以在分词前先分一句话.."孙健123好公司...."类似这样然后在开始算时间

200 楼 louiswang 2014-02-14 17:04

199 楼 louiswang 2014-02-14 16:50

198 楼 ansjsun 2014-02-14 14:12

louiswang 写道

我测试了分词速度，大文本在28w/s，用户词库自己整的，有30万左右，是什么原因呢

1.你不是在lucene中用的吧？
2.你用的NlpAnalysis吧？

你常识用下 ToAnalysis 。这个速度快。应该是200w/s左右。。。还有你读文本的方式。。最好能把代码发上来我看看

197 楼 louiswang 2014-02-14 12:33

请问你的测试分词速度模型是什么样的，谢谢。

« 上一页 1 2 3 … 7 8 下一页 »

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

国内外优秀开源项目创始人专访

这几年陆续采访了国内外一些优秀开源项目的zuozh

R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)

笔者寄语：与前面的RsowballC分词不同的地方在于这是一个中文的分词包，简单易懂，分词是一个非常重要的步骤，可以通过一些字典，进行特定分词。大致分析步骤如下：数据导入——选择分词字典——分词但是下载...

中文分词工具Rwordseg

Ansj 也是一个开源的 Java 中文分词工具，基于中科院的 ictclas 中文分词算法，采用隐马尔科夫模型（Hidden Markov Model, HMM）。作者孙健重写了一个Java版本，并且全部开源，使得 Ansi 可用于人名识别、地名识别...

中文分词的应用新浪和庖丁两种方式对比

中文分词相比于英文难度要大得多，涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一，百度也是因为中文分词相比于google更优秀，才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...

Lucene下分词工具的学习探讨

今天一天学习的东西不多，除了看《Lucene实战》第20页的程序，就是研究Java版本的开源分词器了！在网上找到了两种分词器，ansj和imdict,本质上没有什么区别，都是用采用ICTCLAS的核心。个人觉得ansj要更好一些，...

NLP自然语言处理干货贴

摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：9. 代码共享(完) 文件说明： 1. image... 2.OCR技术浅探：8. 综合评估摘要：作者：苏剑林来源网站：科学空间原文链接：OCR技术浅探：8. 综合...

拟阵约束下最大化子模函数的模型及其算法的一种熵聚类方法.pdf

电力市场领域中基于CVaR风险评估的省间交易商最优购电模型研究与实现

内容概要：本文探讨了在两级电力市场环境中，针对省间交易商的最优购电模型的研究。文中提出了一个双层非线性优化模型，用于处理省内电力市场和省间电力交易的出清问题。该模型采用CVaR（条件风险价值）方法来评估和管理由新能源和负荷不确定性带来的风险。通过KKT条件和对偶理论，将复杂的双层非线性问题转化为更易求解的线性单层问题。此外，还通过实际案例验证了模型的有效性，展示了不同风险偏好设置对购电策略的影响。适合人群：从事电力系统规划、运营以及风险管理的专业人士，尤其是对电力市场机制感兴趣的学者和技术专家。使用场景及目标：适用于希望深入了解电力市场运作机制及其风险控制手段的研究人员和技术开发者。主要目标是为省间交易商提供一种科学有效的购电策略，以降低风险并提高经济效益。其他说明：文章不仅介绍了理论模型的构建过程，还包括具体的数学公式推导和Python代码示例，便于读者理解和实践。同时强调了模型在实际应用中存在的挑战，如数据精度等问题，并指出了未来改进的方向。

MATLAB/Simulink平台下四机两区系统风储联合调频技术及其高效仿真实现

内容概要：本文探讨了在MATLAB/Simulink平台上针对四机两区系统的风储联合调频技术。首先介绍了四机两区系统作为经典的电力系统模型，在风电渗透率增加的情况下，传统一次调频方式面临挑战。接着阐述了风储联合调频技术的应用，通过引入虚拟惯性控制和下垂控制策略，提高了系统的频率稳定性。文章展示了具体的MATLAB/Simulink仿真模型，包括系统参数设置、控制算法实现以及仿真加速方法。最终结果显示，在风电渗透率为25%的情况下，通过风储联合调频，系统频率特性得到显著提升，仿真时间缩短至5秒以内。适合人群：从事电力系统研究、仿真建模的技术人员，特别是关注风电接入电网稳定性的研究人员。使用场景及目标：适用于希望深入了解风储联合调频机制及其仿真实现的研究人员和技术开发者。目标是掌握如何利用MATLAB/Simulink进行高效的电力系统仿真，尤其是针对含有高比例风电接入的复杂场景。其他说明：文中提供的具体参数配置和控制算法有助于读者快速搭建类似的仿真环境，并进行相关研究。同时强调了参考文献对于理论基础建立的重要性。

永磁同步电机无感控制：高频方波注入与滑膜观测器结合实现及其应用场景

内容概要：本文介绍了永磁同步电机（PMSM）无感控制技术，特别是高频方波注入与滑膜观测器相结合的方法。首先解释了高频方波注入法的工作原理，即通过向电机注入高频方波电压信号，利用电机的凸极效应获取转子位置信息。接着讨论了滑膜观测器的作用，它能够根据电机的电压和电流估计转速和位置，具有较强的鲁棒性。两者结合可以提高无传感器控制系统的稳定性和精度。文中还提供了具体的Python、C语言和Matlab代码示例，展示了如何实现这两种技术。此外，简要提及了正弦波注入的相关论文资料，强调了其在不同工况下的优势。适合人群：从事电机控制系统设计的研发工程师和技术爱好者，尤其是对永磁同步电机无感控制感兴趣的读者。使用场景及目标：适用于需要减少传感器依赖、降低成本并提高系统可靠性的情况，如工业自动化设备、电动汽车等领域的电机控制。目标是掌握高频方波注入与滑膜观测器结合的具体实现方法，应用于实际工程项目中。其他说明：文中提到的高频方波注入和滑膜观测器的结合方式，不仅提高了系统的性能，还在某些特殊情况下表现出更好的适应性。同时，附带提供的代码片段有助于读者更好地理解和实践这一技术。

MATLAB中扩展卡尔曼滤波与双扩展卡尔曼滤波在电池参数辨识的应用

内容概要：本文深入探讨了MATLAB中扩展卡尔曼滤波（EKF）和双扩展卡尔曼滤波（DEKF）在电池参数辨识中的应用。首先介绍了EKF的基本原理和代码实现，包括状态预测和更新步骤。接着讨论了DEKF的工作机制，即同时估计系统状态和参数，解决了参数和状态耦合估计的问题。文章还详细描述了电池参数辨识的具体应用场景，特别是针对电池管理系统中的荷电状态（SOC）估计。此外，提到了一些实用技巧，如雅可比矩阵的计算、参数初始值的选择、数据预处理方法等，并引用了几篇重要文献作为参考。适合人群：从事电池管理系统开发的研究人员和技术人员，尤其是对状态估计和参数辨识感兴趣的读者。使用场景及目标：适用于需要精确估计电池参数的实际项目，如电动汽车、储能系统等领域。目标是提高电池管理系统的性能，确保电池的安全性和可靠性。其他说明：文章强调了实际应用中的注意事项，如数据处理、参数选择和模型优化等方面的经验分享。同时提醒读者关注最新的研究成果和技术进展，以便更好地应用于实际工作中。

基于三菱FX3U PLC和威纶通触摸屏的分切机上下收放卷张力控制系统设计

内容概要：本文详细介绍了在无电子凸轮功能情况下，利用三菱FX3U系列PLC和威纶通触摸屏实现分切机上下收放卷张力控制的方法。主要内容涵盖硬件连接、程序框架设计、张力检测与读取、PID控制逻辑以及触摸屏交互界面的设计。文中通过具体代码示例展示了如何初始化寄存器、读取张力传感器数据、计算张力偏差并实施PID控制，最终实现稳定的张力控制。此外，还讨论了卷径计算、速度同步控制等关键技术点，并提供了现场调试经验和优化建议。适合人群：从事自动化生产设备维护和技术支持的专业人士，尤其是熟悉PLC编程和触摸屏应用的技术人员。使用场景及目标：适用于需要对分切机进行升级改造的企业，旨在提高分切机的张力控制精度，确保材料切割质量，降低生产成本。通过本方案可以实现±3%的张力控制精度，满足基本生产需求。其他说明：本文不仅提供详细的程序代码和硬件配置指南，还分享了许多实用的调试技巧和经验，帮助技术人员更好地理解和应用相关技术。

基于S7系列PLC与组态王的三泵变频恒压供水系统设计与实现

内容概要：本文详细介绍了一种基于西门子S7-200和S7-300 PLC以及组态王软件的三泵变频恒压供水系统。主要内容涵盖IO分配、接线图原理图、梯形图程序编写和组态画面设计四个方面。通过合理的硬件配置和精确的编程逻辑，确保系统能够在不同负载情况下保持稳定的供水压力，同时实现节能和延长设备使用寿命的目标。适合人群：从事工业自动化领域的工程师和技术人员，尤其是熟悉PLC编程和组态软件使用的专业人士。使用场景及目标：适用于需要稳定供水的各种场合，如住宅小区、工厂等。目标是通过优化控制系统，提升供水效率，减少能源消耗，并确保系统的可靠性和安全性。其他说明：文中提供了详细的实例代码和调试技巧，帮助读者更好地理解和实施该项目。此外，还分享了一些实用的经验教训，有助于避免常见的错误和陷阱。

三相三线制SVG/STATCOM的Simulink仿真建模与控制策略解析

内容概要：本文详细介绍了三相三线制静止无功发生器（SVG/STATCOM）在Simulink中的仿真模型设计与实现。主要内容涵盖ip-iq检测法用于无功功率检测、dq坐标系下的电流解耦控制、电压电流双闭环控制系统的设计、SVPWM调制技术的应用以及具体的仿真参数设置。文中不仅提供了理论背景，还展示了具体的Matlab代码片段，帮助读者理解各个控制环节的工作原理和技术细节。此外，文章还讨论了实际调试中遇到的问题及解决方案，强调了参数调整的重要性。适合人群：从事电力系统自动化、电力电子技术研究的专业人士，特别是对SVG/STATCOM仿真感兴趣的工程师和研究人员。使用场景及目标：适用于希望深入了解SVG/STATCOM工作原理并掌握其仿真方法的研究人员和工程师。目标是在实践中能够正确搭建和优化SVG/STATCOM的仿真模型，提高无功补偿的效果。其他说明：文章提供了丰富的实例代码和调试技巧，有助于读者更好地理解和应用所学知识。同时，文中提及的一些经验和注意事项来源于实际项目，具有较高的参考价值。

基于SIMULINK的风力机发电效率建模探究.pdf

CarSim与Simulink联合仿真：基于MPC模型预测控制实现智能超车换道

内容概要：本文介绍了如何将CarSim的动力学模型与Simulink的智能算法相结合，利用模型预测控制(MPC)实现车辆的智能超车换道。主要内容包括MPC控制器的设计、路径规划算法、联合仿真的配置要点以及实际应用效果。文中提供了详细的代码片段和技术细节，如权重矩阵设置、路径跟踪目标函数、安全超车条件判断等。此外，还强调了仿真过程中需要注意的关键参数配置，如仿真步长、插值设置等，以确保系统的稳定性和准确性。适合人群：从事自动驾驶研究的技术人员、汽车工程领域的研究人员、对联合仿真感兴趣的开发者。使用场景及目标：适用于需要进行自动驾驶车辆行为模拟的研究机构和企业，旨在提高超车换道的安全性和效率，为自动驾驶技术研发提供理论支持和技术验证。其他说明：随包提供的案例文件已调好所有参数，可以直接导入并运行，帮助用户快速上手。文中提到的具体参数和配置方法对于初学者非常友好，能够显著降低入门门槛。

基于MATLAB的信号与系统实验：常见信号生成、卷积积分、频域分析及Z变换详解

内容概要：本文详细介绍了利用MATLAB进行信号与系统实验的具体步骤和技术要点。首先讲解了常见信号（如方波、sinc函数、正弦波等）的生成方法及其注意事项，强调了时间轴设置和参数调整的重要性。接着探讨了卷积积分的两种实现方式——符号运算和数值积分，指出了各自的特点和应用场景，并特别提醒了数值卷积时的时间轴重构和步长修正问题。随后深入浅出地解释了频域分析的方法，包括傅里叶变换的符号计算和快速傅里叶变换（FFT），并给出了具体的代码实例和常见错误提示。最后阐述了离散时间信号与系统的Z变换分析，展示了如何通过Z变换将差分方程转化为传递函数以及如何绘制零极点图来评估系统的稳定性。适合人群：正在学习信号与系统课程的学生，尤其是需要完成相关实验任务的人群；对MATLAB有一定基础，希望通过实践加深对该领域理解的学习者。使用场景及目标：帮助学生掌握MATLAB环境下信号生成、卷积积分、频域分析和Z变换的基本技能；提高学生解决实际问题的能力，避免常见的编程陷阱；培养学生的动手能力和科学思维习惯。其他说明：文中不仅提供了详细的代码示例，还分享了许多实用的小技巧，如如何正确保存实验结果图、如何撰写高质量的实验报告等。同时，作者以幽默风趣的语言风格贯穿全文，使得原本枯燥的技术内容变得生动有趣。

【KUKA 机器人移动编程】：mo2_motion_ptp_en.ppt

内容概要：本文详细介绍了无传感器永磁同步电机（PMSM）控制技术，特别是针对低速和中高速的不同控制策略。低速阶段采用I/F控制，通过固定电流幅值和斜坡加速的方式启动电机，确保平稳启动。中高速阶段则引入滑模观测器进行反电动势估算，从而精确控制电机转速。文中还讨论了两者之间的平滑切换逻辑，强调了参数选择和调试技巧的重要性。此外，提供了具体的伪代码示例，帮助读者更好地理解和实现这一控制方案。适合人群：从事电机控制系统设计的研发工程师和技术爱好者。使用场景及目标：适用于需要降低成本并提高可靠性的应用场景，如家用电器、工业自动化设备等。主要目标是掌握无传感器PMSM控制的基本原理及其优化方法。其他说明：文中提到的实际案例和测试数据有助于加深理解，同时提醒开发者注意硬件参数准确性以及调试过程中可能出现的问题。

开源 Java 中文分词器 Ansj 作者孙健专访

声明：ITeye精华文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

目 录 [ - ]

先来个自我介绍吧！

介绍一下Ansj！

你认为中文分词的难点是什么？

简单介绍一下Ansj分词用到的算法，其分词原理是什么？

Ansj分词的准确率大概是多少？

在歧义、未登录词问题上，Ansj表现怎样？

Ansj的性能如何？

如何添加自定义词典？

你在开发过程中，遇到哪些困难？

你认为Ansj还需要在哪些方面进行完善？

226 楼 qq394829044 2017-02-20 18:09

225 楼 shiqinfu 2016-12-02 17:29

224 楼 shiqinfu 2016-12-02 17:25

223 楼 andyshar 2016-09-09 22:17

222 楼 huigaotang 2016-08-10 17:37

221 楼 huigaotang 2016-08-04 11:25

220 楼 lishujuncat 2016-07-11 16:32

219 楼 miaopeiwen 2015-12-28 10:35

218 楼 lliiqiang 2015-11-30 14:50

217 楼 fdgghghjfgh 2015-10-01 13:32

216 楼 BeMyself_wangl 2015-04-02 16:45

215 楼 ansjsun 2014-11-17 14:17

214 楼 ansjsun 2014-11-17 14:16

213 楼 dsx1013 2014-09-29 16:19

212 楼 dsx1013 2014-09-29 16:03

211 楼 wyyina 2014-09-25 17:50

210 楼 wyyina 2014-09-25 17:47

209 楼 wyyina 2014-09-25 17:40

208 楼 zcl243 2014-08-07 17:43

207 楼 ansjsun 2014-07-23 19:42

206 楼 jenight 2014-07-18 11:46

205 楼 garfieldkai 2014-07-12 00:13

204 楼 ansjsun 2014-02-15 12:08

203 楼 louiswang 2014-02-15 10:06

202 楼 ansjsun 2014-02-14 23:34

201 楼 ansjsun 2014-02-14 22:47

200 楼 louiswang 2014-02-14 17:04

199 楼 louiswang 2014-02-14 16:50

198 楼 ansjsun 2014-02-14 14:12

197 楼 louiswang 2014-02-14 12:33

发表评论

相关推荐

目录 [ - ]