阅读更多
Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。

在线演示:http://ansj.sdapp.cn/demo/seg.jsp
官网地址:http://www.ansj.org/
Github地址:https://github.com/ansjsun/ansj_seg

我们本期采访了Ansj的作者孙健,请他为大家详细介绍一下这个分词工具。

ITeye期待并致力于为国内优秀的开源项目提供一个免费的推广平台,如果你和你的团队希望将自己的开源项目介绍给更多的开发者,或者你希望我们对哪些开源项目进行专访,请告诉我们,发站内短信给ITeye管理员或者发邮件到webmaster@iteye.com即可。

先来个自我介绍吧! Top

孙健,胸无大志,没想过创业,没想过发财,只想高高兴兴写两行代码,做了近五年Java程序员,写过页面,干过运维,做过人力,忽悠过客户,擅长字符串操作,擅长数据结构和算法。现在主要从事检索、自然语言处理、数据挖掘等方面工作。

介绍一下Ansj! Top

Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。

上面是客套话,先说明一下Ansj命名的由来吧。本来开始打算叫totoro分词(同事帮忙起的名),最后发现好多厕所中卫生洁具都叫“TOTO” ^_^

正好我注册了Ansj.org域名,于是乎,就叫这个名字吧。

你认为中文分词的难点是什么? Top

在这里说分词有点老生常谈了。的确,中文分词已经非常成熟了,但是之间有一些问题依旧比较难解。个人认为大致有以下几点吧:

1.  中文歧义的识别

比较出名的一句话“结婚的和尚未结婚的”,如果使用正向最大匹配,容易分成“结婚/的/和尚/未/结婚的”,于是有的学者试图倒过来识别,逆向匹配会大于正向。但是碰到这句“结合成分子时”,采用逆向最大匹配,则会分为“结合/成分/子时”,更有甚者像“咬了猎人的狗”这种语意不明的词语,就更不容易正确分词了。这是中文分词的软肋。下面是些典型的歧义句:

  • 交叉歧义(多种切分交织在一起):内塔内亚胡说的/确实/在理
  • 组合歧义(不同情况下切分不同):这个人/手上有痣、我们公司人手
  • 真歧义(几种切分都可以):乒乓球拍/卖/完了、乒乓球/拍卖/完了
2.  实体名识别

这个是中文分词遇到的最大的难点,也是最最紧迫的。实体名识别包括人名识别、地名识别、机构名识别,还包括有监督识别和无监督识别。有监督的还好,无监督基本是无解的,比如“王大力发球”是“王大力”还是“大力发球”,一般人都难以识别。

3.  新词热词发现

目前常用的新词发现还是一个比较有研究性的课题,虽然有些论文在准确率很高,但是大多是封闭测试,这意味着结果很难应用到实际工程中。目前Ansj采用的新词发现方式比较简单,采用了高频词的匹配方式,不使用规则,用统计重复串识别新词,根据词性去掉干扰词,虽然有一定的效果,但还是差强人意。

4.  颗粒度问题

这个就是一个规则探讨的问题了,比如“北京大学”是“北京”+“大学”还是“北京大学”,人各有志,就连同一个人不同时间的标注也有可能是有区别的,虽然这个问题严格上来说不属于技术问题,但是对分词结果的评测却有着很大的关系,Ansj采用“能识别就识别”的策略方针,所以在真正R值的时候偏低,总之一句话,适合学术的不一定适合工业,反之亦然。

简单介绍一下Ansj分词用到的算法,其分词原理是什么? Top

Ansj并非我创新,可以说是一个ictclas的Java版本,基本原理一致,只不过在分词优化算法上做了一些改进。

该算法实现分词有以下几个步骤:

  1. 全切分,原子切分;
  2. N最短路径的粗切分,根据隐马尔科夫模型和viterbi算法,达到最优路径的规划;
  3. 人名识别;
  4. 系统词典补充;
  5. 用户自定义词典的补充;
  6. 词性标注(可选)

Ansj分词的准确率大概是多少? Top

这是我采用人民日报1998年1月语料库的一个测试结果,首先要说明的是这份人工标注的语料库本身就有错误。

  • P(准确率):0.984887218571267
  • R(召回率):0.9626488103178712
  • F(综合指标F值):0.9736410471396494

在歧义、未登录词问题上,Ansj表现怎样? Top

歧异方面的处理方式自我感觉还可以,基于“最佳实践规则+统计”的方式,虽然还有一部分歧异无法识别,但是已经完全能满足工程应用了。

至于未登录词的识别,目前重点做了中文人名的识别,效果还算满意,识别方式用的“字体+前后监督”的方式,也算是目前我所知道的效果最好的一种识别方式了。

Ansj的性能如何? Top

在我的测试中,Ansj的效率已经远超ictclas的其他开源实现版本。

核心词典利用双数组规划,每秒钟能达到千万级别的粗分。在我的MacBookAir上面,分词速度大约在300w/字/秒,在酷睿i5+4G内存组装机器上,更是达到了400w+/字/秒的速度。

如何添加自定义词典? Top

Ansj已经实现了用户自定义词典的动态添加删除,当然,也支持从文件加载词典。

从硬盘加载用户自定义词典的方法:

用户自定义词典默认路径:项目目录/library/userLibrary/userLibrary.dic

格式为:[自定义词]  [词性]  [词频],如:csdn创新院  userDefine  1000,中间用TAB键隔开

原分词结果:[csdn, 创新, 院, 是, 一个, 好, 公司]

增加词典后:[csdn创新院, 是, 一个, 好, 公司]

详细内容见:用户自定义词典的添加

用户自定义词典的动态添加删除方法见:用户自定义词典的动态添加删除Demo

你在开发过程中,遇到哪些困难? Top

最大的困难是训练样本和语料库的不足,遗憾国内没有共享,大多数都是收费的,而且好贵。

你认为Ansj还需要在哪些方面进行完善? Top

我打算下一版的改进将围绕未登录词进行,采用crf来做新词的识别。当然随着系统的庞大,每次修改都要考虑效率内存占用。

虽然已经着手开始进行中,但是进展一直不快。有兴趣的同学可以多提意见,可以通过Github参与到该项目中,让我们做一个真正的Java版的高准确率分词。

Github地址:https://github.com/ansjsun/ansj_seg
  • 大小: 44.8 KB


评论 共 226 条
76 楼 iminto 2012-11-06 22:29
fyland 写道
zhangmiao_chp 写道
fyland 写道
一看原来是用JAVA写的,马上兴趣全无!
JAVA干这种活速度实在太差了!


楼上相当无知,决定系统性能的是数据结构和算法,和语言没有关系,算法提升的性能是成倍的,代码写的好不好要看你的功力强不强,和兵器有毛关系。支持楼主

到底谁无知?
同一种算法,只能用JAVA实现,而不能用C实现?
我没有否认数据结构和算法在性能方面的重要性(事实上我提都没提),我语义的环境是假设在相同算法上,用C语言实现的中文分词会比用JAVA实现的在运行速度上要快得多!在占用CPU和内存使用上,C占的优势就更不用说了!硬件那是实实在在用银子堆起来的!
JAVA唯一的优势就是开发速度。

没有建设性的争论不过是无理取闹,谁不知道C快,你这么积极的争论,是为了证明你使用了C很自豪呢还是对Java很鄙视。
请问阁下是什么程序员?
75 楼 iminto 2012-11-06 22:26
fyland 写道
一看原来是用JAVA写的,马上兴趣全无!
JAVA干这种活速度实在太差了!

给我说点有建设性的东西出来,不要就几句套话搬来搬去。
如果你是C程序员,麻烦献宝;
如果你是PY程序员,请献宝,比较下效率;
如果你是PHP程序员,用的别人用C写好的东西,你没资格;
如果你是前端,你没资格;
74 楼 xueyue 2012-11-06 21:22
很想看一下其原码是怎么实现的,结果进去报404错误。。
73 楼 ansjsun 2012-11-06 17:10
aixuebo 写道
if ((this.root > 0) && (isE(this.chars[(this.root - 1)])) && (isE(this.str.charAt(0)))) {
this.str = EMPTYSTRING;
}

if ((this.str.length() != 0) && (this.root + this.tempOffe < this.chars.length) && (isE(this.str.charAt(this.str.length() - 1)))
&& (isE(this.chars[(this.root + this.tempOffe)]))) {
this.str = EMPTYSTRING;
   }
这两段if判断英文是做什么的?



这个是..在分词过程中..中文独立处理..英文独立处理..算是断句的一部分吧...这个其实你可以忽略的为了性能这么做的
72 楼 ansjsun 2012-11-06 17:07
ansjsun 写道
aixuebo 写道
我这有一个源码的问题:
1、GetWord类中,isBack表示什么意思?

1.isBack表示是否回退.比如"中华人民共和好" 当正向最大的时候...匹配到"中华人民共和"时候发现词语无法继续..就需要退回到上一个匹配节点.



还是没太懂,您说的都已经匹配到“中华人民共和”了,说明词典中已经存在"中华人民共"了吧。退回上一个匹配的节点,是退回到"中华人民共"吗?

ps:也不算细心了,只是有源码可以研究了,正好还有作者可以解释,千载难逢啊呵呵


匹配到“中华人民共和” 如果发现最后一个字不是国,那么.应当回退到 "中华"这里..然后分出来"中华" , 然后从"人民"开始往后分...这就是正向最大匹配的回退过程
71 楼 ansjsun 2012-11-06 16:40
fxsjy 写道
发现评论演变成Java/C++语言之争了,让有些用Python写分词的人情何以堪。

我java的都被批成这样了..你的python就沉默吧..呵呵...哥哥救(和谐)命啊...
70 楼 fxsjy 2012-11-06 16:36
发现评论演变成Java/C++语言之争了,让有些用Python写分词的人情何以堪。
69 楼 fyland 2012-11-06 15:30
ansjsun 写道
fyland 写道

一般情况下..是让他换机器的...说实话..还没碰到几个..因为java慢必须要改成c的....不用swing..基本上都还可以...还有...营造一个好的论坛环境别吵了..多大点事啊....
我评论的是针对用JAVA写分词系统,而有人在评论中说“真的是眼高手低”,那就是针对个人了!


我以前在中科院的时候..c做的快速分词能达到20m每秒.我用java实现的也差不多.

.还有..我经常把一些研究生的作业改写成java的有的时候.效率会比c高不少.虚拟机内部对字符串有优化.在这个分词中将词典和词都加载到了内存中.所以.很少做了字符串拆分..创造对象尽量用引用.少写new..都是一些细节技巧..如果你看了我的源码.也许会发现..大量的引用..在分词加载完毕后.很少用new来实例化对象.这些都和语言无关...至于内存占用率..这个至少空闲内存100m..一般台式机我想应该能接受吧..你要非把他放手机里跑这个的确不合适..

还有.其实开发效率和可维护性.才是一个软件的关键.硬件发展太快.很多以前无法实现的技术现在都能做到了..任何人都不应该写天书一样的代码.

1.为什么没见过几个c语言做动态网页的.
2.为什么人们有了汇编还要创建其他语言.

需要考虑到业务节点的瓶颈.还需要考虑个个语言的通讯成本.总总因素.

“开发效率和可维护性.才是一个软件的关键”——但跟语言的关系比较大,还是跟人的关系比较大?用Java“开发效率和可维护性”就一定比用C好?“任何人都不应该写天书一样的代码”——仍然是人的问题吧?

1、有了汽车之后,自行车就淘汰了?有了高铁之后,汽车就无用武之地了?
2、很简单,在不同的领域或应用场景需要不同的工具嘛。你去美国,是选择坐飞机,还是选择开车,还是徒步?你去崎岖的乡下,是骑车还是开车?但你去同城朋友家,可以开车、坐地铁、坐公交、骑自行车、走路很多种选择的时候,那就可以根据应用场景来选择了,如果有急事赶时间,那就开车,如果是在上下班高峰期堵车,那就坐地铁,如果离地铁远,那就骑车。Linux Kernel里面有些操作的过程、程序段和函数以及某些特殊场合,为了执行效率都是用汇编写的(另外一些用汇编是底层为了与硬件打交道才不得不用)。当然,用汇编去写个XX管理系统,那显然不合适,就像游泳去美国,理论上可行,但结果一般都是中途溺亡。
回到具体应用——一个中文分词器,可以用JAVA、C、C++、C#、perl甚至是PHP这样的解释性的动态语言实现,对某种语言同等熟练的人在“开发效率和可维护性”都差不多的时候,那就比较运行速度、CPU占用率、内存使用多少。同样的算法,用C和JAVA分别实现,JAVA在哪方面都不占优势。节约出来的硬件可都是实实在在的银子!
68 楼 aixuebo 2012-11-06 15:06
if ((this.root > 0) && (isE(this.chars[(this.root - 1)])) && (isE(this.str.charAt(0)))) {
this.str = EMPTYSTRING;
}

if ((this.str.length() != 0) && (this.root + this.tempOffe < this.chars.length) && (isE(this.str.charAt(this.str.length() - 1)))
&& (isE(this.chars[(this.root + this.tempOffe)]))) {
this.str = EMPTYSTRING;
   }
这两段if判断英文是做什么的?
67 楼 aixuebo 2012-11-06 15:03
aixuebo 写道
我这有一个源码的问题:
1、GetWord类中,isBack表示什么意思?

1.isBack表示是否回退.比如"中华人民共和好" 当正向最大的时候...匹配到"中华人民共和"时候发现词语无法继续..就需要退回到上一个匹配节点.



还是没太懂,您说的都已经匹配到“中华人民共和”了,说明词典中已经存在"中华人民共"了吧。退回上一个匹配的节点,是退回到"中华人民共"吗?

ps:也不算细心了,只是有源码可以研究了,正好还有作者可以解释,千载难逢啊呵呵
66 楼 ansjsun 2012-11-06 14:27
aixuebo 写道
我这有一个源码的问题:
1、GetWord类中,isBack表示什么意思?
2、GetWord类的allWords方法中:
当switch (this.branch.getStatus()) 走到分支为3的时候,为什么要this.root += 1;



1.isBack表示是否回退.比如"中华人民共和好" 当正向最大的时候...匹配到"中华人民共和"时候发现词语无法继续..就需要退回到上一个匹配节点.
2.allwords做的是全切分..3代表是一个词.并且不是其他词的一部分..所以.这个词会被分出来.同时.下次分词时候.从当前偏移量+1继续进行分词

ps:你看的还挺心细的呵呵.
65 楼 aixuebo 2012-11-06 14:20
我这有一个源码的问题:
1、GetWord类中,isBack表示什么意思?
2、GetWord类的allWords方法中:
当switch (this.branch.getStatus()) 走到分支为3的时候,为什么要this.root += 1;


64 楼 ansjsun 2012-11-06 14:01
john813 写道
作者能否为读者简单对比一下 ansj 和 paoding ? 二者的区别、共同点什么的。 貌似paoding 是最流行的分词库。 不过刚刚测试了一下,不支持最新的 lucene/solr 4.0


主要区别就是基于.规则和基于统计的区别.在歧义句上.基于统计的要远远优于基于规则的.还有很大一个区别..是实体名的识别..比如"张琳,美林的娃娃叫陈喜梅是么?"如果用字典和规则来做人名识别都不一定能做好的..最佳实践是基于统计+规则的方式...还有lucene4是支持了.你可以试试..solr 我没用过不知道呢..据说有点问题...
63 楼 lqixv 2012-11-06 13:57
我觉得 ik-analyzer 非常不错
62 楼 ansjsun 2012-11-06 13:56
aixuebo 写道
john813 写道
lucene/solr 4.0

我知道IK支持4.0了。


这个支持luncene4.0的.而且100%支持..

https://github.com/ansjsun/ansj_seg/tree/master/contrib

这里面下载ansj_lucene_40_plug.jar,ansj_seg.jar ,tree-split-word.jar

三个jar包..
然后...https://github.com/ansjsun/ansj_seg/wiki/%E6%8A%8Aansj%E9%9B%86%E6%88%90%E5%9C%A8lucene%E4%B8%AD,%E4%BB%A5%E5%8F%8A%E5%9C%A8lucene%E4%B8%AD%E4%BD%BF%E7%94%A8%E4%BB%96%E7%9A%84%E4%BC%98%E5%8A%BF

看这里..其他木有了...如果遇到什么问题欢迎反馈

61 楼 aixuebo 2012-11-06 13:48
john813 写道
作者能否为读者简单对比一下 ansj 和 paoding ? 二者的区别、共同点什么的。 貌似paoding 是最流行的分词库。 不过刚刚测试了一下,不支持最新的 lucene/solr 4.0



我知道IK支持4.0了。
60 楼 john813 2012-11-06 13:32
作者能否为读者简单对比一下 ansj 和 paoding ? 二者的区别、共同点什么的。 貌似paoding 是最流行的分词库。 不过刚刚测试了一下,不支持最新的 lucene/solr 4.0
59 楼 aixuebo 2012-11-06 13:16
fyland 写道
yuhe 写道
居然还有人在争论语言效率问题,可见这群人是多么的无知。10有89,是乳臭未干的小民工。

真不知道你的优越感来自哪里!
语言当然会有效率问题,这是很自然的事情,那么多语言提升版本号难道只是加新特性?同一个算法,用不同语言实现,运行速度和CPU占用率、内存使用都不会相同。很多语言不是经常changlog里说效率提高了多少多少吗?JAVA不也是这样吗?Fackbook为了提升PHP的性能,不是开发出了HipHop吗?为什么就不能争论语言效率了呢?为什么争论语言效率就是无知呢?




兄弟,您说的是对的,确实效率很重要,但是至少现在在分词中影响不是最关键的,咱们能不能先放置一下,这个观点争论起来简直没完没了了。。。我看现在评论50%以上都是在说这个了。
58 楼 aixuebo 2012-11-06 13:13
ansjsun 写道
aixuebo 写道
http://note.youdao.com/share/?id=b1915aba7503a46cf6fb1b74461d8dfe&type=note

楼主,我测试出来了一个小问题,您看一下这个。刚刚在微博中给您留言了,但是您没在线,就留言到这里来了。


我用你的测试用例测试了下..没有出现这个问题..我估计..你是win操作系统..用文本编辑器做的..在win下..估计行开头给加了一个\r造成的...这个也不好解决...属于词典格式不符合条件..你试试这个代码..是否可以

public static void main(String[] args) throws Exception {
		List<Value> values = new ArrayList<Value>() ;
		values.add(new Value("安全措施", "userDefine","1000")) ;
		Forest makeForest = Library.makeForest(values) ;
		GetWord word = makeForest.getWord("安全措施") ;
		
		System.out.println(word.getFrontWords());
	}



这段代码我测试了,没有问题,不仅仅是这个代码没问题,其他方式都没问题,仅仅只有当使用读取文件的方式才会出现这个问题。

应该是我环境的问题。谢谢了。
57 楼 ansjsun 2012-11-06 13:02
fyland 写道
真不知道你的优越感来自哪里!
语言当然会有效率问题,这是很自然的事情,那么多语言提升版本号难道只是加新特性?同一个算法,用不同语言实现,运行速度和CPU占用率、内存使用都不会相同。很多语言不是经常changlog里说效率提高了多少多少吗?JAVA不也是这样吗?Fackbook为了提升PHP的性能,不是开发出了HipHop吗?为什么就不能争论语言效率了呢?为什么争论语言效率就是无知呢?

hiphop都是多余的直接用机器码多好啊!各种语言存在必有其价值.只是适合不适合的问题.分词的难点不是速度的问题..现在的机器,大多数应用..分词速度都不是瓶颈....还有..我希望你能跟楼下一样..多讨论一些分词的细节.和思路.把这种高深的问题交给寂寞的人去解决吧..不讨论了..如果你要觉得意犹未尽就私信吧.
56 楼 fyland 2012-11-06 12:44
yuhe 写道
居然还有人在争论语言效率问题,可见这群人是多么的无知。10有89,是乳臭未干的小民工。

真不知道你的优越感来自哪里!
语言当然会有效率问题,这是很自然的事情,那么多语言提升版本号难道只是加新特性?同一个算法,用不同语言实现,运行速度和CPU占用率、内存使用都不会相同。很多语言不是经常changlog里说效率提高了多少多少吗?JAVA不也是这样吗?Fackbook为了提升PHP的性能,不是开发出了HipHop吗?为什么就不能争论语言效率了呢?为什么争论语言效率就是无知呢?
55 楼 ansjsun 2012-11-06 12:38
aixuebo 写道
http://note.youdao.com/share/?id=b1915aba7503a46cf6fb1b74461d8dfe&type=note

楼主,我测试出来了一个小问题,您看一下这个。刚刚在微博中给您留言了,但是您没在线,就留言到这里来了。


我用你的测试用例测试了下..没有出现这个问题..我估计..你是win操作系统..用文本编辑器做的..在win下..估计行开头给加了一个\r造成的...这个也不好解决...属于词典格式不符合条件..你试试这个代码..是否可以

public static void main(String[] args) throws Exception {
		List<Value> values = new ArrayList<Value>() ;
		values.add(new Value("安全措施", "userDefine","1000")) ;
		Forest makeForest = Library.makeForest(values) ;
		GetWord word = makeForest.getWord("安全措施") ;
		
		System.out.println(word.getFrontWords());
	}
54 楼 ansjsun 2012-11-06 12:17
请输入用户名 写道
我有问题,像这种分词时从前分或从后分有歧义的,为什么不将两个分词的结果都加入到索引中?这样虽然分词的时候会慢,但在查询的时候,只是多了几个不需要的词语,又不影响什么效率。

比如这句话.."旅游和服务"..如果用户搜索"和服".出来是不应该的..不过你说的问题大多数都说引擎都大致这么解决的.....但是在精准率和召回率要取平衡..分词无法100%准确的...你可以搜索下"和服务必不要穿" 这个case..各大搜索引擎基本全挂
53 楼 请输入用户名 2012-11-06 12:11
我有问题,像这种分词时从前分或从后分有歧义的,为什么不将两个分词的结果都加入到索引中?这样虽然分词的时候会慢,但在查询的时候,只是多了几个不需要的词语,又不影响什么效率。
52 楼 fyland 2012-11-06 11:40
yuhe 写道
居然还有人在争论语言效率问题,可见这群人是多么的无知。10有89,是乳臭未干的小民工。

跪拜高帅富!
都是给人打工的,竟然嘲笑别人是小民工!
51 楼 aixuebo 2012-11-06 11:28
http://note.youdao.com/share/?id=b1915aba7503a46cf6fb1b74461d8dfe&type=note

楼主,我测试出来了一个小问题,您看一下这个。刚刚在微博中给您留言了,但是您没在线,就留言到这里来了。
50 楼 wzjin 2012-11-06 11:26
支持!分词和机器学习这块还是有很多东西可以深入的。用java比c好,好的想法快速高效实现很重要。
49 楼 iDogDogDog 2012-11-06 11:11
现在的软件已经不能单看运行速度了,评价一个软件的好坏,在同等条件下,主要考虑一下几点 1.运行速度 2.开发成本 3.升级维护成本 4.发展潜力 如果最高为4 最低为1 那么来评估一下各个语言的实例吧
Java   2           3           3            2    =10
Js     2           2           3            3    =10
C      3           2           2            3    =10
Asm    4           1           1            4    =10
所以站在软件生命周期的角度来看,讨论语言的好话是没有意义的!
48 楼 mdsp25xhm 2012-11-06 11:08
可能是当前最好的吧,但分词不堪理想。毕竟中文词汇繁多。
47 楼 ansjsun 2012-11-06 11:04
iDogDogDog 写道
嗯 在线测了一下,
成都市长长我两岁
还是不行,感觉可能还是训练样本太少.

的却..在歧异上面..有一些是不好处理的..训练样本少只是一部分..我记录下这些badcase....谢谢你的意见

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 国内外优秀开源项目创始人专访

    这几年陆续采访了国内外一些优秀开源项目的zuozh

  • R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)

    笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词。大致分析步骤如下: 数据导入——选择分词字典——分词 但是下载...

  • 中文分词工具Rwordseg

    Ansj 也是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,采用隐马尔科夫模型(Hidden Markov Model, HMM)。作者孙健重写了一个Java版本,并且全部开源,使得 Ansi 可用于人名识别、地名识别...

  • 中文分词的应用 新浪和庖丁两种方式对比

    中文分词相比于英文难度要大得多,涉及到自然语言的理解和处理。分词也是文本挖掘中的关键技术之一,百度也是因为中文分词相比于google更优秀,才做到中文的检索结果更优。实际上新浪、百度云服务上很多开发者也开放...

  • Lucene下分词工具的学习探讨

    今天一天学习的东西不多,除了看《Lucene实战》第20页的程序,就是研究Java版本的开源分词器了! 在网上找到了两种分词器,ansj和imdict,本质上没有什么区别,都是用采用ICTCLAS的核心。个人觉得ansj要更好一些,...

  • NLP自然语言处理干货贴

    摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:9. 代码共享(完) 文件说明: 1. image... 2.OCR技术浅探:8. 综合评估 摘要:作者:苏剑林 来源网站:科学空间 原文链接:OCR技术浅探:8. 综合...

  • 拟阵约束下最大化子模函数的模型及其算法的一种熵聚类方法.pdf

    拟阵约束下最大化子模函数的模型及其算法的一种熵聚类方法.pdf

  • 电力市场领域中基于CVaR风险评估的省间交易商最优购电模型研究与实现

    内容概要:本文探讨了在两级电力市场环境中,针对省间交易商的最优购电模型的研究。文中提出了一个双层非线性优化模型,用于处理省内电力市场和省间电力交易的出清问题。该模型采用CVaR(条件风险价值)方法来评估和管理由新能源和负荷不确定性带来的风险。通过KKT条件和对偶理论,将复杂的双层非线性问题转化为更易求解的线性单层问题。此外,还通过实际案例验证了模型的有效性,展示了不同风险偏好设置对购电策略的影响。 适合人群:从事电力系统规划、运营以及风险管理的专业人士,尤其是对电力市场机制感兴趣的学者和技术专家。 使用场景及目标:适用于希望深入了解电力市场运作机制及其风险控制手段的研究人员和技术开发者。主要目标是为省间交易商提供一种科学有效的购电策略,以降低风险并提高经济效益。 其他说明:文章不仅介绍了理论模型的构建过程,还包括具体的数学公式推导和Python代码示例,便于读者理解和实践。同时强调了模型在实际应用中存在的挑战,如数据精度等问题,并指出了未来改进的方向。

  • MATLAB/Simulink平台下四机两区系统风储联合调频技术及其高效仿真实现

    内容概要:本文探讨了在MATLAB/Simulink平台上针对四机两区系统的风储联合调频技术。首先介绍了四机两区系统作为经典的电力系统模型,在风电渗透率增加的情况下,传统一次调频方式面临挑战。接着阐述了风储联合调频技术的应用,通过引入虚拟惯性控制和下垂控制策略,提高了系统的频率稳定性。文章展示了具体的MATLAB/Simulink仿真模型,包括系统参数设置、控制算法实现以及仿真加速方法。最终结果显示,在风电渗透率为25%的情况下,通过风储联合调频,系统频率特性得到显著提升,仿真时间缩短至5秒以内。 适合人群:从事电力系统研究、仿真建模的技术人员,特别是关注风电接入电网稳定性的研究人员。 使用场景及目标:适用于希望深入了解风储联合调频机制及其仿真实现的研究人员和技术开发者。目标是掌握如何利用MATLAB/Simulink进行高效的电力系统仿真,尤其是针对含有高比例风电接入的复杂场景。 其他说明:文中提供的具体参数配置和控制算法有助于读者快速搭建类似的仿真环境,并进行相关研究。同时强调了参考文献对于理论基础建立的重要性。

  • 永磁同步电机无感控制:高频方波注入与滑膜观测器结合实现及其应用场景

    内容概要:本文介绍了永磁同步电机(PMSM)无感控制技术,特别是高频方波注入与滑膜观测器相结合的方法。首先解释了高频方波注入法的工作原理,即通过向电机注入高频方波电压信号,利用电机的凸极效应获取转子位置信息。接着讨论了滑膜观测器的作用,它能够根据电机的电压和电流估计转速和位置,具有较强的鲁棒性。两者结合可以提高无传感器控制系统的稳定性和精度。文中还提供了具体的Python、C语言和Matlab代码示例,展示了如何实现这两种技术。此外,简要提及了正弦波注入的相关论文资料,强调了其在不同工况下的优势。 适合人群:从事电机控制系统设计的研发工程师和技术爱好者,尤其是对永磁同步电机无感控制感兴趣的读者。 使用场景及目标:适用于需要减少传感器依赖、降低成本并提高系统可靠性的情况,如工业自动化设备、电动汽车等领域的电机控制。目标是掌握高频方波注入与滑膜观测器结合的具体实现方法,应用于实际工程项目中。 其他说明:文中提到的高频方波注入和滑膜观测器的结合方式,不仅提高了系统的性能,还在某些特殊情况下表现出更好的适应性。同时,附带提供的代码片段有助于读者更好地理解和实践这一技术。

  • MATLAB中扩展卡尔曼滤波与双扩展卡尔曼滤波在电池参数辨识的应用

    内容概要:本文深入探讨了MATLAB中扩展卡尔曼滤波(EKF)和双扩展卡尔曼滤波(DEKF)在电池参数辨识中的应用。首先介绍了EKF的基本原理和代码实现,包括状态预测和更新步骤。接着讨论了DEKF的工作机制,即同时估计系统状态和参数,解决了参数和状态耦合估计的问题。文章还详细描述了电池参数辨识的具体应用场景,特别是针对电池管理系统中的荷电状态(SOC)估计。此外,提到了一些实用技巧,如雅可比矩阵的计算、参数初始值的选择、数据预处理方法等,并引用了几篇重要文献作为参考。 适合人群:从事电池管理系统开发的研究人员和技术人员,尤其是对状态估计和参数辨识感兴趣的读者。 使用场景及目标:适用于需要精确估计电池参数的实际项目,如电动汽车、储能系统等领域。目标是提高电池管理系统的性能,确保电池的安全性和可靠性。 其他说明:文章强调了实际应用中的注意事项,如数据处理、参数选择和模型优化等方面的经验分享。同时提醒读者关注最新的研究成果和技术进展,以便更好地应用于实际工作中。

  • 基于三菱FX3U PLC和威纶通触摸屏的分切机上下收放卷张力控制系统设计

    内容概要:本文详细介绍了在无电子凸轮功能情况下,利用三菱FX3U系列PLC和威纶通触摸屏实现分切机上下收放卷张力控制的方法。主要内容涵盖硬件连接、程序框架设计、张力检测与读取、PID控制逻辑以及触摸屏交互界面的设计。文中通过具体代码示例展示了如何初始化寄存器、读取张力传感器数据、计算张力偏差并实施PID控制,最终实现稳定的张力控制。此外,还讨论了卷径计算、速度同步控制等关键技术点,并提供了现场调试经验和优化建议。 适合人群:从事自动化生产设备维护和技术支持的专业人士,尤其是熟悉PLC编程和触摸屏应用的技术人员。 使用场景及目标:适用于需要对分切机进行升级改造的企业,旨在提高分切机的张力控制精度,确保材料切割质量,降低生产成本。通过本方案可以实现±3%的张力控制精度,满足基本生产需求。 其他说明:本文不仅提供详细的程序代码和硬件配置指南,还分享了许多实用的调试技巧和经验,帮助技术人员更好地理解和应用相关技术。

  • 基于S7系列PLC与组态王的三泵变频恒压供水系统设计与实现

    内容概要:本文详细介绍了一种基于西门子S7-200和S7-300 PLC以及组态王软件的三泵变频恒压供水系统。主要内容涵盖IO分配、接线图原理图、梯形图程序编写和组态画面设计四个方面。通过合理的硬件配置和精确的编程逻辑,确保系统能够在不同负载情况下保持稳定的供水压力,同时实现节能和延长设备使用寿命的目标。 适合人群:从事工业自动化领域的工程师和技术人员,尤其是熟悉PLC编程和组态软件使用的专业人士。 使用场景及目标:适用于需要稳定供水的各种场合,如住宅小区、工厂等。目标是通过优化控制系统,提升供水效率,减少能源消耗,并确保系统的可靠性和安全性。 其他说明:文中提供了详细的实例代码和调试技巧,帮助读者更好地理解和实施该项目。此外,还分享了一些实用的经验教训,有助于避免常见的错误和陷阱。

  • 三相三线制SVG/STATCOM的Simulink仿真建模与控制策略解析

    内容概要:本文详细介绍了三相三线制静止无功发生器(SVG/STATCOM)在Simulink中的仿真模型设计与实现。主要内容涵盖ip-iq检测法用于无功功率检测、dq坐标系下的电流解耦控制、电压电流双闭环控制系统的设计、SVPWM调制技术的应用以及具体的仿真参数设置。文中不仅提供了理论背景,还展示了具体的Matlab代码片段,帮助读者理解各个控制环节的工作原理和技术细节。此外,文章还讨论了实际调试中遇到的问题及解决方案,强调了参数调整的重要性。 适合人群:从事电力系统自动化、电力电子技术研究的专业人士,特别是对SVG/STATCOM仿真感兴趣的工程师和研究人员。 使用场景及目标:适用于希望深入了解SVG/STATCOM工作原理并掌握其仿真方法的研究人员和工程师。目标是在实践中能够正确搭建和优化SVG/STATCOM的仿真模型,提高无功补偿的效果。 其他说明:文章提供了丰富的实例代码和调试技巧,有助于读者更好地理解和应用所学知识。同时,文中提及的一些经验和注意事项来源于实际项目,具有较高的参考价值。

  • 基于SIMULINK的风力机发电效率建模探究.pdf

    基于SIMULINK的风力机发电效率建模探究.pdf

  • CarSim与Simulink联合仿真:基于MPC模型预测控制实现智能超车换道

    内容概要:本文介绍了如何将CarSim的动力学模型与Simulink的智能算法相结合,利用模型预测控制(MPC)实现车辆的智能超车换道。主要内容包括MPC控制器的设计、路径规划算法、联合仿真的配置要点以及实际应用效果。文中提供了详细的代码片段和技术细节,如权重矩阵设置、路径跟踪目标函数、安全超车条件判断等。此外,还强调了仿真过程中需要注意的关键参数配置,如仿真步长、插值设置等,以确保系统的稳定性和准确性。 适合人群:从事自动驾驶研究的技术人员、汽车工程领域的研究人员、对联合仿真感兴趣的开发者。 使用场景及目标:适用于需要进行自动驾驶车辆行为模拟的研究机构和企业,旨在提高超车换道的安全性和效率,为自动驾驶技术研发提供理论支持和技术验证。 其他说明:随包提供的案例文件已调好所有参数,可以直接导入并运行,帮助用户快速上手。文中提到的具体参数和配置方法对于初学者非常友好,能够显著降低入门门槛。

  • 基于MATLAB的信号与系统实验:常见信号生成、卷积积分、频域分析及Z变换详解

    内容概要:本文详细介绍了利用MATLAB进行信号与系统实验的具体步骤和技术要点。首先讲解了常见信号(如方波、sinc函数、正弦波等)的生成方法及其注意事项,强调了时间轴设置和参数调整的重要性。接着探讨了卷积积分的两种实现方式——符号运算和数值积分,指出了各自的特点和应用场景,并特别提醒了数值卷积时的时间轴重构和步长修正问题。随后深入浅出地解释了频域分析的方法,包括傅里叶变换的符号计算和快速傅里叶变换(FFT),并给出了具体的代码实例和常见错误提示。最后阐述了离散时间信号与系统的Z变换分析,展示了如何通过Z变换将差分方程转化为传递函数以及如何绘制零极点图来评估系统的稳定性。 适合人群:正在学习信号与系统课程的学生,尤其是需要完成相关实验任务的人群;对MATLAB有一定基础,希望通过实践加深对该领域理解的学习者。 使用场景及目标:帮助学生掌握MATLAB环境下信号生成、卷积积分、频域分析和Z变换的基本技能;提高学生解决实际问题的能力,避免常见的编程陷阱;培养学生的动手能力和科学思维习惯。 其他说明:文中不仅提供了详细的代码示例,还分享了许多实用的小技巧,如如何正确保存实验结果图、如何撰写高质量的实验报告等。同时,作者以幽默风趣的语言风格贯穿全文,使得原本枯燥的技术内容变得生动有趣。

  • 【KUKA 机器人移动编程】:mo2_motion_ptp_en.ppt

    KUKA机器人相关文档

  • 永磁同步电机(PMSM)无传感器控制:I/F启动与滑模观测器结合的技术实现及应用

    内容概要:本文详细介绍了无传感器永磁同步电机(PMSM)控制技术,特别是针对低速和中高速的不同控制策略。低速阶段采用I/F控制,通过固定电流幅值和斜坡加速的方式启动电机,确保平稳启动。中高速阶段则引入滑模观测器进行反电动势估算,从而精确控制电机转速。文中还讨论了两者之间的平滑切换逻辑,强调了参数选择和调试技巧的重要性。此外,提供了具体的伪代码示例,帮助读者更好地理解和实现这一控制方案。 适合人群:从事电机控制系统设计的研发工程师和技术爱好者。 使用场景及目标:适用于需要降低成本并提高可靠性的应用场景,如家用电器、工业自动化设备等。主要目标是掌握无传感器PMSM控制的基本原理及其优化方法。 其他说明:文中提到的实际案例和测试数据有助于加深理解,同时提醒开发者注意硬件参数准确性以及调试过程中可能出现的问题。

Global site tag (gtag.js) - Google Analytics