[置顶] Yard中文分词系统V0.2.0版发布附全部源代码

博客分类：

中文分词

经过这几天加班加点的调试Yard中文分词系统V0.2.0版本终于出来了，这次Yard中文中文系统不但能够对中文进行很好的切分而且能够能对数字和英文进行识别切分了，应JavaEyer们的要求这次将源代码一起发布出来供大家一起学习。下面谈谈中文智能分词技术在自然语言理解中的应用，智能分词技术是实现自然语言理解最初的一个环节，它将组成语句的核心词提炼出来供语义分析模块使用。在分词的过程中，如何能够恰当地提供足够的词来供分析程序处理，并且过滤掉冗余的信息，这是后期语义分析的质量和速度的重要前提。尤里卡的智能分词避免了传统分词技术在拆分时产生的歧义组合。从而为语义理解的处理提供了良好的原始材料。同时， ...

2009-06-18 18:13
浏览 5507
评论(13)
分类:编程语言

分享生活，给您精彩！！

博客分类：

分享精彩

生活资讯活动

朋友做的新网站：完美婚礼（www.wmhl.cn）上线了，Javaeyer们咱们不能只知道埋头code呀，还是要多关注一下自己的婚姻大事哈，喜欢的朋友可以去看看哦。网站的介绍：完美婚礼网致力于成为国内最大、最权威的婚嫁网站，在这里你不但可以了解到最新、最时尚的婚嫁资讯，还可以在线选购定做婚纱，在线预约影楼，在线预约婚庆公司，评价他们的服务可以得到现金回馈！免费参与我们组织的丰富多彩的活动还可以赢得东南亚及欧洲蜜月之旅！附件是网站首页超漂亮的！！！！

2010-10-11 16:53
浏览 1074
评论(1)
分类:非技术

判断给定中文字符所属字符集的方法

博客分类：

中文分词

MySQL

常见的中文字符集有：GB2312字符集、GBK 字符集、BIG5字符集、 GB 18030字符集。其中GB2312字符集、GBK 字符集、BIG5字符集都是采用两个字节表示一个汉字。下面的程序中h表示字符的高字节位、l表示字符的低字节位，十六进制数值表示的是各种字符编码集的边界。 public static boolean isGB2312(byte h, byte l){ int ih = h & 0xff; int il = l & 0xff; return ((ih>=0xa1 & ...

2009-06-25 04:05
浏览 2627
评论(3)
分类:企业架构

看看你的姓排第几？

博客分类：

语料资源

在2007年4月24日中华人民共和国公安部治安管理局最近对全国户籍人口的一项统计数据中显示，中国现在使用的姓氏有4700多个，王姓成为中国第一大姓，有9288.1万人，占全国人口总数的7.25％。第二大姓是李姓，有9207.4万 ...

2009-06-23 17:45
浏览 1782
评论(6)

中文命名实体识别实现过程中的难点分析

博客分类：

中文分词

网络应用领域模型 Web

前几天有网友建议把命名实体识别功能加到Yard中文分词系统中，其实我也一直在做这方面的努力只是目前还存在一些问题，与其加一个bug连连的功能进去好不如不加的好。但是在1.0正式版中命名实体识别功能一定会有的� ...

2009-06-22 17:28
浏览 6489
评论(0)

腾讯算法面试题解答

博客分类：

数据结构和算法

腾讯算法面试教育工作

才在JavaEye论坛看一个帖子求助腾讯一道面试题的解法。题目是这样的：给你10分钟时间，根据上排给出十个数，在其下排填出对应的十个数要求下排每个数都是先前上排对应那个数在下排十个数中出现的次数。上排的十个数如 ...

2009-06-17 12:44
浏览 2842
评论(5)
分类:企业架构

词语切分与词性标注 - 规范与加工手册

博客分类：

语料资源

F#J#

现代汉语语料库词语切分和词性标注规范在现代分词系统被广泛使用，中科院的分词系统中的词性标注也差不多采用这个标记集合。Yard中文分词系统在后面的版本中也将采用这个标记集合。按代码的字母顺序排列的标记集 � ...

2009-06-17 02:22
浏览 1479
评论(0)
论坛回复 / 浏览 (0 / 2485)
分类:非技术

求两个集合差的几种常见算法

博客分类：

数据结构和算法

算法 Java 制造

有两个数组：String[] arr01={"Andy","Bill","Cindy","Douglas","Felex","Green"};String[] arr02={"Andy","Bill","Felex","Green","Gates"};求存在于arr01而不存在于arr02的元素的集合？最容易想到的解法-双重循环 import java.util.Ar ...

2009-06-16 15:38
浏览 1286
评论(1)

全排列算法

博客分类：

数据结构和算法

算法 J#

package com.sitinspring; /** *//** * 全排列算法示例如果用P表示n个元素的排列，而Pi表示不包含元素i的排列，(i)Pi表示在排列Pi前加上前缀i的排列，那么，n个元素的排列可递归定义为： * 如果n=1，则排列P只有一个元素i如果n>1，则排列P由排列(i)Pi构成（i=1、2、.、n-1）。根据定义，容易看出如果已经生成了k-1个元素的排列，那么， * k个元素的排列可以在每个k-1个元素的排列Pi前添加元素i而生成。例如2个元素的排列是1 2和2 1，对3个元素而言，p1是2 3和3 2，在每个排列 * 前加上1即生 ...

2009-06-16 15:23
浏览 1306
评论(0)

Yard中文分词系统V0.1.1版发布啦

博客分类：

中文分词

算法

这次主要是对Yard中文分词系统里面关于最长词的归并算法做了优化，现在系统能够对“使用户满意的做法，乒乓球拍卖完了”这样的句型进行正确切分了。但是目前一直没有找到合适的字频词频词典，所以最大概率分词算法还没能加入到分词系统中。按计划打算在这周自己对1亿字左右的语料进行切分统计做个字频词频词典出来到时候分享给大家。就在昨天我认识的一个学中文信息处理的兄弟，由于答辩的时候被一老教授给K了心情很不爽说什么想放弃了不想再从事这个行业。我不知道他是真的不想再从事这个行业还是因为老教授的原因，我只知道我自己很喜欢这个行业我对文字着迷对每次取得的进步都感到很欣喜哪怕是很小的进步！欢迎大家下载并提出宝贵意见 ...

2009-06-15 13:24
浏览 1689
评论(3)

现代汉语常用词表

博客分类：

语料资源

出版

做中文信息处理少不了要借助相应的工具书籍《现代汉语常用词表》就是一本很有用的工具书先赞一个，《现代汉语常用词表》收录了56008个常用词中，包括单音节词3181个，双音节词40351个，三音节词语6459个，四音节词语5855个，五音节和五音节以上词语162个。内容包括：现代汉语常用词表（草案）附录《现代汉语常用词表（草案）》音序索引《现代汉语常用词表（草案）》研制报告作　　者：《现代汉语常用词表》课题组　编出版社：商务印书馆出版时间： 2008-11-1 版　　次： 1 页　　数： 669 开　　本： 16开 I S B N ： 9787100056557 ...

2009-06-14 17:43
浏览 2551
评论(0)

国家语言文字工作委员会3500个常用字

博客分类：

语料资源

工作

国家语言文字工作委员会3500个常用字，2500常用字覆盖率达97.97%，1000次常用字覆盖率达 1.51%，合计(3500字)覆盖率达99.48%，说明《现代汉语常用字表》是符合实际的。常用字2500 一乙二十丁厂七卜人入八九几儿了力乃刀又三于干亏士工土才寸下大丈与万上小口巾山千乞川亿个勺久凡及夕丸么广亡门义之尸弓己已子卫也女飞刃习叉马乡丰王井开夫天无元专云扎艺木五支厅不太犬区历尤友匹车巨牙屯 ...

2009-06-14 17:36
浏览 3640
评论(0)

关于最大概率分词

博客分类：

中文分词

算法 Blog

今天晚上实验了一下最大概率分词算法感觉分词精度一般，词频词典用的是北语版的也有可能是词典的原因，明天周末打算再好好改一下Yard中文分词系统里面的归并算法。等后面下到现在汉语常用词词频词典再好好调一下最大概率分词程序。争取早一点将最大概率分词加到Yard中文分词系统中。 Yard中文分词系统V0.1版下载地址：http://soul-fly.iteye.com/blog/406926

2009-06-14 03:18
浏览 2635
评论(0)

Yard中文分词系统V0.1版性能分析

博客分类：

中文分词

算法互联网工作 Blog F#

Yard中文分词系统V0.1还有很多地方需要完善，它对中文人名、地名、数字、英文等还不能进行切分，在歧义句的划分上也还存在问题。我会在这个月低推出0.2版将实现对数字、英文的切分，同时将利用现有的基于词频的方法加上MP算法实现对歧义句很好的划分。好了还是来谈谈Yard中文分词系统V0.1版的性能吧。在中文分词领域中歧义句的划分比较复杂，常用的方法有FWF算法和MP算法等，在Yard系统中我没有用这些算法，而是基于搜狗互联网词库对1亿个网页统计得出的互联网词汇词频加上规约规则对歧义句进行划分，从测试结果看效果比较好。 Yard中文分词系统的分词效率比较高，在我的laptop上可以达到2M/S，这 ...

2009-06-12 17:43
浏览 1339
评论(0)
分类:非技术

Yard中文分词系统

博客分类：

中文分词

算法互联网软件测试 Blog

Yard中文分词系统基于改进的正向最大匹配算法和全切分算法，利用双字哈希进行词典组织解决了中文长词切分带来的分词效率低下问题。本次发布的版本为0.1版能对中文词组进行完美的切分同时利用词组的词频和词性解决了歧义划分的问题，但是对人名、地名、组织名、英文、数字等还不能进行很好的切分，在下一个版本中将解决这些问题。中文词典应用了搜狗实验室提供的互联网词库。纯java编写。本软件为开源软件你可以进行任何修改以适应你的需求，如果你加入了新功能请发送一份副本给我，我们一同完善改进。我的联系方式：zhouhaibox@foxmail.com 分词精度为多少？朋友们自己去测试吧不会让你失望的！！

2009-06-11 18:57
浏览 3319
评论(6)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[置顶] Yard中文分词系统V0.2.0版发布附全部源代码

分享生活，给您精彩！！

判断给定中文字符所属字符集的方法

看看你的姓排第几？

中文命名实体识别实现过程中的难点分析

腾讯算法面试题解答

词语切分与词性标注 - 规范与加工手册

求两个集合差的几种常见算法

全排列算法

Yard中文分词系统V0.1.1版发布啦

现代汉语常用词表

国家语言文字工作委员会3500个常用字

关于最大概率分词

Yard中文分词系统V0.1版性能分析

Yard中文分词系统

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>