该帖已经被评为精华帖
|
|
---|---|
作者 | 正文 |
发表时间:2007-01-26
一定要顶啊。找这个很久了。
====================== 偶网站的全文检索烦死了。= 感谢楼主分享啊 |
|
返回顶楼 | |
发表时间:2007-01-26
试了一下,挺快的,支持楼主!
|
|
返回顶楼 | |
发表时间:2007-01-26
imjl 写道 呵呵,,泼点冷水,,从应用角度来看
我觉得个人做lucene中文分词,没有什么商业价值. 因为中文分词牵涉的不单单是编程知识,还有自然语言等方面的知识. YAHOO目前采用的中文分词还是购买的. 什么样的公司需要自己订做中文分词? 就lucene的两个analyzer足够用了。 有多少是做类似yahoo,baidu这样大的搜索引擎,,只有这样的公司需要中文分词,国内还有其他公司需要自己中文分词吗?我觉得都用不到。包括sina,163,sohu这样的门户。 从技术角度我支持你。 我們的公司不大.但也要做一套自己中文分詞系統.用於一個即時通信軟體的機械人功能. 當然.公司是不會去買的.. 現在基本完成了. |
|
返回顶楼 | |
发表时间:2007-01-27
strongkill 写道 我們的公司不大.但也要做一套自己中文分詞系統.用於一個即時通信軟體的機械人功能. 當然.公司是不會去買的.. 現在基本完成了. 昨天晚上写了回帖,没想到网络不好。 问几个问题: 1: 你们为什么要自己做分词 2: 你们目前做的有什么特点? 3: 哪儿可以try下吗? |
|
返回顶楼 | |
发表时间:2007-01-27
imjl 写道 呵呵,,泼点冷水,,从应用角度来看
我觉得个人做lucene中文分词,没有什么商业价值. 因为中文分词牵涉的不单单是编程知识,还有自然语言等方面的知识. YAHOO目前采用的中文分词还是购买的. 什么样的公司需要自己订做中文分词? 就lucene的两个analyzer足够用了。 有多少是做类似yahoo,baidu这样大的搜索引擎,,只有这样的公司需要中文分词,国内还有其他公司需要自己中文分词吗?我觉得都用不到。包括sina,163,sohu这样的门户。 从技术角度我支持你。 分词应该还是有很多用途,不仅仅局限在大门户搜索。 比如:
不同的系统,搜索重点不一样,为了提高准确度,除了使用良好的算法,一般会订制自己的一套词汇表。简单的单字分词或二元分词,准确率是很差地。 《长尾理论》这本书讲了一个新的经济形式(丰饶经济学),世界存在着一个很长的需求尾巴,这些需求量虽然很低,但是总是有的,如果将这些需求总加起来,却是一个不可忽略的力量。 分词也在各种各样的应用中存在,他虽然没有像大门户网站那样显得突出,但很多需求都需要用到 |
|
返回顶楼 | |
发表时间:2007-01-28
TODO:
功能: 1、基于边界模板和局部统计的<姓+名>和单<名>识别 2、基于局部统计的新词识别 3、报告非词典词的分词 服务: 1、在internet上建立和建设project空间->版本控制服务、规范发布下载 2、寻求有兴趣的合作者,贡献到Paoding中 ------------------- >>>>做就要把它做到更加可用化 |
|
返回顶楼 | |
发表时间:2007-01-29
Qieqie 写道 TODO:
功能: 1、基于边界模板和局部统计的<姓+名>和单<名>识别 2、基于局部统计的新词识别 3、报告非词典词的分词 服务: 1、在internet上建立和建设project空间->版本控制服务、规范发布下载 2、寻求有兴趣的合作者,贡献到Paoding中 ------------------- >>>>做就要把它做到更加可用化 基于局部统计的新词识别到目前为止我也尝试了两种方法,效果还算可以吧。而姓名识别是我目前正在研究的一个方向。假如楼主不嫌弃的话,看看我们有没有合作的机会, |
|
返回顶楼 | |
发表时间:2007-01-29
Qieqie 写道 TODO:
功能: 1、基于边界模板和局部统计的<姓+名>和单<名>识别 2、基于局部统计的新词识别 3、报告非词典词的分词 服务: 1、在internet上建立和建设project空间->版本控制服务、规范发布下载 2、寻求有兴趣的合作者,贡献到Paoding中 ------------------- >>>>做就要把它做到更加可用化 支持..有需要本人可以提供svn服务器. |
|
返回顶楼 | |
发表时间:2007-01-29
今天终于细细的看了Qieqie兄的Blog啦,呵呵,人气不错呀!
这里顺便回答一下billgmh 关于词典搜索的问题 [我也正在就中文分词方向进行研究,也是使用首字hash+折半查找的方法构造词典的,是我尝试过分词效率最高的一种词典实现方式,但是最近我收集到一份论文《基于双数组Trie树的词典查询算法》,发现效率可能比基于双数组Trie树的词典查询算法还要高(利用有穷自动机的原理与Trie树的易扩展性),不知楼主有没有尝试过这种方法呢?] 从理论上说hash算法的O(1)复杂性确实是最低的,效率也是最高的。billgmh采用了双hash构造词典,为什么是两个呢?能不能说的细一些。 我本人采用了全Hash树模型建立过同样的词典,效率的确跟Qieqie兄阐述的那样非常的高,新版IKAnalyzer的解析速度将近18w汉字/秒(P4 1.6G单核 512M WinXp Sun JDK6.0环境),这里还要感谢Qieqie兄在很多性能优化方面提出的宝贵建议。 还有billgmh提到了“有穷自动机的原理”这令我非常感兴趣,我先前做过的IKAnalyzer这是利用该理论来进行中文分词的,billgmh可以在google上搜索下载试用一下分词效果(1.4版的效率很不高哦,呵呵)。希望billgmh能对这个方面进行更多阐述,大家来讨论一下! |
|
返回顶楼 | |
发表时间:2007-01-29
Qieqie 写道 分词应该还是有很多用途,不仅仅局限在大门户搜索。 比如:
不同的系统,搜索重点不一样,为了提高准确度,除了使用良好的算法,一般会订制自己的一套词汇表。简单的单字分词或二元分词,准确率是很差地。 《长尾理论》这本书讲了一个新的经济形式(丰饶经济学),世界存在着一个很长的需求尾巴,这些需求量虽然很低,但是总是有的,如果将这些需求总加起来,却是一个不可忽略的力量。 分词也在各种各样的应用中存在,他虽然没有像大门户网站那样显得突出,但很多需求都需要用到 你举的几个例子还是在全文检索范畴,,,我倒是同意你 这句 "不同的系统,搜索重点不一样,为了提高准确度,除了使用良好的算法,一般会订制自己的一套词汇表。简单的单字分词或二元分词,准确率是很差地。" 呵呵,没想到你也读<长尾理论>。。。 |
|
返回顶楼 | |