Lucene中文分词“庖丁解牛”

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 133827 次

已锁定主题：Lucene中文分词“庖丁解牛” 该帖已经被评为精华帖
作者	正文
butterfly 等级: 初级会员性别: 文章: 13 积分: 32 来自: Sun Yet-sen Universi	发表时间：2007-02-03 谢谢楼上,如果有java版的就更好了
返回顶楼	回帖地址 0 0 请登录后投票

foreverqihe 等级: 初级会员文章: 4 积分: 30 来自: ...	发表时间：2007-02-03 请问楼主，为什么“老爸”这个词，我建立索引之后，搜“爸”就搜不出来呢
返回顶楼	回帖地址 0 0 请登录后投票

Qieqie 等级: 性别: 文章: 515 积分: 698 来自: 北京	发表时间：2007-02-03 billgmh 写道 butterfly 写道楼主有哪些开源具有分词性的中文分词的编程接口可介绍一下啊？中科院的分词系统就是具有分词性的中文分词接口哦，有一个dotNet下的C＋＋版本下载了。它的词典放在debug/data下，以dct结尾。文本编辑器打开词典文件，不是能清楚看明他的词典结构，隐隐约约感觉词典对每个词都有特别的标注，那进行词性标注的可能性是很大的 (没有直接证据，所以使用可能性的判断)。要做到词性理解，关键还是词典+句型模板。利用词典标注词性，识别出词语的同时识别出词语词性(可能不只一个词性)，在通过句型模板，判断最后到底该词语是什么词性。不过偶认为对一般搜索来说做到这个地步费力不讨好，没有必要做。题外： >>>如果能够使机器真真正正识别人的语言，那不知道天会怎么样!!! 有一阵子我在想，能不能对语言进行标准化，然后进行“建模”！解析具体语言时，将句子的意思对应到该标准语言，从而做到各种语言搜索的统一：使用的不再是基于文本的搜索，而是基于语义的搜索！这样词性的问题也就自然而然解决了。 BUT, 可行吗？呵呵，先放弃吧！想那么多，那么完美，那事情永远也解决不了。。。。。 >>>附件中的代码看起来粗看一下，感觉不好阅读。。。
返回顶楼	回帖地址 0 0 请登录后投票

Qieqie 等级: 性别: 文章: 515 积分: 698 来自: 北京	发表时间：2007-02-03 foreverqihe 写道请问楼主，为什么“老爸”这个词，我建立索引之后，搜“爸”就搜不出来呢全文检索与like不一样，路人皆知。 paoding对词建立索引，对未能识别的词也采用良好的识别和切词。一段连续的中文是否是个词主要由预存的词典定义。 “老爸”在词典中已经定义，但没有单独“爸”这个词，所以不会再建立索引。(我特地重新查看了字典) 所以，如果搜索结果在现实生活中确实令人不满意，那就有必要更加合理的组织字典。-- paoding的字典是可编辑的，你可以往里面添加或删除词语(但需要保持按照汉字编码升序-目的是：方便建立词典以及加速查找)。甚至可以另外寻找一个符合要求的词典替换base.dic。 --各行各业都有自己的词典，建立索引时，最好能把特有的词建立一个新的字典(以.dic结尾命名，保持词语按汉字编码升序)，放置CJK字典目录下，这样paoding会自动读入
返回顶楼	回帖地址 0 0 请登录后投票

foreverqihe 等级: 初级会员文章: 4 积分: 30 来自: ...	发表时间：2007-02-13 谢谢你的讲解，总算明白点了。请问我要是用 '*爸'来搜呢？能得到更好的结果么？
返回顶楼	回帖地址 0 0 请登录后投票

southgate 等级: 初级会员文章: 77 积分: 10	发表时间：2007-02-23 同志，大问题：有基于jdk1.4的不？
返回顶楼	回帖地址 0 0 请登录后投票

linliangyi2007 等级: 性别: 文章: 992 积分: 1266 来自: 福州	发表时间：2007-02-28 southgate 写道同志，大问题：有基于jdk1.4的不？要1.4滴,毛遂自荐一下IKAnalyzer1.4 ,http://download.csdn.net/source/160753 . 还有JEAnalyzer1.5.1 http://www.jesoft.cn/posts/list/5.page qieqie兄是个技术冲浪者，总在新技术的浪尖呀，他的分词器基于jdk1.5滴。不过1.5的annotaion和自解包/封包功能真不错，运行效率也高不少，要不是考虑兼容性，偶也想更新换代咯，jdk都出6咯
返回顶楼	回帖地址 0 0 请登录后投票

Qieqie 等级: 性别: 文章: 515 积分: 698 来自: 北京	发表时间：2007-03-02 收到~~
返回顶楼	回帖地址 0 0 请登录后投票

linliangyi2007 等级: 性别: 文章: 992 积分: 1266 来自: 福州	发表时间：2007-03-02 hghdo 写道 Qieqie: 汉语的字典文件在linux的环境下，字典文件名都变成乱码了。请问有什么方法把文件名变成utf-8编码的？可以在windows平台下，用jdk自带的native2ascii.exe将词典转化一下，再打包到linux下，试试！
返回顶楼	回帖地址 0 0 请登录后投票

cooliceyu 等级: 初级会员文章: 1 积分: 32 来自: ...	发表时间：2007-03-07
返回顶楼	回帖地址 0 0 请登录后投票

« 上一页 1 2 … 5 6 7 下一页 »

论坛首页 → Java企业应用版

跳转论坛: