应网友需求发布IKAnalyzer3.1.1GA2

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 14448 次

锁定老帖子主题：应网友需求发布IKAnalyzer3.1.1GA2 精华帖 (8) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
linliangyi2007 等级: 性别: 文章: 992 积分: 1266 来自: 福州	发表时间：2009-08-13 tangfl 写道当字母连续出现超过一定的阈值，比如3个字母的时候，看起来像是一个英文单词了，不知道是否可以也单独切分出一个结果来呢？实际上，之所以连续切分，是按照英文的使用习惯来进行的，我们不应该去假设某种特定的短语模型。分词器要处理的是针对现实中，人们的语言习惯。分词器是一种自然语言处理过程，同机器语言处理有一定的类型之处。在机器语言上，我们会限制语言的语法，如在Java中你只能像这样 “int count = 0;”去申明变量，如果你要写成“ count : int ”那么Java编译器将报错。自然语言则相对要求的比较宽松，但也必须遵循一定的日常用语规范。要分离字母和数字是简单的，你可以参考IKAnalyzer2.0.2，它就是这么做的。
返回顶楼	回帖地址 0 0 请登录后投票

andylau8250 等级: 初级会员性别: 文章: 5 积分: 30 来自: 上海	发表时间：2009-08-13 你好! 可否根你請教一下關於lucene的相關問題! 我在建立索引及合併上有幾個問題! 1.假設我每增加一篇文章，我會去增加索引，然後再合併(原本的索引檔)! 在修改文章上的處理方式為，先刪除該文章的索引，再將其建立及合併一次! 但是這樣似乎效率上是不太好的! 所以我改成將這些新的文章或修改的文章，先記錄到資料庫!要搜尋時，再去將這些文章建立索引及合併! 2.我找了一下lucene的api似乎不能直接對索引檔增加一筆索引! 只能利用合併的方式!所以我用上述方式，記在資料庫中，如果資料太多，好像在效率上也不是太好! 想請問你，對於建立索引這方面有什麼看法! 或是我的理解有錯! lucene可以增加單筆索引? 如果您知道有什麼好方法，請您指教一下! 謝謝!
返回顶楼	回帖地址 0 0 请登录后投票

linliangyi2007 等级: 性别: 文章: 992 积分: 1266 来自: 福州	发表时间：2009-08-13 andylau8250 写道你好! 可否根你請教一下關於lucene的相關問題! 我在建立索引及合併上有幾個問題! 1.假設我每增加一篇文章，我會去增加索引，然後再合併(原本的索引檔)! 在修改文章上的處理方式為，先刪除該文章的索引，再將其建立及合併一次! 但是這樣似乎效率上是不太好的! 所以我改成將這些新的文章或修改的文章，先記錄到資料庫!要搜尋時，再去將這些文章建立索引及合併! 2.我找了一下lucene的api似乎不能直接對索引檔增加一筆索引! 只能利用合併的方式!所以我用上述方式，記在資料庫中，如果資料太多，好像在效率上也不是太好! 想請問你，對於建立索引這方面有什麼看法! 或是我的理解有錯! lucene可以增加單筆索引? 如果您知道有什麼好方法，請您指教一下! 謝謝! 这个问题是困扰了很多lucene使用者。目前，在我设计的网站中，采用定时批量更新方式，即，将新增或修改的数据加入一个待处理的队列，而后在固定时间间隔进行更新，固定时间可以根据应用的时效性定为 5分钟-10分钟-30分钟-1个小时。并在每天的凌晨1点进行索引的合并整理。要注意，每次查询lucene的时候，必须使用新的IndexSearcher实例，这样才能把新增的文章包括进来。
返回顶楼	回帖地址 0 0 请登录后投票

andylau8250 等级: 初级会员性别: 文章: 5 积分: 30 来自: 上海	发表时间：2009-08-13 原來這是大家的困擾= =" 感謝你分享的經驗!
返回顶楼	回帖地址 0 0 请登录后投票

poppk 等级: 初级会员文章: 167 积分: 30	发表时间：2009-08-14 linliangyi2007 写道 poppk 写道目前带词性分析标注的只有中科院ictclas衍生出来的几个开源版本，java的只有ictclas4j，ictclas4j还是半拉子工程，bug很多，貌似作者也小一年不更新了。楼主可以考虑把这个加入进来，就可以在目前几个主流的开源中文分词包中脱颖而出了。老兄看了一直很关心分词啊，居然被你发现有一年没更新了，呵呵最近在做搜索这块的工作，所以比较关心。很多场合需要对关键字进行词性分析，所以对这个功能点比较关注了。否则你这个和庖丁有什么区别呢？效率，速度，准确率？
返回顶楼	回帖地址 0 0 请登录后投票

linliangyi2007 等级: 性别: 文章: 992 积分: 1266 来自: 福州	发表时间：2009-08-14 poppk 写道 linliangyi2007 写道 poppk 写道目前带词性分析标注的只有中科院ictclas衍生出来的几个开源版本，java的只有ictclas4j，ictclas4j还是半拉子工程，bug很多，貌似作者也小一年不更新了。楼主可以考虑把这个加入进来，就可以在目前几个主流的开源中文分词包中脱颖而出了。老兄看了一直很关心分词啊，居然被你发现有一年没更新了，呵呵最近在做搜索这块的工作，所以比较关心。很多场合需要对关键字进行词性分析，所以对这个功能点比较关注了。否则你这个和庖丁有什么区别呢？效率，速度，准确率？说说你对词性的用途吧，我好有的放矢。 IK跟paoding的区别还是很多的，呵呵，这在搜索过程中（尤其使用IKQueryParser后）是能感受到的
返回顶楼	回帖地址 0 0 请登录后投票

poppk 等级: 初级会员文章: 167 积分: 30	发表时间：2009-08-14 tangfl 写道 compareAnalyzers: (skey) : Y550A-TSI(H)(灰白蓝红) paoding: (0 ms) y \| 550 \| tsi \| a-tsi \| 550a-tsi \| y550a-tsi \| h \| 灰白 \| 蓝红 \| -imdict: (1 ms) y \| 550 \| a \| tsi \| h \| 灰白 \| 蓝 \| 红 \| -ik-max: (0 ms) y550a-tsi \| 550 \| h \| 灰白 \| 白 \| 蓝 \| 红 \| -ikmost: (0 ms) y550a-tsi \| 550 \| h \| 灰白 \| 白 \| 蓝 \| 红 \| -mmseg4j: (1 ms) y \| 550 \| a \| tsi \| h \| 灰白 \| 蓝 \| 红 \| 关于单词之间的连接符，是不是可以考虑单独处理一下？ Y550A-TSI(H)(灰白蓝红) ictclas4j： Y550A-TSI/nx (/w H/nx )/w (/w 灰白/z 蓝/a 红/a )/w 个人感觉对这种产品型号的处理，庖丁做的最好，尤其在用户只记得部分型号，试探性输入时
返回顶楼	回帖地址 0 0 请登录后投票

poppk 等级: 初级会员文章: 167 积分: 30	发表时间：2009-08-14 linliangyi2007 写道 poppk 写道 linliangyi2007 写道 poppk 写道目前带词性分析标注的只有中科院ictclas衍生出来的几个开源版本，java的只有ictclas4j，ictclas4j还是半拉子工程，bug很多，貌似作者也小一年不更新了。楼主可以考虑把这个加入进来，就可以在目前几个主流的开源中文分词包中脱颖而出了。老兄看了一直很关心分词啊，居然被你发现有一年没更新了，呵呵最近在做搜索这块的工作，所以比较关心。很多场合需要对关键字进行词性分析，所以对这个功能点比较关注了。否则你这个和庖丁有什么区别呢？效率，速度，准确率？说说你对词性的用途吧，我好有的放矢。 IK跟paoding的区别还是很多的，呵呵，这在搜索过程中（尤其使用IKQueryParser后）是能感受到的比如："如何观测日全食"，"我想买一个好的橱柜" 搜索引擎可以分析出来，关键字真正包含的侧重点在哪，毕竟这种傻瓜式的输入，要求整句命中不太现实但是第一个，搜索引擎该知道，用户想搜 "观测日全食" 相关，而不是，第二个，用户想搜的是 "橱柜" 相关，而不是 "买好的"
返回顶楼	回帖地址 0 0 请登录后投票

poppk 等级: 初级会员文章: 167 积分: 30	发表时间：2009-08-14 上面的"而不是，"应该是而不是如何观测。
返回顶楼	回帖地址 0 0 请登录后投票

poppk 等级: 初级会员文章: 167 积分: 30	发表时间：2009-08-14 基于ictclas的分词如何观测日全食如何/r 观测/vn 日全食/n r 代词 vn 名动词 n 名词大概就是这样
返回顶楼	回帖地址 0 0 请登录后投票

« 上一页 1 2 3 4 5 下一页 »

论坛首页 → Java企业应用版

跳转论坛: