- 浏览: 389578 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (215)
- ubuntu (27)
- 虚拟机 (13)
- 数据库 (29)
- JAVA (40)
- 搜索 (23)
- 开发工具 (2)
- 产品 (2)
- 工具 (1)
- 应用服务器 (5)
- linux (17)
- log (1)
- 多线程 (3)
- 异常 (1)
- shell (6)
- 12306 ;互联网 (1)
- 持续集成&Hudson (4)
- js (1)
- JAVA OR-Map (1)
- 漏洞 (1)
- svn (1)
- MAVEN (3)
- 架构 (1)
- windows (1)
- json (1)
- web (3)
- jenkins (2)
- iptables (2)
- JAVA ssh (0)
- 项目管理 (1)
- tomcat (1)
- 安全 (1)
- 数据库 mysql (1)
- 性能 (1)
最新评论
-
sbwfgihc:
怎么用的啊,
<转>mysql 树查询语句 -
panghaoyu:
实现一个智能提示功能需要ajax、数据库、jsp/php、算法 ...
<转>Solr Suggest实现搜索智能提示 -
songsove:
请问您qq多少
solr 对拼音搜索和拼音首字母搜索的支持 -
panghaoyu:
实现一个智能提示功能需要ajax、数据库、jsp/php、算法 ...
<转>Solr Suggest实现搜索智能提示 -
norain1988:
这样就可以实现相关搜索了吗
solr 百度相关搜索类似功能的实现
对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。
单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中的词,将文字进行切分。车东的交叉双字分割或者叫二元分词我觉得应该算是按字索引的改进,应该还是属于字索引的范畴吧。
分词准确性的评估比较难,很难有统一的标准,不同应用的要求也不同,这个统一以“2008年8月8日晚,举世瞩目的北京第二十九届奥林匹克运动会开幕式在国家体育场隆重举行。”为例说明。
分词效率,统一使用《射雕英雄传》的全文文本为例说明。呵呵。对于按词索引的分析器,使用统一的基本词库,词汇量为227,719个。在开发环境下运行,性能不准确,但可比较相对值。
分析器:
按字 |
StandardAnalyzer |
Lucene自带的标准分析器。 |
|
ChineseAnalyzer |
Lucene contrib中附带的分析器,与StandardAnalyzer类似。注意是类似啊,还是有区别的。 |
|
CJKAnalyzer |
Lucene contrib中附带的二元分词 |
按词 |
IK_CAnalyzer、MIK_CAnalyzer |
http://lucene-group.group.javaeye.com/group/blog/165287。使用版本为2.0.2 |
|
MMAnalyzer |
现在能找到的最新版本是1.5.3。不过在原始网站已经找不到下载了,而且据说声明为不提供维护和支持。因为谈论的人比较多,所以列出来。但在使用中感觉不太稳定。 |
|
PaodingAnalyzer |
庖丁解牛。http://code.google.com/p/paoding/downloads/list。使用版本为2.0.4beta。 |
分词准确性:
StandardAnalyzer |
2008/年/8/月/8/日/晚/举/世/瞩/目/的/北/京/第/二/十/九/届/奥/林/匹/克/运/动/会/开/幕/式/在/国/家/体/育/场/隆/重/举/行/ |
一元分词,没什么好说的。 |
ChineseAnalyzer |
年/月/日/晚/举/世/瞩/目/的/北/京/第/二/十/九/届/奥/林/匹/克/运/动/会/开/幕/式/在/国/家/体/育/场/隆/重/举/行/ |
还是有区别吧,这是因为ChineseAnalyzer只对Character.LOWERCASE_LETTER、Character.UPPERCASE_LETTER、和Character.OTHER_LETTER进行了处理,其他类型的都滤掉了。具体可以参见代码。 |
CJKAnalyzer |
2008/年/8/月/8/日晚/举世/世瞩/瞩目/目的/的北/北京/京第/第二/二十/十九/九届/届奥/奥林/林匹/匹克/克运/运动/动会/会开/开幕/幕式/式在/在国/国家/家体/体育/育场/场隆/隆重/重举/举行/ |
二元分词,作为一元分词的改进,建立的索引小于一元,查询效率较好,能满足一般的查询要求。 |
PaodingAnalyzer |
2008/年/8/月/8/日/晚/举世/瞩目/举世瞩目/目的/北京/二/第二/十/二十/第二十/九/十九/二十九/九届/奥林/奥林匹克/运动/运动会/奥林匹克运动会/开幕/开幕式/国家/体育/体育场/隆重/举行/隆重举行/ |
细粒度全切分。对于不在词典中的词进行二元分词。 |
IK_CAnalyzer |
2008年/2008/年/8月/8/月/8日/8/晚/举世瞩目/举世/瞩目/目的/北京/第二十九届/第二十九/第二十/第二/二十九/二十/十九/九届/九/奥林匹克运动会/奥林匹克/奥林/运动会/运动/开幕式/开幕/在国/国家/国/体育场/体育/隆重举行/隆重/举行/行/ |
细粒度全切分。对于不在词典中的词进行二元分词。 |
MIK_CAnalyzer |
2008年/8月/8日/晚/举世瞩目/目的/北京/第二十九届/奥林匹克运动会/开幕式/在国/国家/体育场/隆重举行/ |
最大匹配分词。和细粒度全切分配合使用。 |
MMAnalyzer |
2008/年/8/月/8/日/晚/举世瞩目/北京/第二十/九届/奥林匹克运动会/开幕式/国家/体育场/隆重举行/ |
对于不在字典项的内容,进行一元分词。 |
分词性能(毫秒):
分析器 |
第一次 |
第二次 |
第三次 |
分词数 |
StandardAnalyzer |
243 |
246 |
241 |
767675 |
ChineseAnalyzer |
245 |
233 |
242 |
766298 |
CJKAnalyzer |
383 |
383 |
373 |
659264 |
PaodingAnalyzer |
927 |
899 |
909 |
482890 |
IK_CAnalyzer |
1842 |
1877 |
1855 |
530830 |
MIK_CAnalyzer |
2009 |
1978 |
1998 |
371013 |
MMAnalyzer |
2923 |
2933 |
2948 |
392521 |
需要说明的是,IK_CAnalyzer在性能上对于词典的敏感度较高。
总结:
对于一般性的应用,采用二元分词法应该就可以满足需求。如果需要分词的话,从分词效果、性能、扩展性、还是可维护性来综合考虑,建议使用庖丁解牛。
mmseg4j 多分词模式与 paoding 分词效果对比
版权信息: 可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明.
原文出处:http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html
mmseg4j 1.6支持最多分词,应网友的要求:分词效果与 paoding 对比下。观察了 paoding 部分分词结果,现总结下。
paoding 分词效果:
- --------------------------
- 清华大学
- 清华 | 大 | 华大 | 大学 |
- --------------------------
- 华南理工大学
- 华南 | 理工 | 大 | 大学 |
- --------------------------
- 广东工业大学
- 广东 | 工业 | 大 | 业大 | 大学 |
- --------------------------
- 西伯利亚
- 西伯 | 伯利 | 西伯利亚 |
- --------------------------
- 研究生命起源
- 研究 | 研究生 | 生命 | 起源 |
- --------------------------
- 为首要考虑
- 为首 | 首要 | 考虑 |
- --------------------------
- 化装和服装
- 化装 | 和服 | 服装 |
- --------------------------
- 中国人民银行
- 中国 | 国人 | 人民 | 银行 |
- --------------------------
- 中华人民共和国
- 中华 | 华人 | 人民 | 共和 | 共和国 |
- --------------------------
- 羽毛球拍
- 羽毛 | 羽毛球 | 球拍 |
- --------------------------
- 人民币
- 人民 | 人民币 |
- --------------------------
- 很好听
- 很好 | 好听 |
- --------------------------
- 下一个
- 下一 | 一个 |
- --------------------------
- 为什么
- 为什么 |
- --------------------------
- 北京首都机场
- 北京 | 首都 | 机场 |
- --------------------------
- 东西已经拍卖了
- 东西 | 已经 | 拍卖 | 卖了 |
- --------------------------
- 主人因之生气
- 主人 | 生气 |
- --------------------------
- 虽然某些动物很凶恶
- 动物 | 凶恶 |
- --------------------------
- 朋友真背叛了你了
- 朋友 | 真 | 背叛 |
- --------------------------
- 建设盒蟹社会
- 建设 | 盒蟹 | 社会 |
- --------------------------
- 建设盒少蟹社会
- 建设 | 盒少 | 少蟹 | 社会 |
- --------------------------
- 我们家门前的大水沟很难过。
- 我们 | 家门 | 前 | 门前 | 前的 | 大 | 大水 | 水沟 | 很难 | 难过 |
- --------------------------
- 罐头不如果汁营养丰富。
- 罐头 | 不如 | 如果 | 果汁 | 营养 | 丰富 |
- --------------------------
- 今天真热,是游泳的好日子。
- 今天 | 天真 | 热 | 游泳 | 日子 | 好日子 |
- --------------------------
- 妹妹的数学只考十分,真丢脸。
- 妹妹 | 数学 | 只考 | 十分 | 真 | 丢脸 |
- --------------------------
- 我做事情,都是先从容易的做起。
- 做事 | 事情 | 都是 | 先从 | 从容 | 容易 | 容易的 | 做起 |
- --------------------------
- 老师说明天每个人参加大队接力时,一定要尽力。
- 老师 | 师说 | 说明 | 明天 | 每个 | 个人 | 人参 | 参加 | 大 | 加大 | 大队 | 接力 | 时 | 一定 | 定要 | 要尽 | 尽力 |
- --------------------------
- 小明把大便当作每天早上起床第一件要做的事
- 小明 | 大 | 大便 | 便当 | 当作 | 每天 | 早上 | 上起 | 起床 | 床第 | 第一 | 一件 | 要做 | 做的 | 的事 |
mmseg4j maxword 分词效果:
- --------------------------
- 清华大学
- 清华 | 大学 |
- --------------------------
- 华南理工大学
- 华南 | 理工 | 工大 | 大学 |
- --------------------------
- 广东工业大学
- 广东 | 工业 | 大学 |
- --------------------------
- 西伯利亚
- 西 | 伯利 | 利亚 |
- --------------------------
- 研究生命起源
- 研究 | 生命 | 起源 |
- --------------------------
- 为首要考虑
- 为首 | 要 | 考虑 |
- --------------------------
- 化装和服装
- 化装 | 和 | 服装 |
- --------------------------
- 中国人民银行
- 中国 | 国人 | 人民 | 银行 |
- --------------------------
- 中华人民共和国
- 中华 | 华人 | 人民 | 共和 | 国 |
- --------------------------
- 羽毛球拍
- 羽毛 | 球拍 |
- --------------------------
- 人民币
- 人民 | 币 |
- --------------------------
- 很好听
- 很好 | 好听 |
- --------------------------
- 下一个
- 下一 | 一个 |
- --------------------------
- 为什么
- 为 | 什么 |
- --------------------------
- 北京首都机场
- 北京 | 首都 | 机场 |
- --------------------------
- 东西已经拍卖了
- 东西 | 已经 | 拍卖 | 了 |
- --------------------------
- 主人因之生气
- 主人 | 因 | 之 | 生气 |
- --------------------------
- 虽然某些动物很凶恶
- 虽然 | 某些 | 动物 | 很 | 凶恶 |
- --------------------------
- 朋友真背叛了你了
- 朋友 | 真 | 背叛 | 了 | 你了 |
- --------------------------
- 建设盒蟹社会
- 建设 | 盒 | 蟹 | 社会 |
- --------------------------
- 建设盒少蟹社会
- 建设 | 盒 | 少 | 蟹 | 社会 |
- --------------------------
- 我们家门前的大水沟很难过。
- 我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 |
- --------------------------
- 罐头不如果汁营养丰富。
- 罐头 | 不如 | 果汁 | 营养 | 丰富 |
- --------------------------
- 今天真热,是游泳的好日子。
- 今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 |
- --------------------------
- 妹妹的数学只考十分,真丢脸。
- 妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 |
- --------------------------
- 我做事情,都是先从容易的做起。
- 我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 |
- --------------------------
- 老师说明天每个人参加大队接力时,一定要尽力。
- 老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 |
- --------------------------
- 小明把大便当作每天早上起床第一件要做的事
- 小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 |
paoding 几乎把所有的子词都拆出来,有时候还有最长的词,还没搞懂“华南理工大学”会分出“大”;mmseg4j 的 maxword 是在 complex分词后的结果再把子词都拆出来(1.6版按二元,不是词的去掉或保存单字。下一版本可能方式有点不同,“为什么”不应该为“为|什么”,也即是三个字的前后不是词的应该不分,有待研究,:))。
如“化装和服装” mmseg4j 的 complex是可以较好的分出来(“化装 | 和 | 服装”),而 paoding 少了字频的信息,比较难到这事。mmseg4j complex 也有个缺点:“都是先从容易的做起” 不能把“容易”分出来,这是因为 mmseg 算法是用 3 个chunk的原因,我认为把整句的 chunk (还是仅仅3个chunk)来处理的话,分词效果要好),当然要更多的开销,选3个可能是效果与性能平衡吧。
mmseg4j 没有加任何 stopword,这东西留给使用者自己加,因为我不认为加 stopword 是好的方法。如音乐搜索,给加上 the,this……,还能找到歌曲?
当然分词效果还与词库有关,sogou 的词库是统计得出,有些高频的单字组合也成了词,如“我们的”。如果还要提高 mmseg4j 的分词效果,还要在整理下词库。
作者:唐福林 来源:福林雨 博客 酷勤网收集 2009-08-04
1. 基本介绍:
paoding :Lucene中文分词“庖丁解牛” Paoding Analysis
imdict :imdict智能词典所采用的智能中文分词程序
mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器
ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式
2. 开发者及开发活跃度:
paoding :qieqie.wang, google code 上最后一次代码提交:2008-06-12,svn 版本号 132
imdict :XiaoPingGao, 进入了 lucene contribute,lucene trunk 中 contrib/analyzers/smartcn/ 最后一次提交:2009-07-24,
mmseg4j :chenlb2008,google code 中 2009-08-03 (昨天),版本号 57,log为:mmseg4j-1.7 创建分支
ik :linliangyi2005,google code 中 2009-07-31,版本号 41
3. 用户自定义词库:
paoding :支持不限制个数的用户自定义词库,纯文本格式,一行一词,使用后台线程检测词库的更新,自动编译更新过的词库到二进制版本,并加载
imdict :暂时不支持用户自定义词库。但 原版 ICTCLAS 支持。支持用户自定义 stop words
mmseg4j :自带sogou词库,支持名为 wordsxxx.dic, utf8文本格式的用户自定义词库,一行一词。不支持自动检测。 -Dmmseg.dic.path
ik : 支持api级的用户词库加载,和配置级的词库文件指定,无 BOM 的 UTF-8 编码,/r/n 分割。不支持自动检测。
4. 速度(基于官方介绍,非自己测试)
paoding :在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字
imdict :483.64 (字节/秒),259517(汉字/秒)
mmseg4j : complex 1200kb/s左右, simple 1900kb/s左右
ik :具有50万字/秒的高速处理能力
5. 算法和代码复杂度
paoding :svn src 目录一共1.3M,6个properties文件,48个java文件,6895 行。使用不用的 Knife 切不同类型的流,不算很复杂。
imdict :词库 6.7M(这个词库是必须的),src 目录 152k,20个java文件,2399行。使用 ICTCLAS HHMM隐马尔科夫模型,“利用大量语料库的训练来统计汉语词汇的词频和跳转概率,从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分”
mmseg4j : svn src 目录一共 132k,23个java文件,2089行。MMSeg 算法 ,有点复杂。
ik : svn src 目录一共6.6M(词典文件也在里面),22个java文件,4217行。多子处理器分析,跟paoding类似,歧义分析算法还没有弄明白。
6. 文档
paoding :几乎无。代码里有一些注释,但因为实现比较复杂,读代码还是有一些难度的。
imdict : 几乎无。 ICTCLAS 也没有详细的文档,HHMM隐马尔科夫模型的数学性太强,不太好理解。
mmseg4j : MMSeg 算法 是英文的,但原理比较简单。实现也比较清晰。
ik : 有一个pdf使用手册,里面有使用示例和配置说明。
7. 其它
paoding :引入隐喻,设计比较合理。search 1.0 版本就用的这个。主要优势在于原生支持词库更新检测。主要劣势为作者已经不更新甚至不维护了。
imdict :进入了 lucene trunk,原版 ictclas 在各种评测中都有不错的表现,有坚实的理论基础,不是个人山寨。缺点为暂时不支持用户词库。
mmseg4j : 在complex基础上实现了最多分词(max-word),但是还不成熟,还有很多需要改进的地方。
ik : 针对Lucene全文检索优化的查询分析器IKQueryParser
8. 结论
个人觉得,可以在 mmseg4j 和 paoding 中选一个。关于这两个分词效果的对比,可以参考:
http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html
或者自己再包装一下,将 paoding 的词库更新检测做一个单独的模块实现,然后就可以在所有基于词库的分词算法之间无缝切换了。
ps,对不同的 field 使用不同的分词器是一个可以考虑的方法。比如 tag 字段,就应该使用一个最简单的分词器,按空格分词就可以了。
发表评论
-
百度GOOGLE的用户鼠标行为分析<转>
2012-08-29 09:37 1529转自:http://www.20ju.com/conte ... -
lucene 一些性能调优建议
2012-08-22 16:12 5579lucene 排序 Lucene默认按照相关度 ... -
<转>庖丁解牛分词之自定义词库[自定义词典]
2012-07-03 10:21 934原链接: http://hi.baidu.com/stone_ ... -
庖丁(Paoding)分词的词典原理解析
2012-07-03 10:14 3676Paoding分词过程中词典 ... -
solr 百度相关搜索类似功能的实现
2012-06-27 16:26 5788这个功能的实现有几种不同的思路。 大概半个月前,我在网 ... -
solr 索引库同步数据库
2012-06-27 14:01 5667对于拼音和拼音首字母的支持,当你在搜商品的时候,如果想输 ... -
solr 对拼音搜索和拼音首字母搜索的支持
2012-06-27 13:52 9117对于拼音和拼音首字母的支持,当你在搜商品的时候,如果想输 ... -
<转>Solr Suggest实现搜索智能提示
2012-06-27 10:15 13967智能提示简介 搜索的智能提示目前是各大搜索的标配应用, ... -
IK的整个分词处理过程
2012-06-26 14:25 11598IK的整个分词处理过 ... -
Solr的检索运算符
2012-06-21 14:47 4252“:” 指定字段查指定值,如返回所有值*:*² “?” 表示 ... -
Solr 学习(5) —- Solr查询语法和参数
2012-06-21 14:25 11642、查询语法 solr的一些查询语法 ... -
Apache Solr schema.xml及solrconfig.xml文件中文注解
2012-06-21 10:55 1211一、字段配置(schema)schema.xml位于so ... -
<转>LUCENE3.0 自学吧 4 TermDocs
2012-06-07 22:13 1249利用TermDocs也是可以得到一些有用的结果。。。代码 ... -
<转>Lucene里经常被聊到的几个话题
2012-06-07 21:54 1279lvpei.cnblogs.com.自己总结的Lucen ... -
<转>浅谈文档索引普遍原理<笔记>
2012-06-07 21:49 1025--lvpei.cnblogs.com 搜索引擎普遍采 ... -
Lucene中Field类很重要
2012-06-07 21:46 8264org.apache.lucene.demo.Index ... -
Lucene架构简单分析
2012-06-06 15:30 1667Lucene简介Lucene 是一个基 ... -
<转>lucene3.0中Field.Index, Field.Store,Field.TermVector详解
2012-06-06 14:49 925lucene在doc.add(new Field(&quo ... -
Lucene3参考资料
2012-06-05 09:46 1040http://wenku.baidu.com/view/706 ... -
lucene索引word/pdf/html/txt文件及检索(搜索引擎)
2012-06-04 14:59 993因为lucene索引的时候是 ...
相关推荐
**Lucene+中文IK分词器实例解析** Lucene是一个高性能、全文检索库,由Apache软件基金会开发。它提供了一个简单但功能强大的API,用于在各种应用中实现全文索引和搜索。在处理中文文本时,由于中文词汇的复杂性和无...
<lucene-version>5.3.1</lucene-version> </properties> <dependencies> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>${lucene-version}</version> ...
《深入理解Lucene 6.6:拼音与IK中文分词技术详解》 在信息检索领域,Lucene作为一款强大的全文搜索引擎库,被广泛应用。在处理中文文本时,分词是至关重要的一步,它决定了搜索的精度和效果。本文将详细讲解如何在...
**标题:“如何使用Lucene的中文分词搜索”** 在信息检索和文本处理领域,Apache Lucene是一个强大的全文搜索引擎库,它提供了高级的索引和搜索功能。在处理中文文本时,由于中文句子是由词语组成的,而非单个字符...
MMAnalyzer是一个专门用于中文分词的工具,它基于Java实现,为开发者提供了便捷的分词服务。本篇文章将深入探讨MMAnalyzer的使用以及与之相关的两个核心JAR包:`jeasy.analysis.MMAnalyzer`和`lucene-core-2.4.1.jar...
### Lucene与中文分词技术的研究及应用 #### Lucene简介与原理 Lucene是一款高性能、全功能的文本搜索引擎库,由Java语言编写而成。它为开发者提供了构建全文搜索引擎的能力,而无需关注底层搜索机制的具体实现...
<groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>4.10.4</version> </dependency> <dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch</...
<groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>8.10.1</version> <!-- 请根据实际版本号更新 --> </dependency> <dependency> <groupId>org.apache.lucene</groupId> ...
【标题】"Lucene.net 盘古分词C#" 涉及到的是在.NET环境中使用Lucene库进行全文检索,并结合盘古分词工具进行中文分词处理。Lucene是一个开源的全文检索库,提供了高效的索引和搜索功能。在.NET平台上,Lucene.net是...
"je-analysis"可能是一个早期的中文分析器,用于对中文文本进行预处理,包括词典匹配、分词、去除停用词等步骤,以便于Lucene理解并处理中文内容。这在处理大量中文文档时尤其关键,因为中文没有明显的词边界,传统...
标题中的"C# 中文分词 LUCENE IKAnalyzer"是指使用C#语言实现的一个中文分词工具,它基于开源全文检索引擎Lucene,并且采用了IKAnalyzer(智能汉字分词系统)的Java版本进行移植。Lucene是一个强大的、高性能的信息...
标题中的“拼音分词 Pinyin4j+pinyinAnalyzer+lucene-analyzers”指的是这个压缩包包含的三个核心组件,它们都是在处理中文文本时非常重要的工具。Pinyin4j是一个Java库,主要用于将汉字转换为拼音,这对于进行基于...
Lucene3.0分词系统的核心在于理解和应用其分词原理,无论是对于英文还是中文文本,这一过程都是构建高效搜索引擎的基础。以下是对Lucene3.0分词系统中涉及的关键知识点的深入解析。 ### 英文分词原理 英文分词相较...
【Lucene4.7+IK Analyzer中文分词入门教程】 Lucene是一个开源的全文检索库,它提供了文本分析、索引和搜索的核心工具。在这个入门教程中,我们将使用Lucene 4.7版本,结合IK Analyzer,一个专门针对中文分词的开源...
<groupId>org.apache.lucene</groupId> <artifactId>lucene-core</artifactId> <version>8.10.1</version> </dependency> <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-analyzers-...
"中文分词器"在这里指的可能是 "je-analysis-1.5.1.jar",这是一个专门针对中文的分析工具,用于将中文文本分解成有意义的词汇(词)。Je-Analysis 可能是基于 Java 实现的,适用于 Lucene 和 Solr 等搜索引擎,它...
//采用正向最大匹配的中文分词算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new ...
IKAnalyzer是一款基于Java语言开发的中文分词工具包,它在Lucene的基础上进行了优化和扩展,特别适用于全文检索和自然语言处理任务。IKAnalyzer提供了强大的中文分词能力,能够有效地识别和处理中文词汇,提高了搜索...
在本文中,我们将深入探讨如何使用Lucene.NET和盘古分词来实现一个站内搜索功能的演示。Lucene.NET是Apache Lucene的.NET版本,它是一个高性能、全文本搜索库,提供了强大的索引和搜索功能。而盘古分词是针对中文...