- 浏览: 388199 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (215)
- ubuntu (27)
- 虚拟机 (13)
- 数据库 (29)
- JAVA (40)
- 搜索 (23)
- 开发工具 (2)
- 产品 (2)
- 工具 (1)
- 应用服务器 (5)
- linux (17)
- log (1)
- 多线程 (3)
- 异常 (1)
- shell (6)
- 12306 ;互联网 (1)
- 持续集成&Hudson (4)
- js (1)
- JAVA OR-Map (1)
- 漏洞 (1)
- svn (1)
- MAVEN (3)
- 架构 (1)
- windows (1)
- json (1)
- web (3)
- jenkins (2)
- iptables (2)
- JAVA ssh (0)
- 项目管理 (1)
- tomcat (1)
- 安全 (1)
- 数据库 mysql (1)
- 性能 (1)
最新评论
-
sbwfgihc:
怎么用的啊,
<转>mysql 树查询语句 -
panghaoyu:
实现一个智能提示功能需要ajax、数据库、jsp/php、算法 ...
<转>Solr Suggest实现搜索智能提示 -
songsove:
请问您qq多少
solr 对拼音搜索和拼音首字母搜索的支持 -
panghaoyu:
实现一个智能提示功能需要ajax、数据库、jsp/php、算法 ...
<转>Solr Suggest实现搜索智能提示 -
norain1988:
这样就可以实现相关搜索了吗
solr 百度相关搜索类似功能的实现
原链接: http://hi.baidu.com/stone_kings/item/fff2efd6db55df2b38f6f766
发现很久很久没更新了,尤其是这个模块,也就好久没进步了!学习如逆水行舟,不进则退!趁着还没到白首之际,应该多学习。
首先,还是先贴出来参考来源,毕竟非原创。
(1)、http://blog.csdn.net/askpp/archive/2009/09/08/4532355.aspx
(2)、http://qipei.javaeye.com/blog/365207
现在继续:
1、到http://code.google.com/p/paoding/downloads/list下载paoding-analysis-2.0.4-alpha2.zip
2、然后解压缩,找到dic文件夹,复制到你想存放的文件夹下
<!--[if gte vml 1]><v:shapetype id="_x0000_t75" coordsize="21600,21600"
o:spt="75" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f"
stroked="f">
<v:stroke joinstyle="miter" />
<v:formulas>
<v:f eqn="if lineDrawn pixelLineWidth 0" />
<v:f eqn="sum @0 1 0" />
<v:f eqn="sum 0 0 @1" />
<v:f eqn="prod @2 1 2" />
<v:f eqn="prod @3 21600 pixelWidth" />
<v:f eqn="prod @3 21600 pixelHeight" />
<v:f eqn="sum @0 0 1" />
<v:f eqn="prod @6 1 2" />
<v:f eqn="prod @7 21600 pixelWidth" />
<v:f eqn="sum @8 21600 0" />
<v:f eqn="prod @7 21600 pixelHeight" />
<v:f eqn="sum @10 21600 0" />
</v:formulas>
<v:path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect" />
<o:lock v:ext="edit" aspectratio="t" />
</v:shapetype><v:shape id="图片_x0020_2" o:spid="_x0000_i1037" type="#_x0000_t75"
alt="http://hiphotos.baidu.com/xwx520/pic/item/fbf41423c208de7c9922ed1b.jpg"
style='width:399pt;height:178.5pt;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image001.png" o:title="fbf41423c208de7c9922ed1b" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]--><!--[if gte vml 1]><v:shape id="图片_x0020_3"
o:spid="_x0000_i1036" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/b5564f95a57a4d267bf480e5.jpg"
style='width:568.5pt;height:421.5pt;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image003.png" o:title="b5564f95a57a4d267bf480e5" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
3、配置环境变量,如果不配置,运行会报错,报错的中文信息也是需要进行配置环境变量
<!--[if gte vml 1]><v:shape id="图片_x0020_4"
o:spid="_x0000_i1035" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/e1d7bb50d86e89721038c2a0.jpg"
style='width:315.75pt;height:371.25pt;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image005.png" o:title="e1d7bb50d86e89721038c2a0" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
4、删除.compiled文件
<!--[if gte vml 1]><v:shape id="图片_x0020_5"
o:spid="_x0000_i1034" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/4c5a624e6044dae4d1c86abe.jpg"
style='width:97.5pt;height:59.25pt;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image007.png" o:title="4c5a624e6044dae4d1c86abe" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->5、新建一个文本文件,后缀名问.dic,采用utf-8保存到dic的文件目录中,这里保存在了E:\paodingTest\dic\locale中
<!--[if gte vml 1]><v:shape
id="图片_x0020_6" o:spid="_x0000_i1033" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/7bbc5afaee6569b959ee90bc.jpg"
style='width:568.5pt;height:471pt;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image009.png" o:title="7bbc5afaee6569b959ee90bc" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
6、下面我们写个分词测试程序
<!--[if gte vml 1]><v:shape id="图片_x0020_7"
o:spid="_x0000_i1032" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/8c7c43df1e87c53d6327988f.jpg"
style='width:568.5pt;height:311.25pt;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image011.jpg" o:title="8c7c43df1e87c53d6327988f" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->7、自定义词库的情况下分词结果,首先看到的是词库的编译信息
<!--[if gte vml 1]><v:shape id="图片_x0020_8"
o:spid="_x0000_i1031" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/0a089ebf54f7cf2419d81f91.jpg"
style='width:568.5pt;height:195pt;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image013.png" o:title="0a089ebf54f7cf2419d81f91" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
8、带自定义词库的分词结果
<!--[if gte vml 1]><v:shape id="图片_x0020_9"
o:spid="_x0000_i1030" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/0bf25ef431d584c17609d793.jpg"
style='width:354pt;height:577.5pt;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image015.png" o:title="0bf25ef431d584c17609d793" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
9、删除自定义词库和.compiled文件,重新分词
<!--[if gte vml 1]><v:shape id="图片_x0020_10" o:spid="_x0000_i1029"
type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/6b01aa191c987954dbb4bd64.jpg"
href="http://hiphotos.baidu.com/xwx520/pic/item/7f5f19fb7a6de44a034f569b.jpg"
target="_blank" style='width:295.5pt;height:494.25pt;visibility:visible;
mso-wrap-style:square' o:button="t">
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image017.png" o:title="6b01aa191c987954dbb4bd64" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
10、放在一起比较,效果还是有的
<!--[if gte vml 1]><v:shape id="图片_x0020_11"
o:spid="_x0000_i1028" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/72bcd813dabe2dfef6039e7d.jpg"
style='width:569.25pt;height:504.75pt;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image019.png" o:title="72bcd813dabe2dfef6039e7d" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
11、假设我们在分词的时候,需要把运、动分开,默认情况下是不分开的
<!--[if gte vml 1]><v:shape id="图片_x0020_12"
o:spid="_x0000_i1027" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/fe4fc7ca9669e8a8c8176844.jpg"
style='width:511.5pt;height:428.25pt;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image021.png" o:title="fe4fc7ca9669e8a8c8176844" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
12、在词库中增加两个词运和动
<!--[if gte vml 1]><v:shape id="图片_x0020_13"
o:spid="_x0000_i1026" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/d105e1196167f86b42a9ad47.jpg"
style='width:568.5pt;height:453.75pt;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image023.png" o:title="d105e1196167f86b42a9ad47" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
13、当然,如果想把这个分词器用得更好,还需要深入去了解和思考该分词方法,比如,“我是运动员”,虽然我们在自定义词库中填加了词“运动员”,但是依旧没有切分成“我”,“是”,“运动员”,反而出现了不相关的”动员“这个词语。而需要同时将”运动“切分为“运”,“动“,”运动“,那也是需要好好思考用法,当然这也和中国汉语的特殊性有关,例如:“乒乓球拍卖完了”,在没有上下文的情况下本身就存在歧义。
<!--[if gte vml 1]><v:shape id="图片_x0020_14"
o:spid="_x0000_i1025" type="#_x0000_t75" alt="http://hiphotos.baidu.com/xwx520/pic/item/2349d418ada8959a4bedbc36.jpg"
style='width:559.5pt;height:7in;visibility:visible;mso-wrap-style:square'>
<v:imagedata src="file:///r:\Temp\msohtmlclip1\01\clip_image025.png" o:title="2349d418ada8959a4bedbc36" />
</v:shape><![endif]--><!--[if !vml]--><!--[endif]-->
<!--[if !supportLineBreakNewLine]-->
<!--[endif]-->
发表评论
-
百度GOOGLE的用户鼠标行为分析<转>
2012-08-29 09:37 1521转自:http://www.20ju.com/conte ... -
lucene 一些性能调优建议
2012-08-22 16:12 5570lucene 排序 Lucene默认按照相关度 ... -
庖丁(Paoding)分词的词典原理解析
2012-07-03 10:14 3670Paoding分词过程中词典 ... -
solr 百度相关搜索类似功能的实现
2012-06-27 16:26 5786这个功能的实现有几种不同的思路。 大概半个月前,我在网 ... -
solr 索引库同步数据库
2012-06-27 14:01 5663对于拼音和拼音首字母的支持,当你在搜商品的时候,如果想输 ... -
solr 对拼音搜索和拼音首字母搜索的支持
2012-06-27 13:52 9101对于拼音和拼音首字母的支持,当你在搜商品的时候,如果想输 ... -
<转>Solr Suggest实现搜索智能提示
2012-06-27 10:15 13958智能提示简介 搜索的智能提示目前是各大搜索的标配应用, ... -
IK的整个分词处理过程
2012-06-26 14:25 11588IK的整个分词处理过 ... -
Solr的检索运算符
2012-06-21 14:47 4246“:” 指定字段查指定值,如返回所有值*:*² “?” 表示 ... -
Solr 学习(5) —- Solr查询语法和参数
2012-06-21 14:25 11592、查询语法 solr的一些查询语法 ... -
Apache Solr schema.xml及solrconfig.xml文件中文注解
2012-06-21 10:55 1205一、字段配置(schema)schema.xml位于so ... -
<转>LUCENE3.0 自学吧 4 TermDocs
2012-06-07 22:13 1247利用TermDocs也是可以得到一些有用的结果。。。代码 ... -
<转>Lucene里经常被聊到的几个话题
2012-06-07 21:54 1273lvpei.cnblogs.com.自己总结的Lucen ... -
<转>浅谈文档索引普遍原理<笔记>
2012-06-07 21:49 1021--lvpei.cnblogs.com 搜索引擎普遍采 ... -
Lucene中Field类很重要
2012-06-07 21:46 8258org.apache.lucene.demo.Index ... -
Lucene架构简单分析
2012-06-06 15:30 1661Lucene简介Lucene 是一个基 ... -
<转>lucene3.0中Field.Index, Field.Store,Field.TermVector详解
2012-06-06 14:49 920lucene在doc.add(new Field(&quo ... -
<转>用于Lucene的各中文分词比较
2012-06-05 09:58 5610对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次 ... -
Lucene3参考资料
2012-06-05 09:46 1019http://wenku.baidu.com/view/706 ... -
lucene索引word/pdf/html/txt文件及检索(搜索引擎)
2012-06-04 14:59 986因为lucene索引的时候是 ...
相关推荐
在提供的文件列表中,“庖丁解牛分词之自定义词库[自定义词典].htm”很可能是介绍如何创建和使用自定义词库的教程文档。通过阅读这个文件,开发者可以学习如何创建自己的词典文件,以及如何在庖丁解牛分词工具中进行...
"庖丁解牛"是一款专为中文处理设计的分词工具,其版本2.0.4-alpha2提供了更稳定和高效的分词体验。这个工具的核心功能是将中文文本拆分成有意义的词语,这对于中文信息处理、自然语言理解和搜索引擎优化等场景至关...
8. **扩展性与灵活性**:庖丁解牛分词器的设计可能考虑到易扩展和灵活性,允许用户自定义词典、添加新的分词规则,甚至插入自定义的分词算法,以适应各种应用场景。 通过研究"庖丁解牛分词器"的源码,开发者不仅...
由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...
"庖丁解牛分词" 是一款针对中文文本处理的分词工具,主要适用于Java环境。这个工具包的名称形象地借用中国古代故事“庖丁解牛”,寓意对文本的精细处理,如同庖丁对牛肉的熟练分解。在Java开发中,分词是自然语言...
《Lucene中文分词——庖丁解牛》 在自然语言处理领域,中文分词是基础且关键的一环。在Java开发中,Apache Lucene是一个强大的全文搜索引擎库,但默认并不支持中文,这就需要借助第三方分词工具。本文将深入探讨...
《Lucene中文分词:庖丁解牛》 在信息技术高速发展的今天,全文搜索引擎已经成为网站内容检索不可或缺的一部分。其中,Apache Lucene作为一个开源的全文检索库,被广泛应用于各种项目中,尤其对于处理中文文本,...
《深入剖析:Lucene3与庖丁解牛中文分词器》 在信息技术飞速发展的今天,全文检索和搜索引擎已经成为日常开发中不可或缺的部分。Lucene作为一款强大的全文检索库,被广泛应用于各种信息检索系统中。然而,对于中文...
标题 "sorlr + tomcat+ 庖丁解牛中文分词 配置文档" 提到的是一个关于在Apache Solr中集成Tomcat服务器,并利用庖丁解牛中文分词工具进行中文处理的配置教程。这个配置过程对于搭建支持中文搜索的Solr环境至关重要。...
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章...
"庖丁解牛jarbao"是一个专为中文分词设计的工具,它的核心是"庖丁解牛中文分词器"。在Java开发环境中,它通常以jar包的形式提供,如"paoding-analysis - 3.1.jar",这表明它是基于Java语言实现的,并且是版本3.1的...
"庖丁解牛"是一款专为处理中文文本的分词工具,它的设计目的是为了帮助开发者更高效、准确地对中文文本进行分词处理。在自然语言处理(NLP)领域,分词是基础且关键的一环,它将连续的文本序列切分成具有独立意义的...
庖丁解牛2_0_0版本可能提供了更加灵活的接口和配置选项,使得开发者可以根据企业的具体需求进行定制,比如添加自定义词典,调整分词策略等。这样的灵活性可以更好地适应不同行业的专业术语和特殊用法。 另外,考虑...
"庖丁解牛工具"是一款基于Java开发的文本分析工具,尤其在中文分词领域有着广泛的应用。这个工具的名字来源于中国古代寓言故事“庖丁解牛”,寓意对文本的精细处理和深入理解,就像庖丁对牛肉的熟练切割一样。在IT...
可以适用于lucene3.5的庖丁解牛分词器jar包
总的来说,《STL原码剖析<庖丁解牛>》是一本深度揭秘STL的权威之作,无论是初学者还是经验丰富的开发者,都能从中获益匪浅。通过阅读这本书,读者不仅能掌握STL的基本使用,还能深入理解其背后的思维方式和编程艺术...
庖丁解牛分词时需要的高亮显示jar包,高亮显示需要的jar包
然而,由于中文的复杂性,简单的英文分词策略无法满足需求,于是有了针对中文的分词方法——"庖丁解牛分词法"。该方法是专门为了解决Lucene在处理中文文本时的分词难题而设计的。在本文中,我们将深入探讨这一分词法...
"Linux驱动开发庖丁解牛系列"很可能是一个深入解析Linux驱动程序开发的教程或者一系列文档,旨在帮助开发者逐步理解并掌握这一复杂而重要的技术领域。 Linux驱动开发主要包括以下几个关键知识点: 1. **内核结构...