- 浏览: 347186 次
- 来自: NA
文章分类
最新评论
-
上官车月:
实验成功,转载了
Java获取请求客户端的真实IP地址 -
url_nc:
very good
css教程–十步学会用css建站(全) -
hiveer:
楼主我想问能不能不在class里面定义get_binding ...
强大的ruby模版:ERB -
ilovebaby0530:
修改密码后需要 FLUSH PRIVILEGES;
绿色版mysql安装步骤 -
albrich:
你这个方法也是不行的,得到的仍然是内网的IP
Java获取请求客户端的真实IP地址
打上SOLR-236_collapsing.patch补丁,实现 solr 搜索结果折叠、除去重复的搜索结果,可以实现类似google搜索结果的“站内的其它相关信息 ”。solr collapsing patch 是用 hash 某个字段来实现折叠重复结果的。下面我演示下应用这个补丁并搜索试用下。
其实 solr 上已经有了这功能的实现:solr 1.3 collapse patch, 请看:https://issues.apache.org/jira/browse/SOLR-236 ,我这里下载是了新的:https://issues.apache.org/jira/secure/attachment/12403590/SOLR-236_collapsing.patch 。
下载 好后就需要打上补丁了,先准备一份源码在D:/apache-solr-1.3.0目录下。没有可以去下载:http: //archive.apache.org/dist/lucene/solr/1.3.0/apache-solr-1.3.0.zip。把SOLR- 236_collapsing.patch文件放在D:/apache-solr-1.3.0目录下, 打补丁有我知道的有两种:用linux工具 patch(windows 下有 cygwin);用 ant 的 patch。
windows cygwin 的 patch:
D:\apache-solr-1.3.0>patch -p0 < SOLR-236_collapsing.patch
patching file src/test/org/apache/solr/search/TestDocSet.java
patching file src/java/org/apache/solr/search/CollapseFilter.java
patching file src/java/org/apache/solr/search/DocSet.java
patching file src/java/org/apache/solr/search/NegatedDocSet.java
patching file src/java/org/apache/solr/search/SolrIndexSearcher.java
patching file src/java/org/apache/solr/common/params/CollapseParams.java
patching file src/java/org/apache/solr/handler/component/CollapseComponent.java
ant patch,把下面的内容保存为 patch-build.xml 放到 D:\apache-solr-1.3.0 目录下:
- <? xml version = “1.0″ encoding = “UTF-8″ ?>
- < project name = “solr-patch” default = “apply-patch” basedir = “.” >
- < target name = “apply-patch” description = “Apply a patch file. Set -Dpatch.file” >
- < patch patchfile = “${patch.file}” strip = “0″ />
- </ target >
- </ project >
ant 打补丁:
D:\apache-solr-1.3.0>ant -Dpatch.file=SOLR-236_collapsing.patch -f patch-build.xml
Buildfile: patch-build.xmlapply-patch:
[patch] patching file src/test/org/apache/solr/search/TestDocSet.java
[patch] patching file src/java/org/apache/solr/search/CollapseFilter.java
[patch] patching file src/java/org/apache/solr/search/DocSet.java
[patch] patching file src/java/org/apache/solr/search/NegatedDocSet.java
[patch] patching file src/java/org/apache/solr/search/SolrIndexSearcher.java
[patch] patching file src/java/org/apache/solr/common/params/CollapseParams.java
[patch] patching file src/java/org/apache/solr/handler/component/CollapseComponent.javaBUILD SUCCESSFUL
Total time: 0 seconds
源码打上了补丁,然后用 ant 构建源码:
D:\apache-solr-1.3.0>ant dist
在 D:/apache-solr-1.3.0/dist 目录下可以找到编译好的 solr 了。然后把 solr 放到 tomcat 中去运行它,把下面的内容保存在 TOMCAT_HOME/conf/Catalina/localhost/solr.xml 文件中:
- < Context docBase = “D:\apache-solr-1.3.0\dist\apache-solr-1.3.0.war” reloadable = “true” >
- < Environment name = “solr/home” type = “java.lang.String” value = “D:\apache-solr-1.3.0\example\solr” override = “true” />
- </ Context >
修改 D:\apache-solr-1.3.0\example\solr\conf\solrconfig.xml 使 solr 可以支持 collapse。
定义搜索组件,在 QueryComponent 附近:
- < searchComponent name = “collapse” class = “org.apache.solr.handler.component.CollapseComponent” />
定义一个 handler 使用上面的搜索组件:
- < requestHandler name = “collapse” class = “solr.SearchHandler” >
- <!– default values for query parameters –>
- < lst name = “defaults” >
- < str name = “echoParams” > explicit </ str >
- </ lst >
- < arr name = “components” >
- < str > collapse </ str >
- < str > debug </ str >
- </ arr >
- </ requestHandler >
安装启动 tomcat,现在提交一些数据给它,用官方的示例数据就可以了。运行:
D:\apache-solr-1.3.0\example\exampledocs>java -Durl=http://localhost:8080/solr/update -Dcommit=yes -jar post.jar *.xml
SimplePostTool: version 1.2
SimplePostTool: WARNING: Make sure your XML documents are encoded in UTF-8, other encodings are not currently supported
SimplePostTool: POSTing files to http://localhost:8080/solr/update..
SimplePostTool: POSTing file hd.xml
SimplePostTool: POSTing file ipod_other.xml
SimplePostTool: POSTing file ipod_video.xml
SimplePostTool: POSTing file mem.xml
SimplePostTool: POSTing file monitor.xml
SimplePostTool: POSTing file monitor2.xml
SimplePostTool: POSTing file mp500.xml
SimplePostTool: POSTing file sd500.xml
SimplePostTool: POSTing file solr.xml
SimplePostTool: POSTing file spellchecker.xml
SimplePostTool: POSTing file utf8-example.xml
SimplePostTool: POSTing file vidcard.xml
SimplePostTool: COMMITting Solr index changes..
http://localhost:8080/solr/admin/stats.jsp 有结果了? 有了。然后开始查询试试看。
结果:
- <? xml version = “1.0″ encoding = “UTF-8″ ?>
- < response >
- < lst name = “responseHeader” >
- < int name = “status” > 0 </ int >
- < int name = “QTime” > 0 </ int >
- < lst name = “params” >
- < str name = “collapse.field” > popularity </ str >
- < str name = “fl” > id </ str >
- < str name = “collapse.threshold” > 1 </ str >
- < str name = “indent” > on </ str >
- < str name = “q” > *:* </ str >
- < str name = “qt” > collapse </ str >
- < str name = “collapse” > true </ str >
- </ lst >
- </ lst >
- < lst name = “collapse_counts” >
- < str name = “field” > popularity </ str >
- < lst name = “doc” >
- < int name = “SP2514N” > 4 </ int >
- < int name = “F8V7067-APL-KIT” > 1 </ int >
- < int name = “MA147LL/A” > 1 </ int >
- < int name = “TWINX2048-3200PRO” > 1 </ int >
- < int name = “VS1GB400C3″ > 3 </ int >
- < int name = “1″ > 10 </ int >
- </ lst >
- < lst name = “count” >
- < int name = “6″ > 4 </ int >
- < int name = “1″ > 1 </ int >
- < int name = “10″ > 1 </ int >
- < int name = “5″ > 1 </ int >
- < int name = “7″ > 3 </ int >
- < int name = “0″ > 10 </ int >
- </ lst >
- < str name = “debug” > HashDocSet(6) Time(ms): 0/0/0/0 </ str >
- </ lst >
- < result name = “response” numFound = “6″ start = “0″ >
- < doc >
- < str name = “id” > SP2514N </ str >
- </ doc >
- < doc >
- < str name = “id” > F8V7067-APL-KIT </ str >
- </ doc >
- < doc >
- < str name = “id” > MA147LL/A </ str >
- </ doc >
- < doc >
- < str name = “id” > TWINX2048-3200PRO </ str >
- </ doc >
- < doc >
- < str name = “id” > VS1GB400C3 </ str >
- </ doc >
- < doc >
- < str name = “id” > 1 </ str >
- </ doc >
- </ result >
- </ response >
可以看到 collapse_counts 相关的输出:
- < lst name = “collapse_counts” >
- < str name = “field” > popularity </ str >
- < lst name = “doc” >
- < int name = “SP2514N” > 4 </ int >
- …
- </ lst >
- < lst name = “count” >
- < int name = “6″ > 4 </ int >
- < int name = “1″ > 1 </ int >
- < int name = “10″ > 1 </ int >
- < int name = “5″ > 1 </ int >
- < int name = “7″ > 3 </ int >
- < int name = “0″ > 10 </ int >
- </ lst >
- < str name = “debug” > HashDocSet(6) Time(ms): 0/0/0/0 </ str >
- </ lst >
上面的 count 下的内容(它的顺序是result/doc的顺序),表示 popularity=6 相同的结果还有 4 个,与 popularity=1 相同的结果还有 1 个,依此类推。这样就可以显示给用户的界面里提示“相同的其它内容不有N个”。
使用的参数有:
- #启用 collapse 组件
- collapse=true
- #用那个字段来 hash 去除重量内容
- collapse.field=popularity
- #要结果中可以最多出现几个相同的文档
- collapse.threshold=1
当然还有其它参数,请看:org.apache.solr.common.params.CollapseParams 类。
原文出处:http://blog.chenlb.com/2009/04/apply-solr-collapsing-patch-remove-duplicate-result.html
发表评论
-
Apache Solr schema.xml及solrconfig.xml文件中文注解
2011-11-04 20:39 1983schema.xml位于solr/conf/目录下,类似于数据 ... -
自定义评分器Similarity提高搜索体验
2011-11-04 20:35 2093http://www.gbsou.com/2011/11/01 ... -
Solr的扩展(Scaling)以及性能调优
2011-11-04 20:16 3201当你的索引数量越来 ... -
lucene下的contrib包介绍
2010-09-10 18:23 2512analyzers 下分为两个包 ... -
构建可伸缩,高性能的互联网应用(copy from http://yuquan-nana.javaeye.com/blog/710302)
2010-07-12 13:31 1997时间过得很快,来淘宝已经两个月了,在这两个月的时间里,自己也感 ... -
实时检索系统Zoie实现分析
2010-05-11 14:19 5072实时检索系统Zoie实现分析 实时检索的核心原理 通 ... -
ImageMagick, JMagick安装、配置(windows版)
2009-09-29 21:55 5442ImageMagick, JMagick安装、配置(windo ... -
使用HttpClient4.0调用JavaEye API
2009-09-19 21:22 2501package com.javaeye.client; ... -
spam搜索引擎垃圾技术的统称
2009-07-24 13:53 854在搜索引擎优化 ... -
使用org.apache.commons.net.ftp包开发FTP客户端,实现进度汇报,实现断点续
2009-03-12 11:06 5023利用org.apache.commons.net.ftp包实现 ... -
Java的Excel报表开源工具
2008-12-24 20:25 2476http://jdkcn.com/entry/opensour ... -
Apache Commons工具集简介
2008-12-09 12:11 1956Commons BeanUtils http://jakart ... -
Apache开源项目分类列表
2008-11-03 16:41 2215分类 项目名 说明 开发语言 服务器 ... -
JDK5多线程框架java.util.concurrent
2008-10-30 17:59 3846JDK5中的一个亮点就是将Doug Lea的并发库引入到Jav ... -
Java处理图片
2008-10-05 13:08 2180图片上传到服务器后,会根据情况将图片缩小成一个图标,我们可以利 ... -
XFire 入门
2008-09-11 15:17 1152http://www.ibm.com/developerwor ... -
如何查看网站被百度或者google收录多少网页?
2008-08-09 02:16 4895在google或者百度的搜索框输入: site:www.ite ... -
分布式计算开源框架Hadoop介绍
2008-08-07 14:21 1528作者 岑文初 发布于 2008年8月4日 ...
相关推荐
Apache Solr 7.4 是一个功能强大的搜索引擎平台,不仅提供了丰富的文档管理和搜索功能,还支持多种高级特性,如分面搜索、高亮显示和拼写检查等。通过本参考指南的学习,用户可以全面掌握 Solr 的使用方法,并将其...
文档中介绍了 Solr 如何识别并去除重复文档,以提高搜索结果的质量。 #### 内容流 内容流是 Solr 中一种特殊的数据类型,允许用户上传任意格式的数据。文档中提供了如何使用内容流的示例。 #### 搜索 文档详细...
4. **结果排序**:Solr 可以根据相关性、日期等多种因素对搜索结果进行排序。 5. **实时搜索**:Solr 支持实时索引更新,提供近实时的搜索体验。 6. **多字段搜索**:Solr 可以对多个字段进行独立或组合搜索,满足...
- **Solr和Elasticsearch**:Nutch可以与Apache Solr或Elasticsearch集成,提供高性能的搜索功能。 - **HBase**:Nutch也可与HBase结合,用于存储和检索大规模数据。 7. **社区支持** - **文档**:Nutch项目提供...
这可以使用Apache Lucene或Solr等全文搜索库实现。 4. **查询处理**:接收用户输入的查询,进行查询分析(如拼写纠错、关键词扩展),然后在索引中查找匹配结果。 5. **排序算法**:使用TF-IDF、PageRank等算法计算...
《基于Ruby+Java搜索引擎原理与实现》是一部深入探讨搜索引擎技术的书籍,虽然只涵盖了前三个章节,但已足以让我们对搜索引擎的基本运作有初步的理解。在本文中,我们将围绕Ruby和Java这两种编程语言如何应用于搜索...
Nutch 不仅可以抓取网页,还可以通过 Solr 或 Elasticsearch 等搜索服务器提供搜索服务,让用户能够基于抓取的数据进行查询。 9. **社区支持**: Apache Nutch 有着活跃的社区,用户可以在邮件列表、论坛等平台上...
学习如何利用Lucene的分布式搜索框架如Solr或Elasticsearch进行集群部署,以实现大规模数据的高效检索。 8. **错误处理与调试:** 在集成Lucene到Web应用中,可能会遇到各种问题,比如索引损坏、查询错误等。了解...
- 利用Solr、Elasticsearch等分布式搜索引擎。 - 分布式架构可以有效提高系统的扩展性和可用性。 **6.6 本章小结** - 本章详细介绍了如何使用Lucene创建和管理索引库,包括索引库的设计、创建...
Lucene是一个全文检索库,由Apache软件基金会开发,它提供了高性能的索引和搜索功能。在Lucene中,主要知识点包括: 1. **索引过程**:Lucene首先对文档进行分析,将其分解为关键词(tokens),然后创建倒排索引,...
使用Java开发这样的工具,开发者可以利用其丰富的库和框架,如Apache Lucene或Solr进行全文搜索和索引,或者使用NLP(自然语言处理)库如Stanford NLP或OpenNLP进行文本分析。 总之,这个Java程序是SEO工作流程中的...
filter用于过滤满足条件的行,join用于连接两个DataFrame,dropDuplicates用于去除重复行。因此,答案为C.intersect。 8. HBase表创建必要参数:HBase的createTable方法用于创建表,并且必须传入表名和列族这两个...
此外,全文搜索引擎如Elasticsearch或Solr,能够对文本数据进行高级查询,提供快速的模糊匹配和多字段搜索能力。 在**Jupyter Notebook**方面,它是Python开发者常用的一个工具,允许用户创建包含代码、文本、图像...