`
wbj0110
  • 浏览: 1612273 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

如何定制搜索服务,扩展搜索逻辑

    博客分类:
  • Solr
阅读更多

solr是一个可扩展的服务,我们可以添加自己的包和类,在solr已经实现的default处理逻辑之上,再添加我们自己的搜索逻辑。实现手段就是继承solr的基础类,重写或者改写新的FilterSearch Component以及Request Handler类,来取代solr默认的处理类或者与之并存

 

Request Handler

solrconfig.xml里,对/select设置的默认处理类是solr.SearchHandler

 

  <requestHandler name="/select" class="solr.SearchHandler">
     <lst name="defaults">
       <str name="echoParams">explicit</str>
       <int name="rows">10</int>
       <str name="df">usergoods_mix</str>
     </lst>
  </requestHandler>

源码中,SearchHandler类在org.apache.solr.handler.component包下,继承了RequestHandlerBase类,他最主要的逻辑在handleRequestBody函数中,

 

 

  @Override
  public void handleRequestBody(SolrQueryRequest req, SolrQueryResponse rsp) throws Exception, ParseException, InstantiationException, IllegalAccessException
  {}

SearchHandler还有一个主要的成员变量

 

 

protected List<SearchComponent> components = null;

SearchHandler主要职责是借助solrconfig.xml配置文件里设置的默认或者新增的requestHandler参数以及search component类,构建一个ResponseBuilder

 

 

ResponseBuilder rb = new ResponseBuilder(req, rsp, components);

根据配置把各个search component该做的事都分配好,search component是真正读取处理SolrQueryRequest内的查询参数,往SolrQueryResponse里填写数据的地方。下面会再介绍search component的两个prepare()和process()函数。

 

 

定制Request Handler

默认的request handler直接得到你http里url带来的传参,然后就开始根据配置分发任务,让各自的component去处理查询请求了。定制request handler的好处是,在这个步骤之中,你可以再额外进行一些别的逻辑处理,比如你可以写写log,在得到SolrQueryRequest后,传入前查看处理一下里面的query,对SolrQueryResponse里得到的数据集再做些处理等等。定制方式是自己继承StandardRequestHandler类(该类继承了SearchHandler),

 

 

package myplugin.handler;

import org.apache.solr.handler.StandardRequestHandler;
import org.apache.solr.request.SolrQueryRequest;
import org.apache.solr.response.SolrQueryResponse;

public class MySearchHandler extends StandardRequestHandler {
	public void handleRequestBody(SolrQueryRequest request,
			SolrQueryResponse response) throws Exception {
		super.handleRequestBody(request, response);
		//TODO: whatever you want
	}
}

并在solrconfig.xml里配置即可起效。

  <requestHandler name="/test" class="myplugin.handler.MySearchHandler">
    <lst name="defaults">
      <str name="echoParams">explicit</str>
      <int name="rows">10</int>
      <str name="df">usergoods_mix</str>
    </lst>
  </requestHandler>

别忘了把自己的jar包放到webapp/的WEB-INF的lib目录下。solr也为我们定制了别的handler,比如DisMaxRequestHandler,LukeRequestHandler,MoreLikeThisHandler

 

和SpellCheckerRequestHandler等等。大家可以自己看看源码,知道他们分别做什么。都在org.apache.solr.handler内。

 

Search Component

search component的意义远比handler重要的多。solr已经在solrconfig.xml给我们定制了几个默认的component

 

       <searchComponent name="query"     class="solr.QueryComponent" />
       <searchComponent name="facet"     class="solr.FacetComponent" />
       <searchComponent name="mlt"       class="solr.MoreLikeThisComponent" />
       <searchComponent name="highlight" class="solr.HighlightComponent" />
       <searchComponent name="stats"     class="solr.StatsComponent" />
       <searchComponent name="debug"     class="solr.DebugComponent" />

一般处理我们查询请求的一定避免不了第一个query component。阅读源码发现,所有这些类都继承SearchComponent。所以我们定制的时候也要继承SearchComponent。

 

拿QueryComponent举例子说明search component的重要性,最重要的两个函数是

 

public class QueryComponent extends SearchComponent
{
  public static final String COMPONENT_NAME = "query";
  public void prepare(ResponseBuilder rb) throws IOException{}
  public void process(ResponseBuilder rb) throws IOException {}
  // ...
}

下面截取一段prepare里的代码说明QueryComponent是怎么读取SolrQueryRequest(res)里的内容,并最后把结果写进SolrQueryResponse(rsp)的。

 

 

public void process(ResponseBuilder rb) throws IOException
  {
    SolrQueryRequest req = rb.req;
    SolrQueryResponse rsp = rb.rsp;
    SolrParams params = req.getParams();
    if (!params.getBool(COMPONENT_NAME, true)) {
      return;
    }
    SolrIndexSearcher searcher = req.getSearcher();
    // ...

 

 

      DocListAndSet res = new DocListAndSet();
      res.docList = new DocSlice(0, docs, luceneIds, null, docs, 0);
      if (rb.isNeedDocSet()) {
        // TODO: create a cache for this!
        List<Query> queries = new ArrayList<Query>();
        queries.add(rb.getQuery());
        List<Query> filters = rb.getFilters();
        if (filters != null) queries.addAll(filters);
        res.docSet = searcher.getDocSet(queries);
      }
      rb.setResults(res);
      rsp.add("response",rb.getResults().docList);

对同一个request handler,可以按顺序配置多个search component,这些component会在handler类里各自得到自己的任务,把SolrQueryRequest和SolrQueryResponse传承下去,在这个过程中,我们可以加入自己的component,定制我们想要的搜索结果和搜索逻辑

 

 

定制search component

 

我简单把实现代码帖一下,主要还是通过继承基础类,最后配置到solrconfig.xml内。

 

package myplugin.component;

import java.io.IOException;

import org.apache.solr.handler.component.ResponseBuilder;
import org.apache.solr.handler.component.SearchComponent;


public class MySearchComponent extends SearchComponent {
	String query = null;
	@Override
	public void prepare(ResponseBuilder rb) throws IOException {
		query = rb.req.getParams().get("q", ""); 
		System.out.println("prepare: " + query);
	}

	@Override
	public void process(ResponseBuilder rb) throws IOException {
		if (query != null) {		
		rb.rsp.add("mytest", "zbf"); // <str name="mytest">zbf</str>
			//SimpleOrderedMap map = (SimpleOrderedMap) builder.rsp.getValues();
			//DocList doclist = (DocList) map.get("response");			
//			System.out.println("process: " + map.get("response").toString());
//			System.out.println("process: " + map.get("mytest").toString());
		}
	}

	@Override
	public String getDescription() {
		return "MySearchComponent";
	}

	@Override
	public String getSource() {
		return "";
	}

	@Override
	public String getSourceId() {
		return "";
	}

	@Override
	public String getVersion() {
		return "0.1";
	}
}

主要就是在prepare()里获取到SolrQueryRequest里的查询query,在process()里自己处理,并且获取到前一次component处理得到的SolrQueryResponse,里面可能会有已经排好序的查询数据集,你也可以做一些二次处理,简单过滤,重新排序等事情

 

 

  <requestHandler name="/test" class="myplugin.handler.MySearchHandler">
    <lst name="defaults">
      <str name="echoParams">explicit</str>
      <int name="rows">10</int>
      <str name="df">usergoods_mix</str>
    </lst>
    <arr name="components">
      <str>query</str>
      <str>myComponent</str>
    </arr>
  </requestHandler>
  <searchComponent name="myComponent" class="myplugin.component.MySearchComponent">
  </searchComponent>

先声明自己的searchComponent,然后放入handler里使用起来,注意配置顺序,因为component是按顺序串接起来的。

 

 

定制Filter

最后简单说下Filter,他的作用就是如果你自己定制了Filter,你就可以按自己的方式处理字符串。比如你的查询query里传来的是“field:如何 定制 搜索服务”,如果你直接交给solr的api去做那么"如何"使用的是field字段,但是空格之后的word都会归结到default field里,这是solr包装了lucene的接口之后的结果,可能刚开始在组装自己的查询url的时候会不太适应,所以如果你定制一个自己的filter,就可以解决这样的问题。

定制Filter要继承两个类。其实在配置IKAnalyzer的时候大家可以看到

 

    <fieldType name="text_ik" class="solr.TextField">
        <analyzer type="index">
          <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"  isMaxWordLength="true"/>
          <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
          <filter class="solr.LowerCaseFilterFactory"/>
        </analyzer>
        <analyzer type="query">
           <!-- 同上 -->
        </analyzer>  
    </fieldType>

在tokenizer处使用一个类,在filter处使用一个Factory类。下面我举solr 3.1 cookbook上的例子说明一下。先是自己的filter类,

 

 

package pl.solr;
import java.io.IOException;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
public class ExampleFilter extends TokenFilter {
    private final TermAttribute termAttr = (TermAttribute) 
addAttribute(TermAttribute.class);     
    public ExampleFilter(TokenStream stream) {
        super(stream);
    }     
    @Override
    public boolean incrementToken() throws IOException {
        if (input.incrementToken()) {
            String term = termAttr.term();
            if (term.length() <= 1) {
                return true;
            }
            StringBuffer buffer = new StringBuffer();
             buffer.append(term.charAt(1)).append(term.charAt(0)).
append(term.substring(2));             
            termAttr.setTermBuffer(buffer.toString());
            termAttr.setTermLength(buffer.length());
            return true;
        }
        return false;
    }
}

然后是工厂类,

 

 

package pl.solr;
import org.apache.lucene.analysis.TokenStream;
import org.apache.solr.analysis.BaseTokenFilterFactory;
public class ExampleFilterFactory extends BaseTokenFilterFactory {
    @Override
    public TokenStream create(TokenStream stream) {
        return new ExampleFilter(stream);
    }
}

最后是配置文件:

<fieldtype name="exampleType" stored="true" indexed="true" 
class="solr.TextField" >
 <analyzer>
  <tokenizer class="solr.WhitespaceTokenizerFactory" />
  <filter class="pl.solr.ExampleFilterFactory" />
 </analyzer>
</fieldtype>

http://www.myexception.cn/internet/1165252.html

 
微信公众号:
分享到:
评论

相关推荐

    Linux 中 LVM 逻辑扩展、磁盘空间大小调整.docx

    3. **扩展文件系统**:最后,使用`resize2fs -p /dev/mapper/vg_test-lv_root`命令扩展`/`根分区的文件系统大小,使其占用新增加的逻辑卷空间。 执行完这些步骤后,`/home`分区将被设定为5GB,而`/`根分区将被扩展...

    kindeditor-在线搜索扩展

    在线搜索功能的添加意味着开发者需要深入理解KindEditor的API,并对其进行扩展,以实现新的交互逻辑,如触发搜索、处理返回的数据和将搜索结果插入编辑框等。 2. **Ajax异步请求**:在线搜索功能的实现通常涉及到...

    NC65搜索服务器使用指南.docx

    通过对搜索服务器的合理部署和配置,不仅可以有效分离业务逻辑与搜索功能,还能极大程度地优化资源利用,从而更好地满足企业对高效搜索服务的需求。在实际部署过程中,需要注意遵循官方文档的指导,并结合实际情况...

    ext定制:搜索框

    根据提供的文件信息,我们可以深入探讨如何在Ext JS中定制搜索框(`Ext.app.SearchField`),并实现一个美观且功能强大的搜索组件。 ### 标题:Ext定制:搜索框 此标题简明扼要地表达了文章的核心内容——如何在...

    ElasticSearch+Spark 构建高相关性搜索服务,千人千面推荐系统

    在现代互联网应用中,提供个性化、高相关性的搜索服务和推荐系统已经成为关键的竞争优势。本主题将深入探讨如何利用Elasticsearch和Spark两大技术构建这样的系统,旨在为用户提供更加精准、个性化的信息匹配。 **...

    VS2010扩展管理实用工具

    3. **搜索扩展**:右侧提供了搜索框,用户可以根据关键词快速找到感兴趣的扩展。 #### 常用扩展介绍 接下来,我们将详细介绍几个对开发工作特别有帮助的扩展: 1. **代码高亮扩展**:此扩展允许用户在选择代码时...

    人工智能课件:第三章 谓词逻辑与搜索原理.pdf

    * 广度优先搜索:从起点开始,逐层扩展搜索,直到找到目标状态。 * 深度优先搜索:从起点开始,逐步深入搜索,直到找到目标状态。 * A\*搜索算法:一种启发式搜索算法,通过估算距离来选择下一步的搜索方向。 本...

    文件传输服务(可搜索文件)python.zip

    2. **搜索逻辑**:遍历服务器的文件系统,根据关键词进行匹配,返回匹配的文件名列表。 3. **反馈结果**:将搜索结果编码为FTP服务器能理解的格式(如ASCII文本),并通过`FTPHandler`发送回客户端。 下载功能则...

    论文研究-基于扩展区间时序逻辑的规范程序自动验证 .pdf

    根据给定文件的内容,我们可以看出这篇论文研究的是基于扩展区间时序逻辑(Extended Interval Temporal Logic, EITL)的规范程序自动验证方法。在讨论这个主题之前,我们先理解几个关键概念: 1. 扩展区间时序逻辑...

    人工智能-项目实践-搜索引擎-基于solrj开发solr主从搜索引擎服务的dubbo组件

    将Solr搜索引擎服务包装为Dubbo服务,可以实现跨服务的搜索请求,提升系统的扩展性和灵活性。 在实际开发过程中,我们需要完成以下步骤: 1. 配置Solr服务器:安装Solr,设置主从复制策略,确保索引数据能够在主从...

    专业搜索应用程序的交互式查询扩展_Interactive query expansion for professional se

    在专业搜索应用中,交互式查询扩展(Interactive Query Expansion, IQE)是提高搜索效率和准确性的关键技术。本文由Tony Russell-Rose、Phil Gooch和Udo Kruschwitz等人共同研究,探讨了如何在知识工作者如医疗信息...

    bayard:用Rust编写的全文本搜索和索引服务器

    Bayard是一款高效、轻量级的全文本搜索引擎和索引服务器,它由Rust编程语言开发,以提供快速、安全以及高度可定制的搜索服务。Rust的内存安全特性和高性能特性使得Bayard在处理大量数据和高并发请求时表现出色。 ##...

    逻辑编程 prolog

    2. **谓词逻辑**:也称为关系逻辑,扩展了命题逻辑的概念,能够处理更为复杂的逻辑表达式,包括变量、函数和谓词等。这是逻辑编程中最为重要的概念之一。 3. **全逻辑**:涵盖了所有可能的逻辑形式,包括但不限于...

    Axure9谷歌扩展程序

    这个扩展程序的安装非常简单,只需要在谷歌浏览器的Chrome Web Store中搜索并安装即可。一旦安装完成,用户可以直接在浏览器中打开由Axure9生成的.html文件,无需预先安装Axure软件本身。这对于设计师分享原型以及...

    网盘搜索引擎v1.3,网盘搜索引擎入口,PHP

    《全面解析:网盘搜索引擎v1.3与PHP技术应用》 ...通过深入理解PHP编程语言及其在网络开发中的应用,我们可以更好地理解和评估这款工具的实现原理,甚至进一步对其进行定制和扩展,满足更多特定需求。

    关于HPUX服务器逻辑卷至文件系统调整说明文档.pdf

    6. 扩展逻辑卷:扩展逻辑卷涉及多个步骤,包括卸载逻辑卷所在的文件系统(使用`umount`命令),使用`lvextend`命令增加逻辑卷的大小,然后使用`extendfs`命令调整文件系统的大小以匹配新的逻辑卷大小,最后重新挂载...

    chrome 右键菜单扩展源代码,context search

    1. **options.css** 和 **options.html**:通常用于设置扩展的配置页面,用户在这里可以定制扩展的参数,如搜索引擎的选择。 2. **background.html** 和 **background.js**:后台脚本,运行在浏览器后台,负责处理...

    开源 CHROME 多搜索 右键菜单

    标题 "开源 CHROME 多搜索 右键菜单" 指的是一个针对谷歌浏览器(Chrome)的开源扩展程序,它增强了浏览器的右键菜单功能,让用户在点击右键时能够选择多个搜索引擎进行搜索,而不仅仅是默认的谷歌搜索。这个扩展...

Global site tag (gtag.js) - Google Analytics