solr中的dismax解析器 -

suichangkele

浏览: 204534 次
性别:
来自: 北京

最近访客更多访客>>

jieyuan_cg

z9780420

jzhfmm

geeksun

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

solr中的dismax解析器

博客分类：

solr

solr dismax

之前一直用dismax，但是一直没有看看他到底是怎么实现的，今天终于看了一遍源码，记个笔记，方便以后查阅。

当我们使用defType=dismax的时候就会使用到DisMaxQParser这个类，他是一个QParser，用于根据用户的输入解析为一个Query类的实例。我们看看他的解析方法：

  @Override
  public Query parse() throws SyntaxError {
      parsed = true;
      SolrParams solrParams = SolrParams.wrapDefaults(localParams, params);// 将localParams域params合并。优先使用localParams
    
      queryFields = parseQueryFields(req.getSchema(), solrParams);//获得所有的qf，即要匹配的域已经各个域的boost，queryFields是个map,key是String，value是float。
    
      /*
       * the main query we will execute. we disable the coord because this query is an artificial construct
       */
      BooleanQuery query = new BooleanQuery(true);//最后形成的BooleanQuery,
    
      boolean notBlank = addMainQuery(query, solrParams);//向最后的BooleanQuery中添加mainQuery，mainQuery包含两部分，一个是匹配的qf，一个是匹配的pf，等会再看
      if (!notBlank) return null;
      addBoostQuery(query, solrParams);//向最后的booleanQuery中添加boostQuery，用于提高某些文档的得分
      addBoostFunctions(query, solrParams);//向最后的booleaQuery中添加boostFunction的query，用于提高某些文档的得分
    
      return query;
  }

下面我们一个一个方法的来看：

1、addMainQuery：

 protected boolean addMainQuery(BooleanQuery query, SolrParams solrParams) throws SyntaxError {
    
    Map<String,Float> phraseFields = SolrPluginUtils.parseFieldBoosts(solrParams.getParams(DisMaxParams.PF));//获得pf的域以及每个域的boost
    float tiebreaker = solrParams.getFloat(DisMaxParams.TIE, 0.0f);//获得参数中的tie，也就是disjunctionMaxQuery中的tie，用于计算最后的得分。默认是0.0f，也就是只关心最大的得分，不关心其他的得分。
    
    /*
     * a parser for dealing with user input, which will convert things to DisjunctionMaxQueries
     */
    SolrPluginUtils.DisjunctionMaxQueryParser up = getParser(queryFields, DisMaxParams.QS, solrParams, tiebreaker);//这个是解析queryFields的queryParser，也即是产生由参数中的查询字符串和qf以及qs（query slope)形成的query的queryParser。
    
    /* for parsing sloppy phrases using DisjunctionMaxQueries */
    SolrPluginUtils.DisjunctionMaxQueryParser pp = getParser(phraseFields, DisMaxParams.PS, solrParams, tiebreaker);//这个和上面的up差不多，只不过他是产生由查询字符串，phraseFields，以及ps(phrase fileds)形成的query的queryParser。
    
    /* * * Main User Query * * */
    parsedUserQuery = null;
    String userQuery = getString();//前台输入的字符串。
    altUserQuery = null;
    if (userQuery == null || userQuery.trim().length() < 1) {// 优先使用q，如果没有则使用q.alt。之后的逻辑和使用userQuery的逻辑一样。
      // If no query is specified, we may have an alternate
      altUserQuery = getAlternateUserQuery(solrParams);
      if (altUserQuery == null) return false;
      query.add(altUserQuery, BooleanClause.Occur.MUST);
    } else {
      // There is a valid query string
      userQuery = SolrPluginUtils.partialEscape(SolrPluginUtils.stripUnbalancedQuotes(userQuery)).toString();//删除不对称的引号（逻辑是如果是奇数个引号，则将引号全部删了），然后过滤特殊字符(比如*、:、！、@、（、{，【，[)，只保留" + -。
从这里可以看出，使用*:*是什么也搜不到的，也就是他不支持luceneQParser的普通的功能，仅仅支持+、-两个特殊的字符。
      userQuery = SolrPluginUtils.stripIllegalOperators(userQuery).toString();//删掉过多的+、-
      
      parsedUserQuery = getUserQuery(userQuery, up, solrParams);//用up这个queryParser解析成query，并设置mm这个属性（也就是如果在查询字符串中有用空格分开的字符串的话，对于optional的booleanClause必须要满足的个数），因为可能parsdUserQuery是一个booleanquery
      query.add(parsedUserQuery, BooleanClause.Occur.MUST);//将解析的parsedUserQuery添加到最后的query中，设置为must，即必须出现。
      
      Query phrase = getPhraseQuery(userQuery, pp);//这个和上面的getUserQuery是一样的，只不过没有设置mm的步骤。
      if (null != phrase) {
        query.add(phrase, BooleanClause.Occur.SHOULD);//如果有phrase，则添加到最后的booleanQuery中，设置为optional的，即仅仅用于将那些匹配的document提高得分。
      }
    }
    return true;
  }

2、addBoostQuery：

  protected void addBoostQuery(BooleanQuery query, SolrParams solrParams) throws SyntaxError {
    boostParams = solrParams.getParams(DisMaxParams.BQ);//从请求参数中获得bq
    boostQueries = null;
    if (boostParams != null && boostParams.length > 0) {
      boostQueries = new ArrayList<>();//最后形成的boost query。
      for (String qs : boostParams) {
        if (qs.trim().length() == 0) continue;
        Query q = subQuery(qs, null).getQuery();//这个是使用默认的queryParser对qs进行解析，解析为一个query，默认的queryParser即QParserPlugin中的LuceneQParserPlugin。
        boostQueries.add(q);//
      }
    }
//下面是将上面形成的boost query添加到最终的booleanquery中去，用于提高命中的document的得分。
    if (null != boostQueries) {
      if (1 == boostQueries.size() && 1 == boostParams.length) {//如果生成的boostquery仅仅有一个子query
        Query f = boostQueries.get(0);
        if (1.0f == f.getBoost() && f instanceof BooleanQuery) {
          /*
           * if the default boost was used, and we've got a BooleanQuery extract the subqueries out and use them
           * directly
           */
          for (Object c : ((BooleanQuery) f).clauses()) {
            query.add((BooleanClause) c);
          }
        } else {
          query.add(f, BooleanClause.Occur.SHOULD);
        }
      } else {
        for (Query f : boostQueries) {
          query.add(f, BooleanClause.Occur.SHOULD);
        }
      }
    }
  }

3、addFunctionQuery

  protected void addBoostFunctions(BooleanQuery query, SolrParams solrParams) throws SyntaxError {
    String[] boostFuncs = solrParams.getParams(DisMaxParams.BF);//获得bf参数，即函数查询的参数，
    if (null != boostFuncs && 0 != boostFuncs.length) {
      for (String boostFunc : boostFuncs) {
        if (null == boostFunc || "".equals(boostFunc)) continue;
        Map<String,Float> ff = SolrPluginUtils.parseFieldBoosts(boostFunc);
        for (String f : ff.keySet()) {
          Query fq = subQuery(f, FunctionQParserPlugin.NAME).getQuery();//指定了解析器
          Float b = ff.get(f);
          if (null != b) {
            fq.setBoost(b);
          }
          query.add(fq, BooleanClause.Occur.SHOULD);//将解析的query作为一个optional的添加到最终的query中
        }
      }
    }
  }

就这样就看完了dismax，qf，qs是限定要获取的数据的，体现在他在最终的booleanQuery中是must，pf 、ps是用来增加命中的得分的，一般都是将ps设置的比qs大得多，bq也是用来增加命中的document的得分的，bf同样如此。

分享到：

solr中schema.xml中域的omitNorm属性 | juc-ThreadPoolExecutor线程池总结

2017-04-22 16:07
浏览 1390
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr中的dismax解析器

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr中的dismax解析器

评论

发表评论

相关推荐

solr的facet源码解读（四）——facet.field之非数字单值域类型

solr的facet源码解读（三）——facet.field之数字单值域类型

solr的facet源码解读（二）——facet.field

lucene中关于正向信息的获取——FielldCache

solr的facet源码解读（一）——facet.query

solr(lucene)的reRank的核心实现源码解读

solr中的filterCache使用场景源码解读

solr(lucene)中的value source

关于functionQuery的一个误区

solr的主从复制实现原理

solr VS es

solr中的reload

solr中schema.xml中域的omitNorm属性

solr中的同义词配置以及关键源码解读

如何查看solr中cache的使用情况

solr中与SolrIndexSearcher相关的其他配置

solr中的SolrEventListener以及cache统计信息的获得

solr的warm

solr的cache在SolrIndexSearcher中的使用

solr中的cache的实现原理

最近访客更多访客>>