solr的cache在SolrIndexSearcher中的使用 -

suichangkele

浏览: 203708 次
性别:
来自: 北京

最近访客更多访客>>

jieyuan_cg

z9780420

jzhfmm

geeksun

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

solr的cache在SolrIndexSearcher中的使用

博客分类：

solr

solr cache

先说一下，我使用的sorl的版本是5.5.3

上一个博客说完了solr中的cache，只是介绍了他的实现原理以及配置，并没有发现程序是如何使用他的，这个博客就是说这个，SolrIndexSearcher中对cache的使用。先说一下SolrIndexSearcher，这个就是对lucene的indexSearcher的封装，然后再查询的时候先从缓存中查，如果没有再从lucene中查找，然后放到cache中，

在这个类中的cache的意思为：

1、filterCache:key是query,value是docSet，即对应的倒排表，但是他是无序的，很好理解，可能存在key是booleanQuery（包含多个query)，value是对应的倒排表，但是是没有排序的，这个用来做不排序时候的缓存（几乎不用），更多的是做docSet的来源（当facet的时候会很有用）。

2、queryResultCache：key是根据query、filterquery、sort封装的对象，value是结果，即最终要返回给前端的结果

3、documentCache：对应于lucene的doc(int id)方法的返回结果，只不过这个是从缓存中查找。

4、fieldValueCache：这个我暂时没有搞懂他的用处，在solrConfig的构造器中可以发现即使在配置中没有配置也会自动创建一个。

我们看看他的search方法：

  public QueryResult search(QueryResult qr, QueryCommand cmd) throws IOException {
    getDocListC(qr,cmd);//调用的是getDocListC，C就是cache的意思，即优先从缓存中查找结果。
    return qr;
  }

所以最终的就是这个getDocListC方法：

 private void getDocListC(QueryResult qr, QueryCommand cmd) throws IOException {
    DocListAndSet out = new DocListAndSet();//有的查询不仅仅是要docList，即排好序的doc，也需要docSet，即一个集合，比如在做facet的时候就需要这个。
    qr.setDocListAndSet(out);
    QueryResultKey key=null;
    int maxDocRequested = cmd.getOffset() + cmd.getLen();//一共需要多少doc，即偏移量+rows。
    // check for overflow, and check for # docs in index
    if (maxDocRequested < 0 || maxDocRequested > maxDoc()) maxDocRequested = maxDoc();
    int supersetMaxDoc= maxDocRequested;
    DocList superset = null;

    int flags = cmd.getFlags();//这个flag是根据我们查询时的参数定义的。
    Query q = cmd.getQuery();
    if (q instanceof ExtendedQuery) {//一般的查询不会进入if
      ExtendedQuery eq = (ExtendedQuery)q;
      if (!eq.getCache()) {
        flags |= (NO_CHECK_QCACHE | NO_SET_QCACHE | NO_CHECK_FILTERCACHE);
      }
    }
   //如果这个SolrIndexSearcher是带有缓存的并且此次查询没有指定docSet的filter（并不是我们在查询时的fq），并且没有进制使用cache和更新cache。
    if (queryResultCache != null && cmd.getFilter()==null
        && (flags & (NO_CHECK_QCACHE|NO_SET_QCACHE)) != ((NO_CHECK_QCACHE|NO_SET_QCACHE)))
    {
        // all of the current flags can be reused during warming,
        // so set all of them on the cache key.
        key = new QueryResultKey(q, cmd.getFilterList(), cmd.getSort(), flags);//封装此次的query、filter、sort进入queryKey，即在缓存中的key。
        if ((flags & NO_CHECK_QCACHE)==0) {//如果没有禁止使用cache
          superset = queryResultCache.get(key);//此处使用了queryResultCache，即根据查询的query、filter、sort来查询，

          if (superset != null) {//cache中有命中
            if ((flags & GET_SCORES)==0 || superset.hasScores()) {//如果请求中没有要求计算分数或者是之前在缓存中的结果已经时计算得分的了，即一定会满足我们的要求
              out.docList = superset.subset(cmd.getOffset(),cmd.getLen());//根据查询的要求，从中选择一部分，根据偏移量（start）和rows来选取要返回的结果（结果是docList，还没有涉及到docSet)
            }
          }
         //上面的可能因为start（即偏移量太大）而没有结果(因为queryKey不包含start和rows），或者根本就没有进入if(superset != null）而没有结果，即docList==null

          if (out.docList != null) {//如果上面的操作有了结果。
            if (out.docSet==null && ((flags & GET_DOCSET)!=0) ) {//需要获得docSet
              if (cmd.getFilterList()==null) {
                out.docSet = getDocSet(cmd.getQuery());//getDocSet中就使用了filterQuery,等会再看。
              } else {
                List<Query> newList = new ArrayList<>(cmd.getFilterList().size()+1);
                newList.add(cmd.getQuery());
                newList.addAll(cmd.getFilterList());
                out.docSet = getDocSet(newList);
              }
            }
            return;
          }
        }
      if ((flags & NO_SET_QCACHE) == 0) {
        if (maxDocRequested < queryResultWindowSize) {//queryResultWindowSize在solrConf.xml中也有配置，因为要做缓存，这个值指定每一次从索引中至少查找的最小值，这样在前几页浏览的时候就不用从索引中再次查找了。
          supersetMaxDoc=queryResultWindowSize;
        } else {
          supersetMaxDoc = ((maxDocRequested -1)/queryResultWindowSize + 1)*queryResultWindowSize;//这么做的理由是将要查询的doc的数量变为queryResultWindowSize的倍数。
          if (supersetMaxDoc < 0) supersetMaxDoc=maxDocRequested;
        }
      } else {
        key = null;  // we won't be caching the result
      }
    }
    cmd.setSupersetMaxDoc(supersetMaxDoc);

    //走到这里说明上面没有命中缓存或者即使命中了但是没有指定的部分（比如start太大），所以必须要从索引中查找了
    boolean useFilterCache=false;//能不能使用filterCache作为返回结果，前提是不排序，因为filterCache是没有排序的
    if ((flags & (GET_SCORES|NO_CHECK_FILTERCACHE))==0 && useFilterForSortedQuery && cmd.getSort() != null && filterCache != null) {//如果满足这一堆条件，useFilterForSortedQuery默认是不满足的，通常情况下也会使用得分排序，所以这个不满足
      useFilterCache=true;
      SortField[] sfields = cmd.getSort().getSort();
      for (SortField sf : sfields) {
        if (sf.getType() == SortField.Type.SCORE) {
          useFilterCache=false;
          break;
        }
      }
    }
    if (useFilterCache) {//几乎都不满足这个
      if (out.docSet == null) {
        out.docSet = getDocSet(cmd.getQuery(),cmd.getFilter());
        DocSet bigFilt = getDocSet(cmd.getFilterList());
        if (bigFilt != null) out.docSet = out.docSet.intersection(bigFilt);
      }
      sortDocSet(qr, cmd);
    } else {
      // do it the normal way...
      if ((flags & GET_DOCSET)!=0) {
        DocSet qDocSet = getDocListAndSetNC(qr,cmd);//NC,即not cache，即从索引中查找docSet和docList
        //存放的是query的docSet，是没有filter的
        if (qDocSet!=null && filterCache!=null && !qr.isPartialResults()) filterCache.put(cmd.getQuery(),qDocSet);//filterCache中存放的是query+docSet,是不排序的，
      } else {
        getDocListNC(qr,cmd);
      }
      assert null != out.docList : "docList is null";
    }

   //这中间有一段cursor的，由于没有接触cursor，所以删了这一部分。

    // lastly, put the superset in the cache if the size is less than or equal to queryResultMaxDocsCached
    if (key != null && superset.size() <= queryResultMaxDocsCached && !qr.isPartialResults()) {//queryResultMaxDocsCached 也是在solrConf中配置的，表示可以缓存的最大的doc的数量，如果太大就不能缓存了。
      queryResultCache.put(key, superset);//放入queryResultCache中去，key是封装的query、filter、sort的对象。
    }
  }

还有一个方法，即getDocSet,

  public DocSet getDocSet(Query query) throws IOException {
    if (query instanceof ExtendedQuery) {//不进入这个if
      ExtendedQuery eq = (ExtendedQuery)query;
      if (!eq.getCache()) {
        if (query instanceof WrappedQuery) {
          query = ((WrappedQuery)query).getWrappedQuery();
        }
        query = QueryUtils.makeQueryable(query);
        return getDocSetNC(query, null);
      }
    }

//将这个query变为正query，因为某些query可能是-name:james，即名字不是james的，要变为name:james
    Query absQ = QueryUtils.getAbs(query);
    boolean positive = query==absQ;
    if (filterCache != null) {
      DocSet absAnswer = filterCache.get(absQ);//尝试从filterCache中获得结果
      if (absAnswer!=null) {
        if (positive) return absAnswer;
        else return getPositiveDocSet(matchAllDocsQuery).andNot(absAnswer);
      }
    }

    DocSet absAnswer = getDocSetNC(absQ, null);//如果没有找到，则从索引中查找，
    DocSet answer = positive ? absAnswer : getPositiveDocSet(matchAllDocsQuery).andNot(absAnswer);

    if (filterCache != null) {//找到后放入到缓存中，可以发现filterQuery只是根据query进行的操作，不会有filter什么事情
      filterCache.put(absQ, absAnswer);
    }
    return answer;
  }

还有个cache，documentCache没有用到，这个就更简单了，在SolrIndexSearcher中有个doc方法，doc(int id)，里卖的实现就是先从这个documentCache中招，找不到再调用lucene的indexSearcher从索引中找

至此，已经完全搞懂三个缓存的意义了：

1、filterCache用于docSet，用于处理fq参数（在facet和group中也会用到它），如果在查询的时候开启了fq，就会查询这个fiterCache（这一部分的代码很多我没有贴）

2、queryResultCache：用于缓存根据query+filter+sort+flag组成的query进行缓存。与start和row无关

3、documentCache：用于缓存最后的document。

分享到：

solr的warm | solr中的cache的实现原理

2017-03-25 20:47
浏览 1192
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

打造高效集成工具箱：基于Python与Tkinter的实战开发教程: 在日常的开发和使用中，我们经常需要借助各种小工具来提高工作效率，例如快速启动常用的应用程序、管理文件等。一个简单但功能强大的集成工具箱可以帮助用户快速访问、启动并管理程序。今天，我们将以Python为基础，结合Tkinter和Win32API，开发一个类似Windows快捷方式的工具箱应用，能够让你轻松集成各种常用程序并一键启动

django自建博客app: django自建博客app

《基于YOLOv8的智慧校园实验室高压灭菌锅安全联锁系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 《基于YOLOv8的智慧校园实验室高压灭菌锅安全联锁系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计

用于hifi测序数据的基因组组装程序: 用于hifi测序数据的基因组组装程序

Microsoft Access 2010 数据库引擎可再发行程序包AccessDatabaseEngine-X64解压后的文件AceRedist: Microsoft Access 2010 数据库引擎可再发行程序包AccessDatabaseEngine-X64解压后的文件AceRedist

从大模型、智能体到复杂AI应用系统的构建-以产业大脑为例.pdf: 从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

自然语言处理之TF-IDF算法与TextRank算法的缠绵_textrank,tf-idf和两者的组合-CSDN博客.html: 自然语言处理之TF-IDF算法与TextRank算法的缠绵_textrank,tf-idf和两者的组合-CSDN博客.html

科学智能2023版《科学智能 (AI4S)全球发展观察与展望》：AI4S驱动的跨领域技术创新与应用: 内容概要：2023版《科学智能 (AI4S)全球发展观察与展望》阐述了AI for Science（AI4S）在全球范围内的最新进展及其对科学和工业的深远影响。文章首先回顾了AI4S在过去一年中的快速发展，特别是在药物研发、材料科学、地质学、污染治理等多个领域的应用实例。AI4S通过结合深度学习、机器学习和其他AI技术，加速了从基础研究到实际应用的转化过程。例如，在药物研发中，AI4S帮助科学家克服了“反摩尔定律”的挑战，提高了新药研发的成功率；在材料科学中，AI4S实现了复杂材料的高效模拟，如人造钻石、石墨烯、碳纳米管等；在地质学中，AI4S通过模拟地球内部结构和物理过程，为地震学研究提供了新视角。此外，文章还探讨了大语言模型（LLMs）与科学方法的结合，指出LLMs不仅能辅助科学研究，还能生成新的科学假设并进行逻辑推理。适合人群：具备一定科研背景或对AI技术感兴趣的科研人员、工程师、政策制定者及高校师生。

个人健康与健身追踪数据集，包含了日常步数统计、睡眠时长、活跃分钟数以及消耗的卡路里，适用于数据分析、机器学习: 这个数据集包含了日常步数统计、睡眠时长、活跃分钟数以及消耗的卡路里，是个人健康与健身追踪的一部分。该数据集非常适合用于以下实践：数据清洗：现实世界中的数据往往包含缺失值、异常值或不一致之处。例如，某些天的步数可能缺失，或者存在不切实际的数值（如10,000小时的睡眠或负数的卡路里消耗）。通过处理这些问题，可以学习如何清理和准备数据进行分析。探索性分析（发现日常习惯中的模式）：可以通过分析找出日常生活中的模式和趋势，比如一周中哪一天人们通常走得最多，或是睡眠时间与活跃程度之间的关系等。构建可视化图表（步数趋势、睡眠与活动对比图）：将数据转换成易于理解的图形形式，有助于更直观地看出数据的趋势和关联。例如，绘制步数随时间变化的趋势图，或是比较睡眠时间和活动量之间的关系图。数据叙事（将个人风格的追踪转化为可操作的见解）：通过讲述故事的方式，把从数据中得到的洞察变成具体的行动建议。例如，根据某人特定时间段内的活动水平和睡眠质量，提供改善健康状况的具体建议。

框架结构天城商业办公楼5200平米（建筑图结构图计算书开题报告任务书文献翻.zip: 框架结构天城商业办公楼5200平米（建筑图结构图计算书开题报告任务书文献翻.zip

柴油机连杆加工工艺及夹具设计.zip: 柴油机连杆加工工艺及夹具设计.zip

BeautifulSoup中的select方法汇总: 读书网首页的HTML信息

渐变色文字生成工具 v1.0一款让文字生成渐变颜色代码的软件文字渐变颜色代码生成器.rar: 文字渐变颜色代码生成器：让文字绽放多彩魅力，演示：在信息交流日益丰富的今天，个性化的文字展示成为吸引目光的关键。这款文字渐变颜色代码生成器，便是为满足这一需求而生的绿色软件，无需安装，便捷实用。它的操作极为简便。用户只需在软件界面中输入想要转换的文字内容，接着从丰富的色彩选项里挑选心仪的起始颜色与结束颜色，随后轻轻按下 “转换按钮”，神奇的事情就此发生 —— 适用于论坛、网页、QQ 空间等多种平台，以及自定义格式的渐变颜色代码便会即刻生成。不仅如此，生成的代码还能自动复制到剪切板，极大地节省了用户手动复制的时间。当你在论坛回帖、更新网页内容或是装扮 QQ 空间时，只需轻松粘贴代码，原本单调的文字瞬间就能拥有绚丽的渐变色彩，瞬间脱颖而出，为你的表达增添独特魅力，让文字不再平凡，轻松成为视觉焦点。一款可以轻松把一段文字生成渐变颜色代码的绿色软件,当你在软件中输入完要转换的文字后,只需要挑选自己喜欢的起始颜色、结束颜色后,按一下―转换按钮即可生成相应的论坛/网页/QQ空间以及自定义格式代码,并且代码可以自动复制到剪切板中,回帖时直接粘贴代码即可不错得文字代码生成器,让你得文字更加漂亮.

【锂电池剩余寿命预测】Transformer锂电池剩余寿命预测（Matlab完整源码和数据）: 1.【锂电池剩余寿命预测】Transformer锂电池剩余寿命预测（Matlab完整源码和数据） 2.数据集：NASA数据集，已经处理好，B0005电池训练、B0006测试； 3.环境准备：Matlab2023b，可读性强； 4.模型描述：Transformer在各种各样的问题上表现非常出色，现在被广泛使用。 5.领域描述：近年来，随着锂离子电池的能量密度、功率密度逐渐提升，其安全性能与剩余使用寿命预测变得愈发重要。本代码实现了Transformer在该领域的应用。 6.作者介绍：机器学习之心，博客专家认证，机器学习领域创作者，2023博客之星TOP50，主做机器学习和深度学习时序、回归、分类、聚类和降维等程序设计和案例分析，文章底部有博主联系方式。从事Matlab、Python算法仿真工作8年，更多仿真源码、数据集定制私信。

《基于YOLOv8的船舶压载水违规排放监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

《基于YOLOv8的港口船舶靠泊角度偏差预警系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

基于android的英语学习记单词软件设计与开发-终稿.zip: Android项目原生java语言课程设计，包含LW+ppt

支持Win7系统的Node 16.3.0版本: 配套文章：https://blog.csdn.net/gust2013/article/details/146909670?spm=1001.2014.3001.5502

《基于YOLOv8的智慧社区儿童游乐设施安全监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 《基于YOLOv8的智慧社区儿童游乐设施安全监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

solr的cache在SolrIndexSearcher中的使用

评论

发表评论

相关推荐

solr的facet源码解读（四）——facet.field之非数字单值域类型

solr的facet源码解读（三）——facet.field之数字单值域类型

solr的facet源码解读（二）——facet.field

lucene中关于正向信息的获取——FielldCache

solr的facet源码解读（一）——facet.query

solr(lucene)的reRank的核心实现源码解读

solr中的filterCache使用场景源码解读

solr(lucene)中的value source

关于functionQuery的一个误区

solr的主从复制实现原理

solr VS es

solr中的reload

solr中schema.xml中域的omitNorm属性

solr中的dismax解析器

solr中的同义词配置以及关键源码解读

如何查看solr中cache的使用情况

solr中与SolrIndexSearcher相关的其他配置

solr中的SolrEventListener以及cache统计信息的获得

solr的warm

solr中的cache的实现原理

最近访客更多访客>>