先说一下,我使用的sorl的版本是5.5.3
上一个博客说完了solr中的cache,只是介绍了他的实现原理以及配置,并没有发现程序是如何使用他的,这个博客就是说这个,SolrIndexSearcher中对cache的使用。先说一下SolrIndexSearcher,这个就是对lucene的indexSearcher的封装,然后再查询的时候先从缓存中查,如果没有再从lucene中查找,然后放到cache中,
在这个类中的cache的意思为:
1、filterCache:key是query,value是docSet,即对应的倒排表,但是他是无序的,很好理解,可能存在key是booleanQuery(包含多个query),value是对应的倒排表,但是是没有排序的,这个用来做不排序时候的缓存(几乎不用),更多的是做docSet的来源(当facet的时候会很有用)。
2、queryResultCache:key是根据query、filterquery、sort封装的对象,value是结果,即最终要返回给前端的结果
3、documentCache:对应于lucene的doc(int id)方法的返回结果,只不过这个是从缓存中查找。
4、fieldValueCache:这个我暂时没有搞懂他的用处,在solrConfig的构造器中可以发现即使在配置中没有配置也会自动创建一个。
我们看看他的search方法:
public QueryResult search(QueryResult qr, QueryCommand cmd) throws IOException { getDocListC(qr,cmd);//调用的是getDocListC,C就是cache的意思,即优先从缓存中查找结果。 return qr; }
所以最终的就是这个getDocListC方法:
private void getDocListC(QueryResult qr, QueryCommand cmd) throws IOException { DocListAndSet out = new DocListAndSet();//有的查询不仅仅是要docList,即排好序的doc,也需要docSet,即一个集合,比如在做facet的时候就需要这个。 qr.setDocListAndSet(out); QueryResultKey key=null; int maxDocRequested = cmd.getOffset() + cmd.getLen();//一共需要多少doc,即偏移量+rows。 // check for overflow, and check for # docs in index if (maxDocRequested < 0 || maxDocRequested > maxDoc()) maxDocRequested = maxDoc(); int supersetMaxDoc= maxDocRequested; DocList superset = null; int flags = cmd.getFlags();//这个flag是根据我们查询时的参数定义的。 Query q = cmd.getQuery(); if (q instanceof ExtendedQuery) {//一般的查询不会进入if ExtendedQuery eq = (ExtendedQuery)q; if (!eq.getCache()) { flags |= (NO_CHECK_QCACHE | NO_SET_QCACHE | NO_CHECK_FILTERCACHE); } } //如果这个SolrIndexSearcher是带有缓存的并且此次查询没有指定docSet的filter(并不是我们在查询时的fq),并且没有进制使用cache和更新cache。 if (queryResultCache != null && cmd.getFilter()==null && (flags & (NO_CHECK_QCACHE|NO_SET_QCACHE)) != ((NO_CHECK_QCACHE|NO_SET_QCACHE))) { // all of the current flags can be reused during warming, // so set all of them on the cache key. key = new QueryResultKey(q, cmd.getFilterList(), cmd.getSort(), flags);//封装此次的query、filter、sort进入queryKey,即在缓存中的key。 if ((flags & NO_CHECK_QCACHE)==0) {//如果没有禁止使用cache superset = queryResultCache.get(key);//此处使用了queryResultCache,即根据查询的query、filter、sort来查询, if (superset != null) {//cache中有命中 if ((flags & GET_SCORES)==0 || superset.hasScores()) {//如果请求中没有要求计算分数或者是之前在缓存中的结果已经时计算得分的了,即一定会满足我们的要求 out.docList = superset.subset(cmd.getOffset(),cmd.getLen());//根据查询的要求,从中选择一部分,根据偏移量(start)和rows来选取要返回的结果(结果是docList,还没有涉及到docSet) } } //上面的可能因为start(即偏移量太大)而没有结果(因为queryKey不包含start和rows),或者根本就没有进入if(superset != null)而没有结果,即docList==null if (out.docList != null) {//如果上面的操作有了结果。 if (out.docSet==null && ((flags & GET_DOCSET)!=0) ) {//需要获得docSet if (cmd.getFilterList()==null) { out.docSet = getDocSet(cmd.getQuery());//getDocSet中就使用了filterQuery,等会再看。 } else { List<Query> newList = new ArrayList<>(cmd.getFilterList().size()+1); newList.add(cmd.getQuery()); newList.addAll(cmd.getFilterList()); out.docSet = getDocSet(newList); } } return; } } if ((flags & NO_SET_QCACHE) == 0) { if (maxDocRequested < queryResultWindowSize) {//queryResultWindowSize在solrConf.xml中也有配置,因为要做缓存,这个值指定每一次从索引中至少查找的最小值,这样在前几页浏览的时候就不用从索引中再次查找了。 supersetMaxDoc=queryResultWindowSize; } else { supersetMaxDoc = ((maxDocRequested -1)/queryResultWindowSize + 1)*queryResultWindowSize;//这么做的理由是将要查询的doc的数量变为queryResultWindowSize的倍数。 if (supersetMaxDoc < 0) supersetMaxDoc=maxDocRequested; } } else { key = null; // we won't be caching the result } } cmd.setSupersetMaxDoc(supersetMaxDoc); //走到这里说明上面没有命中缓存或者即使命中了但是没有指定的部分(比如start太大),所以必须要从索引中查找了 boolean useFilterCache=false;//能不能使用filterCache作为返回结果,前提是不排序,因为filterCache是没有排序的 if ((flags & (GET_SCORES|NO_CHECK_FILTERCACHE))==0 && useFilterForSortedQuery && cmd.getSort() != null && filterCache != null) {//如果满足这一堆条件,useFilterForSortedQuery默认是不满足的,通常情况下也会使用得分排序,所以这个不满足 useFilterCache=true; SortField[] sfields = cmd.getSort().getSort(); for (SortField sf : sfields) { if (sf.getType() == SortField.Type.SCORE) { useFilterCache=false; break; } } } if (useFilterCache) {//几乎都不满足这个 if (out.docSet == null) { out.docSet = getDocSet(cmd.getQuery(),cmd.getFilter()); DocSet bigFilt = getDocSet(cmd.getFilterList()); if (bigFilt != null) out.docSet = out.docSet.intersection(bigFilt); } sortDocSet(qr, cmd); } else { // do it the normal way... if ((flags & GET_DOCSET)!=0) { DocSet qDocSet = getDocListAndSetNC(qr,cmd);//NC,即not cache,即从索引中查找docSet和docList //存放的是query的docSet,是没有filter的 if (qDocSet!=null && filterCache!=null && !qr.isPartialResults()) filterCache.put(cmd.getQuery(),qDocSet);//filterCache中存放的是query+docSet,是不排序的, } else { getDocListNC(qr,cmd); } assert null != out.docList : "docList is null"; } //这中间有一段cursor的,由于没有接触cursor,所以删了这一部分。 // lastly, put the superset in the cache if the size is less than or equal to queryResultMaxDocsCached if (key != null && superset.size() <= queryResultMaxDocsCached && !qr.isPartialResults()) {//queryResultMaxDocsCached 也是在solrConf中配置的,表示可以缓存的最大的doc的数量,如果太大就不能缓存了。 queryResultCache.put(key, superset);//放入queryResultCache中去,key是封装的query、filter、sort的对象。 } }
还有一个方法,即getDocSet,
public DocSet getDocSet(Query query) throws IOException { if (query instanceof ExtendedQuery) {//不进入这个if ExtendedQuery eq = (ExtendedQuery)query; if (!eq.getCache()) { if (query instanceof WrappedQuery) { query = ((WrappedQuery)query).getWrappedQuery(); } query = QueryUtils.makeQueryable(query); return getDocSetNC(query, null); } } //将这个query变为正query,因为某些query可能是-name:james,即名字不是james的,要变为name:james Query absQ = QueryUtils.getAbs(query); boolean positive = query==absQ; if (filterCache != null) { DocSet absAnswer = filterCache.get(absQ);//尝试从filterCache中获得结果 if (absAnswer!=null) { if (positive) return absAnswer; else return getPositiveDocSet(matchAllDocsQuery).andNot(absAnswer); } } DocSet absAnswer = getDocSetNC(absQ, null);//如果没有找到,则从索引中查找, DocSet answer = positive ? absAnswer : getPositiveDocSet(matchAllDocsQuery).andNot(absAnswer); if (filterCache != null) {//找到后放入到缓存中,可以发现filterQuery只是根据query进行的操作,不会有filter什么事情 filterCache.put(absQ, absAnswer); } return answer; }
还有个cache,documentCache没有用到,这个就更简单了,在SolrIndexSearcher中有个doc方法,doc(int id),里卖的实现就是先从这个documentCache中招,找不到再调用lucene的indexSearcher从索引中找
至此,已经完全搞懂三个缓存的意义了:
1、filterCache用于docSet,用于处理fq参数(在facet和group中也会用到它),如果在查询的时候开启了fq,就会查询这个fiterCache(这一部分的代码很多我没有贴)
2、queryResultCache:用于缓存根据query+filter+sort+flag组成的query进行缓存。与start和row无关
3、documentCache:用于缓存最后的document。
相关推荐
它通常用于预加载可能在多个查询中使用的过滤器集合。 5. 预热缓存(QueryResultKeyCache):当新搜索器打开时,用于预热查询结果缓存,确保高流量查询的快速响应。 Solr 还允许自定义缓存配置,包括设置缓存大小...
这在实际应用中非常重要,因为它可以显著减少处理过滤器的开销,特别是在频繁使用相同过滤条件的情况下。 #### 总结 Solr中的缓存机制对于提高查询性能至关重要。通过合理配置和利用这些缓存,可以大大减少系统...
通过以上步骤,我们可以成功地部署Solr并在Java应用程序中使用SolrJ进行数据索引和搜索。Solr的强大功能和灵活性使其成为构建高效搜索系统的一个优秀选择。无论是对于企业级应用还是个人项目,Solr都是一个值得深入...
在使用Solr(Cloudera)时,创建Collection是基本的操作之一。Collection是Solr中的数据存储单元,相当于关系数据库中的表。 ##### 创建路径与实例 1. **创建路径**:在根目录下创建一个用于存放Solr实例的目录,...
总的来说,"solr在SSM框架中使用(支持中文分词查询)"这个项目展示了如何在Java Web环境中集成Solr,利用SSM框架的优势,实现高效的全文检索功能,尤其是对中文文本的支持,这在处理中文信息量大的网站或应用中显得...
3. **配置Solr的中文解析器**:在Solr中使用IK Analyzer,需要在solrconfig.xml和schema.xml这两个配置文件中进行设置。首先,需要在solrconfig.xml中指定查询分析器和索引分析器为IK Analyzer;然后,在schema.xml...
在本文中,我们将详细介绍Solr的安装和使用过程。 一、安装Solr 首先,我们需要下载Solr的安装包。这里我们使用的是Solr 1.3版本。下载地址分别是: * Windows版本:...
在本文档中,我们将详细介绍如何部署和使用 Solr 5.5.4 版本,包括两种常见的部署方式:Jetty 和 Tomcat,并涉及到中文分词器IKAnalyzer的集成以及对Word文档的支持。 首先,我们需要准备合适的环境,这里要求的是...
Solr是中国最流行的全文...通过以上步骤和注意事项,你应该能够成功地在Solr 5.5和6.0中集成和使用IK分词器,从而提升中文文本的检索效果。所提供的资料将有助于这个过程,帮助你解决可能出现的问题和优化分词性能。
在 Solr 6.0 中,IKAnalyzer 不仅可以继续为 Solr 5.x 提供服务,还增加了对新版本 Solr 的兼容性,确保了旧项目的平滑升级和新项目的稳定运行。 使用 IKAnalyzer 配置 Solr 6.0 或 5.x 的步骤大致如下: 1. **...
通过以上步骤,我们就能在Solr 5.4中成功配置并使用中文分词库。这个过程对于提升中文文档的检索效率和准确性至关重要,因为正确的分词可以极大地提高搜索结果的相关性。同时,根据实际需求,还可以对分词库进行定制...
在4.1版本中,Solr引入了全新的Cloud模式,支持SolrCloud,这是一项分布式管理服务,允许Solr实例在Hadoop的ZooKeeper协调下进行集群部署,实现数据的自动复制和负载均衡,提高了系统的可用性和可扩展性。...
3. **配置Schema.xml**:在 Solr 的 schema.xml 文件中,我们需要定义字段类型(FieldType)并指定使用 ikanalyzer。例如,可以创建一个名为 `text_ik` 的字段类型,并设置其`analyzer_class`属性为 `org.apache....
这四大功能覆盖了Solr的基本操作需求,使得开发者无需深入了解Solr的底层细节,就能快速地在.NET项目中实现数据的索引和检索。 1. 添加:Easynet.Solr提供了便捷的添加文档(Document)的方法,允许开发者将数据...
2. **配置Schema.xml**: 在Solr的`conf/schema.xml`文件中,定义字段类型(fieldType)并指定使用IK分词器。例如: ```xml <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100"> ...
3. **修改 schema.xml 文件**:在 Solr 的配置文件 `schema.xml` 中添加相应的 FieldType 配置,以启用 IKAnalyzer 的分词功能。 ```xml <fieldType name="text_ik" class="solr.TextField"> ...
总的来说,solr-dataimport-scheduler.jar是Solr 7.x版本中实现定时数据导入和索引更新的关键工具,它极大地提升了Solr在实时和大数据环境下的性能和可靠性。通过合理配置和使用,可以确保你的Solr实例始终拥有最新...
在Solr的Schema设计中,可以为需要分词的字段指定`ikanalyzer`作为分析器,这样在索引和查询时,Solr就会使用ikanalyzer进行分词操作。 总之,ikanalyzer-solr中文分词包为Solr提供了一种强大的中文处理能力,使得...
最后,文章提到了挑战与展望,尽管没有给出具体内容,但可以预见在Solr的使用过程中可能会遇到性能优化、索引管理、数据一致性和高可用性等方面的挑战。在展望方面,Solr作为电子商务搜索引擎的解决方案,可能随着...