OpenBitSet和OpenBitSetIterator在TermRangeQuery中的运用

chengqianl

浏览: 53752 次
性别:
来自: 杭州

最近访客更多访客>>

ForLove_ForYOU

阿祥哥

dj78337323

donchiang709

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene

Cache

OpenBitSet和OpenBitSetIterator在TermRangeQuery中的运用
在MultiTermQuery 的rewrite方法中，如果    if (pendingTerms.size() >= termCountLimit || docVisitCount >= docCountCutoff) 的就会使用MultiTermQueryWrapperFilter，如果查询出来的term的总数目大于termCountLimit或者docVisitCount是 df ，如果df 大于docCountCutoff 则使用MultiTermQueryWrapperFilter，否则使用BooleanQuery，他们之间的关系是or的关系, MultiTermQueryWrapperFilter 使用OpenBitSet收集docId,使用OpenBitSetIterator还原docId

@Override
    public Query rewrite(IndexReader reader, MultiTermQuery query) throws IOException {
      // Get the enum and start visiting terms. If we
      // exhaust the enum before hitting either of the
      // cutoffs, we use ConstantBooleanQueryRewrite; else,
      // ConstantFilterRewrite:
      final Collection<Term> pendingTerms = new ArrayList<Term>();
      final int docCountCutoff = (int) ((docCountPercent / 100.) * reader.maxDoc());
      final int termCountLimit = Math.min(BooleanQuery.getMaxClauseCount(), termCountCutoff);
      int docVisitCount = 0;

      FilteredTermEnum enumerator = query.getEnum(reader);
      try {
        while(true) {
          Term t = enumerator.term();
          if (t != null) {
            pendingTerms.add(t);
            // Loading the TermInfo from the terms dict here
            // should not be costly, because 1) the
            // query/filter will load the TermInfo when it
            // runs, and 2) the terms dict has a cache:
            docVisitCount += reader.docFreq(t);
          }

          if (pendingTerms.size() >= termCountLimit || docVisitCount >= docCountCutoff) {
            // Too many terms -- make a filter.
            Query result = new ConstantScoreQuery(new MultiTermQueryWrapperFilter<MultiTermQuery>(query));
            result.setBoost(query.getBoost());
            return result;
          } else if (!enumerator.next()) {
            // Enumeration is done, and we hit a small
            // enough number of terms & docs -- just make a
            // BooleanQuery, now
            BooleanQuery bq = new BooleanQuery(true);
            for (final Term term: pendingTerms) {
              TermQuery tq = new TermQuery(term);
              bq.add(tq, BooleanClause.Occur.SHOULD);
            }
            // Strip scores
            Query result = new ConstantScoreQuery(new QueryWrapperFilter(bq));
            result.setBoost(query.getBoost());
            query.incTotalNumberOfTerms(pendingTerms.size());
            return result;
          }
        }
      } finally {
        enumerator.close();
      }
    }

收集的docId的代码调用如图所示

先new 一个OpenBitSet，大小是查询出来的当前segemt中最大文档的数目，然后通过
SegmentTermDocs 的public int read(final int[] docs, final int[] freqs)
这个方法读取docId和frg，然后通过for循环
for(int i=0;i<count;i++) {
bitSet.set(docs[i]);
}
把docId放到OpenBitSet里面

代码如下和注释如下
public DocIdSet getDocIdSet(IndexReader reader) throws IOException {
//返回TermRangeTermEnum对象，这个对象先用用小的那个string new一个term，然后定位到tis文件,while循环读取term信息，然后去frg文件里面读取docId，在while循环里面，通过SegmentTermDocs读取frg文件的docId和frg。
    final TermEnum enumerator = query.getEnum(reader);
    try {
      // if current term in enum is null, the enum is empty -> shortcut
      if (enumerator.term() == null)
        return DocIdSet.EMPTY_DOCIDSET;
      // else fill into a OpenBitSet
      final OpenBitSet bitSet = new OpenBitSet(reader.maxDoc());
      final int[] docs = new int[32];
      final int[] freqs = new int[32];

// new 一个SegmentTermDocs的实例，会调用它的read方法读取docId
      TermDocs termDocs = reader.termDocs();
      try {
        int termCount = 0;
        do {
          Term term = enumerator.term();
          if (term == null)
            break;
          termCount++;
SegmentTermDocs 在frg文件里面seek到term的对应的docid的开始位置
          termDocs.seek(term);
          while (true) {
       // 读取docId，一次读取到32 个docId到 docs数组里面，如果没有32个则读取实际的数目
            final int count = termDocs.read(docs, freqs);
            if (count != 0) {
              for(int i=0;i<count;i++) {
                bitSet.set(docs[i]);
              }
            } else {
              break;
            }
          }

        } while (enumerator.next());

        query.incTotalNumberOfTerms(termCount);

      } finally {
        termDocs.close();
      }
      return bitSet;
    } finally {
      enumerator.close();
    }
}

enumerator.next()方法截图如下，enumerator是TermRangeTermEnum，会调用父类的FilteredTermEnum next方法。

FilteredTermEnum的next方法如下，他会调用actualEnum读取tis文件里面的下一个term，然后调用termCompare 方法，termCompare 这个方法是抽象方法，留给子类实现，
TermRangeTermEnum方法的实现逻辑是和右边的区间的term做一个比较，看查询的term是否超出区间
public boolean next() throws IOException {
        if (actualEnum == null) return false; // the actual enumerator is not initialized!
        currentTerm = null;
        while (currentTerm == null) {
            if (endEnum()) return false;
            if (actualEnum.next()) {
                Term term = actualEnum.term();
                if (termCompare(term)) {
                    currentTerm = term;
                    return true;
                }
            }
            else return false;
        }
        currentTerm = null;
        return false;
}

还原是在ConstantScorer的nextDoc方法调用的如下图

public int nextDoc() throws IOException {
      return docIdSetIterator.nextDoc();
    }

查看图片附件

分享到：

Implementors | OpenBitSet和OpenBitSetIterator

2010-11-16 16:06
浏览 1906
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

索引更新索引更新: 我们可以使用OpenBitSet来缓存删除的文档，然后在FilterIndexReader中对其进行过滤。索引更新是Lucene中的一种重要机制，用于实时更新索引中的文档。我们需要根据实际情况选择合适的删除方式，并使用...

有关Lucene的问题(8)：用Lucene构建实时索引的文档更新问题[整理].pdf: 例如，可以创建一个自定义的`MyFilterIndexReader`，它保存一个位集（`OpenBitSet`）来记录已被删除的文档，并在`numDocs()`等方法中调整结果以排除这些文档。 ```java public class MyFilterIndexReader extends...

headwater:位图索引原语: 源头 - 分布式位图索引原语注意：该项目目前作为概念证明存在。虽然我信任索引器，但仍有大量性能和... 我已经从非常出色的OpenBitSet （从 Lucene 复制）和一个包装了byte[]数组的简单位图构建了参考位图。源头哈

晋城市-晋城市-街道行政区划_140500_Shp数据-wgs84坐标系.rar: 晋城市-晋城市-街道行政区划_140500_Shp数据-wgs84坐标系.rar

【Linux系统管理】经典Linux面试题汇总：涵盖路径操作、文件管理、权限设置及磁盘配额查询等核心知识点: 内容概要：本文档汇总了46个经典的Linux面试题及其答案，涵盖了Linux系统操作的基本命令和概念。内容涉及路径表示与目录切换、进程管理、文件和目录操作、权限设置、文件内容查看等多个方面。每个问题都给出了明确的答案，旨在帮助面试者全面掌握Linux命令行操作技能，同时加深对Linux系统原理的理解。适合人群：准备Linux相关职位面试的求职者，尤其是有一定Linux基础但缺乏实战经验的技术人员。使用场景及目标：①用于个人自学或面试前复习，巩固Linux基础知识；②作为企业内部培训资料，帮助员工提升Linux操作水平；③为初学者提供系统化的学习指南，快速入门Linux命令行操作。其他说明：文档内容侧重于实际操作命令的讲解，对于每个命令不仅提供了基本语法，还解释了具体应用场景，有助于读者更好地理解和记忆。建议读者在学习过程中多加练习，将理论知识转化为实际操作能力。

唐山市-路南区--街道行政区划_130202_Shp-wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接下载使用。

【C++编程竞赛】华中杯C++真题解析：涵盖函数参数传递、宏定义、数组操作等10个经典算法题型及源码实现: 内容概要：本文提供了10道华中杯C++竞赛真题的详细解析，涵盖多种基础编程技能与高级特性。每道题目不仅包含详细的解题思路和代码实现，还附带了完整的运行结果。具体包括：函数参数传递（指针实现）、宏定义比较、数组元素打印、几何图形面积计算、字符串拼接、素数判断、多态的实现、文件操作、简单计算器和学生信息管理。这些题目帮助读者深入理解C++语言的核心概念和技术应用。适合人群：对C++有一定了解的编程初学者和中级开发者，尤其是准备参加编程竞赛的学生或程序员。使用场景及目标：①作为编程练习和竞赛备考资料，帮助读者掌握C++的基本语法和常用算法；②通过实际代码示例加深对C++特性的理解，如指针、宏定义、面向对象编程等；③提供完整的源码供读者参考和调试，增强动手能力和问题解决能力。阅读建议：建议读者按照题目难度逐步学习，先理解题目背景和解题思路，再仔细研读代码实现，并尝试独立编写和调试代码。同时，鼓励读者扩展思考，探索更多可能的解决方案，以提高编程水平。

邯郸市-曲周县--街道行政区划_130435_Shp-wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接使用。

沧州市-孟村回族自治县--街道行政区划_130930_Shp-wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接使用。

通用计算器的设计FPGA.doc: 通用计算器的设计FPGA.doc

晋城市-沁水县-街道行政区划_140521_Shp数据-wgs84坐标系.rar: 晋城市-沁水县-街道行政区划_140521_Shp数据-wgs84坐标系.rar

赤峰市-松山区-街道行政区划_150404_Shp数据-wgs84坐标系.rar: 赤峰市-松山区-街道行政区划_150404_Shp数据-wgs84坐标系.rar

JAVA中Stream编程常见的方法分类: JAVA中Stream编程常见的方法分类

呼和浩特市_和林格尔县_街道级--街道行政区划_150123_Shp_wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接使用。

【K02】基于51单片机的秒表计时器设计(二).zip

大同市-浑源县-街道行政区划_140225_Shp数据-wgs84坐标系.rar: 大同市-浑源县-街道行政区划_140225_Shp数据-wgs84坐标系.rar

包头市-昆都仑区-街道行政区划_150203_Shp数据-wgs84坐标系.rar: 包头市-昆都仑区-街道行政区划_150203_Shp数据-wgs84坐标系.rar

临汾市-翼城县-街道行政区划_141022_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

张家口市-阳原县--街道行政区划_130727_Shp-wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接下载使用。

汽车电子车载网络拓扑开发概述：涵盖总线类型、设计原则及流程优化: 内容概要：本文详细介绍了车载电子电器架构中的网络拓扑开发，涵盖开发概述、车载网络总线、网络设计原则、开发流程及小结。网络拓扑开发是汽车电气架构中的重要环节，旨在设计合理的网络结构以确保各电子控制单元（ECU）之间的高效通信。文中阐述了通信协议选择、网络节点布局、通信介质选择、拓扑结构设计及安全性考虑等关键要素，并强调了仿真与验证的重要性。此外，还讨论了网络设计的原则，如前瞻性、兼容性、拓展性、实时性、可靠性和安全性，以及网络负载的优化措施。最后，总结了网络拓扑开发的流程，包括需求分析、设计、仿真验证、优化迭代及文档记录。适合人群：汽车电子工程师、各域功能工程师、子系统及零部件开发者、测试工程师等从事汽车电气架构开发的相关人员。使用场景及目标：①帮助工程师理解汽车网络拓扑开发的关键步骤和技术要点；②指导工程师在设计过程中遵循科学合理的设计原则，确保网络拓扑的高性能和可靠性；③提供网络负载优化的措施，确保数据传输的实时性和效率。其他说明：网络拓扑开发不仅需要考虑技术层面的因素，还需兼顾成本效益，以适应不断变化的市场需求和技术趋势。本文建议读者在实践中不断积累经验，关注新技术的应用和发展，以应对未来的挑战和机遇。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论