OpenBitSet和OpenBitSetIterator

chengqianl

浏览: 53758 次
性别:
来自: 杭州

最近访客更多访客>>

ForLove_ForYOU

阿祥哥

dj78337323

donchiang709

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene

算法 lucene Apache Go

OpenBitSet和OpenBitSetIterator

算法的思想是用一个long的数组的index和这个这个数组的某个值的某一位表示一个数，如果是一个long数组，如果不存在重复的情况下，最大可达到64倍的压缩，
算法的实现过程以long OpenBitSet这个类实现的一个上面提到的记录数据的数组

public OpenBitSet(long numBits) {
    bits = new long[bits2words(numBits)]; //根据指定的长度创建数组
    wlen = bits.length; //记录数组的长度
}

//计算数组的长度，给定一个长度，创建一个数组，长度除以64，通过移位来实现除法的
public static int bits2words(long numBits) {
   return (int)(((numBits-1)>>>6)+1);
}

设置值的过程，首先查看数组的大小是否满足，如果满足设置对应的值，对应的值的设置过程是，先计算该数字在数组里面的位置为a，然后计算这个位置的值。
位置的是通过expandingWordNum方法得到的
值的设置的原理是：先计算该数字的后6位的值是多少为b，然后就设置该数组的第a个数的第b位的值为1
/** sets a bit, expanding the set size if necessary */
public void set(long index) {
    int wordNum = expandingWordNum(index);
    int bit = (int)index & 0x3f;
    long bitmask = 1L << bit;
    bits[wordNum] |= bitmask;
}

计算该数所在数组的位置，如果超过数组的长度，则通过ensureCapacity扩大数组的长度
protected int expandingWordNum(long index) {
    int wordNum = (int)(index >> 6);
    if (wordNum>=wlen) {
      ensureCapacity(index+1);
      wlen = wordNum+1;
    }
    return wordNum;
}

数组的长度的算法是在org.apache.lucene.util. ArrayUtil 里面实现的

public static int getNextSize(int targetSize) {
    /* This over-allocates proportional to the list size, making room
     * for additional growth. The over-allocation is mild, but is
     * enough to give linear-time amortized behavior over a long
     * sequence of appends() in the presence of a poorly-performing
     * system realloc().
     * The growth pattern is: 0, 4, 8, 16, 25, 35, 46, 58, 72, 88, ...
     */
    return (targetSize >> 3) + (targetSize < 9 ? 3 : 6) + targetSize;
}

还原的算法通过OpenBitSetIterator 实现的构造方法如下，这个对象里面有二个属性，一个是保存long[] bits 的数组一个用来记录长度。

private final long[] arr;

private final int words;

public OpenBitSetIterator(OpenBitSet obs) {
    this(obs.getBits(), obs.getNumWords());
}

public OpenBitSetIterator(long[] bits, int numWords) {
    arr = bits;
    words = numWords;
}

还原的算法：遍历这个数组，取出每个值，由这个值的每个bit的值和这个值的index还原存储的long的值。
计算的过程实际上通过以为的wordShift 加上最后一个byte的每一个位的位置的值。每个byte置的每个位的位置的值是通过一个int的数据表示的，因为一个byte中的bit的位置最多是8 ，所以可以用一个4个的bit表示8。那一个int 就可以表示8个位置。
public int nextDoc() {
    if (indexArray == 0) { // indexArray 是一个int形的数据用他的四个bit 就是存储位置信息
      if (word != 0) {
        word >>>= 8;
        wordShift += 8;
      }

      while (word == 0) {如果
        if (++i >= words) {
          return curDocId = NO_MORE_DOCS;
        }
        word = arr[i];
        wordShift = -1; // loop invariant code motion should move this
      }

      // after the first time, should I go with a linear search, or
      // stick with the binary search in shift?
      shift();
    }

    int bitIndex = (indexArray & 0x0f) + wordShift;
    indexArray >>>= 4;
    // should i<<6 be cached as a separate variable?
    // it would only save one cycle in the best circumstances.
    return curDocId = (i<<6) + bitIndex;
}

分享到：

OpenBitSet和OpenBitSetIterator在TermRang ... | 创建IndexSearcher的时候到底做了哪些事情

2010-11-11 15:18
浏览 1696
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

有关Lucene的问题(8)：用Lucene构建实时索引的文档更新问题[整理].pdf: Lucene 是一个强大的全文搜索引擎库，它允许开发者创建高效的索引和检索机制。在构建实时索引时，尤其是在处理文档的更新和删除时，需要理解Lucene提供的不同方法以及它们的适用场景。以下是对Lucene删除文档和更新...

索引更新索引更新: 我们可以使用OpenBitSet来缓存删除的文档，然后在FilterIndexReader中对其进行过滤。索引更新是Lucene中的一种重要机制，用于实时更新索引中的文档。我们需要根据实际情况选择合适的删除方式，并使用...

headwater:位图索引原语: 源头 - 分布式位图索引原语注意：该项目目前作为概念证明存在。虽然我信任索引器，但仍有大量性能和... 我已经从非常出色的OpenBitSet （从 Lucene 复制）和一个包装了byte[]数组的简单位图构建了参考位图。源头哈

晋城市-晋城市-街道行政区划_140500_Shp数据-wgs84坐标系.rar: 晋城市-晋城市-街道行政区划_140500_Shp数据-wgs84坐标系.rar

【Linux系统管理】经典Linux面试题汇总：涵盖路径操作、文件管理、权限设置及磁盘配额查询等核心知识点: 内容概要：本文档汇总了46个经典的Linux面试题及其答案，涵盖了Linux系统操作的基本命令和概念。内容涉及路径表示与目录切换、进程管理、文件和目录操作、权限设置、文件内容查看等多个方面。每个问题都给出了明确的答案，旨在帮助面试者全面掌握Linux命令行操作技能，同时加深对Linux系统原理的理解。适合人群：准备Linux相关职位面试的求职者，尤其是有一定Linux基础但缺乏实战经验的技术人员。使用场景及目标：①用于个人自学或面试前复习，巩固Linux基础知识；②作为企业内部培训资料，帮助员工提升Linux操作水平；③为初学者提供系统化的学习指南，快速入门Linux命令行操作。其他说明：文档内容侧重于实际操作命令的讲解，对于每个命令不仅提供了基本语法，还解释了具体应用场景，有助于读者更好地理解和记忆。建议读者在学习过程中多加练习，将理论知识转化为实际操作能力。

唐山市-路南区--街道行政区划_130202_Shp-wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接下载使用。

【C++编程竞赛】华中杯C++真题解析：涵盖函数参数传递、宏定义、数组操作等10个经典算法题型及源码实现: 内容概要：本文提供了10道华中杯C++竞赛真题的详细解析，涵盖多种基础编程技能与高级特性。每道题目不仅包含详细的解题思路和代码实现，还附带了完整的运行结果。具体包括：函数参数传递（指针实现）、宏定义比较、数组元素打印、几何图形面积计算、字符串拼接、素数判断、多态的实现、文件操作、简单计算器和学生信息管理。这些题目帮助读者深入理解C++语言的核心概念和技术应用。适合人群：对C++有一定了解的编程初学者和中级开发者，尤其是准备参加编程竞赛的学生或程序员。使用场景及目标：①作为编程练习和竞赛备考资料，帮助读者掌握C++的基本语法和常用算法；②通过实际代码示例加深对C++特性的理解，如指针、宏定义、面向对象编程等；③提供完整的源码供读者参考和调试，增强动手能力和问题解决能力。阅读建议：建议读者按照题目难度逐步学习，先理解题目背景和解题思路，再仔细研读代码实现，并尝试独立编写和调试代码。同时，鼓励读者扩展思考，探索更多可能的解决方案，以提高编程水平。

邯郸市-曲周县--街道行政区划_130435_Shp-wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接使用。

沧州市-孟村回族自治县--街道行政区划_130930_Shp-wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接使用。

通用计算器的设计FPGA.doc: 通用计算器的设计FPGA.doc

晋城市-沁水县-街道行政区划_140521_Shp数据-wgs84坐标系.rar: 晋城市-沁水县-街道行政区划_140521_Shp数据-wgs84坐标系.rar

赤峰市-松山区-街道行政区划_150404_Shp数据-wgs84坐标系.rar: 赤峰市-松山区-街道行政区划_150404_Shp数据-wgs84坐标系.rar

JAVA中Stream编程常见的方法分类: JAVA中Stream编程常见的方法分类

呼和浩特市_和林格尔县_街道级--街道行政区划_150123_Shp_wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接使用。

【K02】基于51单片机的秒表计时器设计(二).zip

大同市-浑源县-街道行政区划_140225_Shp数据-wgs84坐标系.rar: 大同市-浑源县-街道行政区划_140225_Shp数据-wgs84坐标系.rar

包头市-昆都仑区-街道行政区划_150203_Shp数据-wgs84坐标系.rar: 包头市-昆都仑区-街道行政区划_150203_Shp数据-wgs84坐标系.rar

临汾市-翼城县-街道行政区划_141022_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

张家口市-阳原县--街道行政区划_130727_Shp-wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接下载使用。

汽车电子车载网络拓扑开发概述：涵盖总线类型、设计原则及流程优化: 内容概要：本文详细介绍了车载电子电器架构中的网络拓扑开发，涵盖开发概述、车载网络总线、网络设计原则、开发流程及小结。网络拓扑开发是汽车电气架构中的重要环节，旨在设计合理的网络结构以确保各电子控制单元（ECU）之间的高效通信。文中阐述了通信协议选择、网络节点布局、通信介质选择、拓扑结构设计及安全性考虑等关键要素，并强调了仿真与验证的重要性。此外，还讨论了网络设计的原则，如前瞻性、兼容性、拓展性、实时性、可靠性和安全性，以及网络负载的优化措施。最后，总结了网络拓扑开发的流程，包括需求分析、设计、仿真验证、优化迭代及文档记录。适合人群：汽车电子工程师、各域功能工程师、子系统及零部件开发者、测试工程师等从事汽车电气架构开发的相关人员。使用场景及目标：①帮助工程师理解汽车网络拓扑开发的关键步骤和技术要点；②指导工程师在设计过程中遵循科学合理的设计原则，确保网络拓扑的高性能和可靠性；③提供网络负载优化的措施，确保数据传输的实时性和效率。其他说明：网络拓扑开发不仅需要考虑技术层面的因素，还需兼顾成本效益，以适应不断变化的市场需求和技术趋势。本文建议读者在实践中不断积累经验，关注新技术的应用和发展，以应对未来的挑战和机遇。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论