`
isiqi
  • 浏览: 16856381 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

答索引构造一问(续)

阅读更多

为什么倒排表的分块方案采用固定数目(fixed number)的,而不是固定大小(fixed size)的?

解答:

CPU流水线的有效性

FN方案中,由于确定数目,例如128,则压缩和解压很容易做循环展开的优化,没有分支指令。当然倒排表的最后可能不会正好是128,需要padding一些dummydocid,但这种存储损耗,如果有100K词条,每个词条增加127padding的,每个padding3个字节(docidfrequency, hitlist)代价计算,则不过10M而已,和解压快速的收益看非常小。

FS方案中,压缩和解压的过程中要反复判断是否跨块,因此增加的if-then-else这样的branch指令,使得CPU指令预测可能出现错误而导致流水线停滞(通常for循环中是需要避免分支指令的,后面PFOR-DELTA的优化再详细讨论)。

从存储的有效性上看

FN方案,存储致密,只是需要在最后一个blockpadding一些dummydocid

FS方案,如果考虑到每个固定块中需要存放docidlistfreqency, hitlist的话,那么极容易出现跨块,而使得每个block的尾部空间都会有损耗,这个代价是极大的,因此FS的这种方案就不易存放hitlist,给设计带来了局限。

压缩效果的可控性

FN方案,文档数固定,压缩可控,文档数太少压缩效果差,文档数太多解压效率低,不容易出现skip的情况。

FS方案,大小很难固定,固定了大小,文档数也很难控制,文档数多少和压缩效果紧密联系。

当然FS的方案也不是一无是处,由于计算偏移容易(均为字节地址),而FN的方案不可避免的使用比特地址。此前的博文中已有讨论,不再赘述。

为什么说PFORDELTA的压缩方法,压缩效果好,解压速度快?

解答:

关于流水线角度的分析,请参见:http://blog.csdn.net/pennyliang/archive/2010/09/25/5905691.aspx

成片解压,计算量低

PFORDELTA事实上只是对exception进行了特别处理,而其余小于threshold的数直接按照二进制的形式存取,因此读取一个字节就可以获得一片docid。同时计算时只有加法,没有乘除法,虽然其余的编码方式由于除的均为2的倍数,因此可以通过移位来优化,但从计算的复杂度看,PFORDELTA还是非常有优势,因为看上去其实并没有进行什么“压缩计算”一样。

在docid重排(reordering)的情况下,PFORDELTA的提升

docid重排问题比较复杂,这涉及到很好的支持docid的clustering,又要支持early termination(更好的docid要往前排),同时还必须这种重排方法要比较简便,分配的docid要完全致密,没有人为的gap。

b值较小情况,block size = 128,而b低于5的情况下的优化

PFORDELTA算法依赖于b值,而b值过小的情况下,无法在entry中存放下一个exception的位置的偏移量,这种情况下需要特别的优化。

下一篇博客进行深入探讨docid重排,小b值设定情况下的优化对pfor-delta压缩的改进。

推荐阅读:

答索引构造一问:http://blog.csdn.net/pennyliang/archive/2010/07/30/5776140.aspx

分享到:
评论

相关推荐

    Java面试宝典和大学生面试宝典

    一个求职者就碰到两家公司问了同样的问题,第一次答 不出,回去没查,第二次又被问到,当然这是很郁闷的事情。  3.2 电话面试 电话面试主要是对简历上一些模糊信息的确认、之前经历的验证、 针对应聘职位简单技术...

    网络编程Netty框架深度解析:NIO核心技术、线程模型与高性能网络应用设计

    内容概要:本文档详细介绍了Netty框架的核心概念、特点、线程模型、序列化协议选择及其实现细节。首先对比了BIO、NIO和AIO的区别,重点阐述了NIO的非阻塞特性及其基于事件驱动的工作原理。接着深入讲解了Netty的高性能表现,包括零拷贝技术、心跳机制、内存管理、流量整形等方面。文档还探讨了Netty的线程模型,包括单线程、多线程和主从多线程模型,并解释了NIOEventLoopGroup的源码实现。此外,文档讨论了TCP粘包/拆包问题及其解决方案,以及常见的序列化协议(如JSON、Protobuf、Thrift等)的特点和适用场景。 适合人群:具备一定网络编程基础,特别是对Java NIO和Netty框架有一定了解的研发人员和技术专家。 使用场景及目标:①理解NIO与传统BIO的区别,掌握NIO的非阻塞特性和事件驱动模型;②深入了解Netty的高性能设计原则,包括零拷贝、心跳检测、内存管理和线程模型;③掌握TCP粘包/拆包的原理及解决方案;④根据具体应用场景选择合适的序列化协议。 阅读建议:本文档内容较为深入,建议读者在阅读过程中结合实际代码和应用场景进行理解。对于Netty的线程模型和序列化协议部分,可以通过实际编程练习加深理解。特别地,理解NIOEventLoopGroup的源码实现需要有一定的Java多线程编程基础。

    美高森美提供的SmartFusion2 SoC FPGA双轴电机控制套件带有模块化电机控制IP集和参考设计.doc

    美高森美提供的SmartFusion2 SoC FPGA双轴电机控制套件带有模块化电机控制IP集和参考设计.doc

    基于三菱FX1S PLC和威纶通触摸屏的双伺服打孔机控制系统开发详解

    内容概要:本文详细介绍了使用三菱FX1S系列PLC和威纶通触摸屏构建双伺服打孔机控制系统的开发过程。主要内容涵盖系统架构、PLC程序设计、触摸屏配置以及开发中常见的注意事项。系统的核心在于通过PLC控制伺服电机完成精确的打孔动作,触摸屏则用于参数设置和运行监控。文中还讨论了伺服电机的参数配置、循环控制逻辑、MODBUS通信配置、界面设计及实时数据更新等方面的内容。此外,作者分享了一些实际开发中的经验和教训,如伺服电机的过冲和欠冲问题、程序稳定性的保障措施以及触摸屏响应速度的优化。 适合人群:从事自动化控制领域的工程师和技术人员,尤其是对PLC编程和伺服控制有一定基础的人群。 使用场景及目标:适用于需要高精度定位和控制的工业应用场景,如钣金加工车间。目标是帮助读者掌握双伺服打孔机的开发流程,提高系统的稳定性和效率。 其他说明:文中提到的技术细节和实践经验对于理解和解决类似项目的难题非常有帮助。建议读者在实践中结合具体情况进行调整和优化。

    太远市-小店区-街道行政区划_140105_Shp数据-wgs84坐标系 (1).rar

    街道级行政区划shp矢量数据,wgs84坐标系,下载直接使用

    乌兰察布市-乌兰察布市-街道行政区划_150900_Shp数据-wgs84坐标系.rar

    街道级行政区划shp矢量数据,wgs84坐标系,下载直接使用

    呼伦贝尔市-满洲里市-街道行政区划_150781_Shp数据-wgs84坐标系.rar

    呼伦贝尔市-满洲里市-街道行政区划_150781_Shp数据-wgs84坐标系.rar

    临汾市-尧都区-街道行政区划_141002_Shp数据-wgs84坐标系.rar

    街道级行政区划shp矢量数据,wgs84坐标系,下载直接使用

    Java基于springboot+vue的资产管理系统源码+数据库(高分项目)

    Java基于springboot+vue的资产管理系统源码+数据库(高分项目),个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。 Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据库(高分项目)Java基于springboot+vue的资产管理系统源码+数据

    吕梁市-吕梁市-街道行政区划_141100_Shp数据-wgs84坐标系.rar

    街道级行政区划shp矢量数据,wgs84坐标系,下载直接使用

    邢台市-巨鹿县--街道行政区划_130529_Shp-wgs84坐标系.rar

    街道级行政区划shp数据,wgs84坐标系,直接下载使用。

    石家庄市-石家庄市-石家庄市-石家庄市-街道行政区划_130100_Shp数据wgs84坐标系.rar

    街道级行政区划shp数据,wgs84坐标系,直接下载使用。

    北京市-昌平区-街道行政区_110114_shp-wgs84坐标系.rar

    街道级行政区划shp数据,wgs84坐标系,直接使用。

    朔州市-朔城区-街道行政区划_140602_Shp数据-wgs84坐标系.rar

    街道级行政区划shp矢量数据,wgs84坐标系,下载直接使用

    石家庄市-石家庄市-石家庄市-行唐县-街道行政区划_130125_Shp数据wgs84坐标系.rar

    街道级行政区划shp数据,wgs84坐标系,直接下载使用。

    鄂尔多斯市-乌审旗-街道行政区划_150626_Shp数据-wgs84坐标系.rar

    鄂尔多斯市-乌审旗-街道行政区划_150626_Shp数据-wgs84坐标系.rar

    Thinkphp蓝色大气的响应式轻量级通用后台,采用Bootstrap3制作,自带权限管理功能

    适用范围:Thinkphp蓝色响应式后台源码 系统设置、导航管理、配置管理、上传管理、用户管理、功能模块和插件管理 源码开发语言:PHP+MYSQL 源码描述说明: thinkphp蓝色大气的响应式后台模板,常用的后台功能有:系统设置、导航管理、配置管理、上传管理、用户管理、功能模块和插件管理等。

    大同市-云冈区-街道行政区划_140214_Shp数据-wgs84坐标系.rar

    大同市-云冈区-街道行政区划_140214_Shp数据-wgs84坐标系.rar

    脑机接口基于FBCCA算法与贝叶斯优化的SSVEP分类器设计及优化:含高斯过程优化完整代码实现与性能分析如何在FBCCA

    内容概要:本文详细介绍了在FBCCA算法中应用贝叶斯优化的完整代码实现,基于高斯过程优化,代码可直接运行。首先配置环境,安装所需的Python库如scikit-optimize、scipy、numpy、torch等。核心实现部分包括数据生成模块,通过SSVEPGenerator类生成带谐波的SSVEP信号FBCCABayes分类器模块,定义了滤波器组的动态创建、CCA相关系数的计算,并实现了贝叶斯优化过程。最后,通过贝叶斯优化执行模块,对FBCCABayes分类器的关键参数(滤波器阶数、频带宽度、CCA权重系数)进行优化,输出最佳参数组合及最高验证准确率,并对优化过程进行可视化展示,包括收敛曲线和参数影响热力图。 适合人群:有一定机器学习基础,特别是熟悉Python编程和贝叶斯优化理论的研究人员或工程师。 使用场景及目标:①理解FBCCA算法的工作原理及其在脑机接口领域的应用;②掌握贝叶斯优化在调参中的具体应用,提高模型性能;③学习如何将理论知识转化为实际可运行的代码,并通过可视化工具直观地展示优化效果。 其他说明:代码已在Python 3.10 + CUDA 11.8/CPU环境下验证通过,安装指定版本依赖后可直接运行。建议读者在实践中调整参数设置,探索不同配置下的模型表现。

    GD32F407VET6单片机实验程序源代码1.GPIO输出驱动LED与GD32F4的Keil5软件Pack

    GD32F407VET6单片机实验程序1.GPIO输出驱动LED与GD32F4的Keil5软件Pack

Global site tag (gtag.js) - Google Analytics