`
wangzjie
  • 浏览: 74970 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Solr空间索引原理及源码分析

    博客分类:
  • solr
阅读更多

看不到图片的可到我的github博客上看。

 

solr的4.0-4.1版本使用GeohashField.createSpatialQuery(), 未使用IntersectsPrefixTreeFilter(继承于AbstractVisitingPrefixTreeFilter)。4.2版本开始使用IntersectsPrefixTreeFilter。4.2和4.3及以后的区别好像只是小改了一些,比如把Node对象换成Cell对象。

solr空间索引主要有两类GeohashPrefixTree(Geohash)与QuadPrefixTree(四叉树,对应笛卡尔分层策略)。分层其实取的就是前缀。

4.3开始geohash也引入了分层查询策略(这个有些不严谨,4.0-4.2虽然没使用IntersectsPrefixTreeFilter,但具体策略我还没有研究),总体效果应该优于Quad(拿了一个多边形,geohash只要203个term,而quad要488个, 对于点来说geohash只要11个term,而quad要26个term)。应该是4.3开始作者按照quad优化了geohash。

 

GeohashPrefixTree与QuadPrefixTree的主要不同:

1、maxLevels不同:geohash的maxLevels为11,quad的maxLevels为26。

2、通过distance获得相应的detailLevel不同

3、获得子Cell不同:geohash下一层有32个子Cell(编码为0-z), quad下一层有4个子Cell(编码为ABCD。A:左上,B:右上,C:左下,D:右下)

 

由于两种方法的大致思想一致,所以下文重点介绍geohash。

重要属性


schema.xml中的空间索引类型的配置:

 

<fieldTypename="location_jts"  class="solr.SpatialRecursivePrefixTreeFieldType"
           spatialContextFactory="com.spatial4j.core.context.jts.JtsSpatialContextFactory"
           distErrPct="0.025"
           maxDistErr="0.000009"
           units="degrees"/>

 

SpatialRecursivePrefixTreeFieldType

用于深度遍历前缀树的FieldType,主要用于获得基于Lucene中的RecursivePrefixTreeStrategy。

JtsSpatialContextFactory

当有Polygon多边形时会使用jts(需要把jts.jar放到solr服务的lib下)。基本形状使用SpatialContext (spatial4j的类)。

distErrPct

定义非Point图形的精度,范围在0-0.5之间,默认0.025。该值决定了非Point的图形索引或查询时的level(如geohash模式时就是geohash的长度)。当为0时取maxLevels,即精度最大。计算level的方法是 Shape中心到其外包矩形的最远corner的距离 * distErrPct (这块理论依据还没研究...)。实现代码如下SpatialArgs.calcDistanceFromErrPct()返回distErr:

 

public static double calcDistanceFromErrPct(Shape shape, double distErrPct, SpatialContext ctx) {
    if (distErrPct < 0 || distErrPct > 0.5) {
      throw new IllegalArgumentException("distErrPct " + distErrPct + " must be between [0 to 0.5]");
    }
    if (distErrPct == 0 || shape instanceof Point) {
      return 0;
    }
    Rectangle bbox = shape.getBoundingBox();
    //Compute the distance from the center to a corner.  Because the distance
    // to a bottom corner vs a top corner can vary in a geospatial scenario,
    // take the closest one (greater precision).
    Point ctr = bbox.getCenter();
    double y = (ctr.getY() >= 0 ? bbox.getMaxY() : bbox.getMinY());
    double diagonalDist = ctx.getDistCalc().distance(ctr, bbox.getMaxX(), y);
    return diagonalDist * distErrPct;
  }

 

 

然后由GeohashPrefixTree.getLevelForDistantce(distErr)来求得geohash精度。

 

public int getLevelForDistance(double dist) {
    if (dist == 0) //Point时dist=0
      return maxLevels;//short circuit
    final int level = GeohashUtils.lookupHashLenForWidthHeight(dist, dist);
    return Math.max(Math.min(level, maxLevels), 1);
  }


maxDistErr/maxLevels

 

定义索引数据的最高层maxLevels,默认是0.000009即1米(geohash11位),直接决定了Point索引的term数。

maxLevels优先级高于maxDistErr,即有maxLevels的话maxDistErr失效。详见SpatialPrefixTreeFactory.init()方法。

不过一般使用maxDistErr。

worldBounds

世界坐标值:"minX minY maxX maxY"。 geo=true即geohash模式时,该值默认为"-180 -90 180 90"。geo=false即quad时,该值为Java double类型的正负边界,此时需要指定该值,设置成"-180 -90 180 90"。

Solr spatial的类框架图


各类作用说明:

lucene实现的:

SpatialStrategy: 空间索引的核心,用来创建 索引域 以及 查询Query、查询Filter,以及用于score=distance等的打分策略(DistanceValueSource)。

SpatialPrefixTree: 其子类为GeohashPrefixTree和QuadPrefixTree。其主要用于获得索引Level、深度遍历获得与目标Shape相交的Cell,以及将token字符串与Cell间的相互转换。GeohashPrefix.GhCell (下层32个子结点,因为geohash每位代表5bit,2^5=32, 经度3bit,纬度2bit)和QuadPrefixTree.QuadCell(下层4个子结点)均是用于获得与目标Shape相交的下一层子cell。

SpatialPrefixTreeFactory:初始化maxLevels, 通过makeSPT()方法创建SpatialPrefixTree对象(grid)

spatial4j/jts实现的:

SpatialContext: 用于获得距离计算Calculator以及解析形状等。其属于spatial4j包中,该包中还有各种Shape及判断各Shape间的相交情况。JtsSpatialContext(jts包)用于处理多边形等情况。

solr实现的:

AbstractSpatialFieldType:用于获得相应的Strategy,获得相应的索引域、查询Query。

创建空间索引


索引结构

geohash模式的索引结构分成Point和非Point。下图为索引结构示意图(为方便起见只画了6层, 蓝色为Point,黄色为非Point):


Point

如经纬度41.79452,123.41555,对应的geohash为wxrvb2kqexu(maxLevels=11), 则其对应的term有11个(如w、wx、wxr、wxrv...,存储了前缀,牺牲索引加快查询速度)。

非Point

如Polygon。非Point的索引中有leaf叶子结点的概念,比如wtxrvb包含在Polygon中,则该cell为leaf,生成term时会有wtxrvb与wtxrvb+(+是leaf的标志)。

空间索引创建流程

说明:Point的term就是把其geohash:wtxrvb变成w、wt、wtx、wtxr、wtxrv、wtxrvb,Point的索引Level为maxLevels(即11位)。下面主要说明非Point的term创建过程。

1、将空间索引域的shapeStr解析成相应的Shape(复杂Shape如Polygon要使用JTS中的WTKReader来解析),以下拿Polygon为例。

2、计算目标Polygon的索引Level,即根据Polygon的外包矩形以及distErrPct算出distErr,再调用SpatialPrefixTree.getLevelForDistance(distErr)得到索引detaiLlevel。

3、得到与目标Polygon相交(即有交集或在Polygon内)的所有子Cell。主要做法是从root=WorldCell开始进行深度遍历并对各子树进行前枝:每下一层有32个子结点,然后判断各子结点与Polygon的相交情况。判断相交时简单的可以用spatial4j包来计算,复杂的需要用JTS。判断相交主要是先与Polygon的外包矩形判断是否相交(提高效率),如果相交,再与Polygon进行进一步相交判断。

a、不相交的则舍弃该Cell(其子Cell也不会被遍历到)。

b、包含在目标Polygon中,则设置该Cell为叶结点(term末尾加+), 添加到result中,其子Cell不再遍历。

c、intersect以及contain Polygon: 将Cell添加到result中,然后继续深度遍历其子Cell,获得更精确的Cell。

d、当cell的token长度达到detailLevel时,则到达最底层,标记为叶结点,添加到result中,停止该Cell的遍历。如果某个Cell的32个子Cell都是叶结点,则删除这32个子结点,把该Cell设置成叶结点。(这里直接影响了查询时的误差,会多取数据)

4、得到Filed,得到的Cell列表都放在CellTokenStream中。

5、存储索引域与存储域。

下图为判断相交的示意图:

多边形索引一般会得到几百上千个term,大大增加了索引大小与创建时间,哎,一切都是为了查询...

空间索引查询


查询语法

q={!geofiltpt=45.15,-93.85sfield=geod=5 score=distance}

q={!bbox pt=45.15,-93.85sfield=geod=5 score=distance}

q=geo:"Intersects(-74.09341.042-69.34744.558)"

q=geo:"Intersects(POLYGON((-1030,-4040,-10-20,4020,00,-1030)))"

查询方法

我们可以像创建空间索引的方法那样得到与查询Shape相交的所有子Cell,然后再与term进行匹配,但这有两个问题:一是很多没有数据的区域也会被深度遍历,二是得到的子Cell与term进行匹配比较麻烦。

solr的查询策略:利用了索引term的字典有序可以有效地对上面的深度遍历进行剪枝,term的顺序和深度遍历的Cell的顺序是一致的。具体流程如下图:

说明:

1、获得空间索引域的第一个域,深度遍历root=WorldCell开始,找到与查询Shape相交的子Cell。

2、开始深度遍历, 找到遍历的下一个结点,判断当前Cell与当前term的大小关系:

a、当前Cell < term : 则跳过该Cell, 因为term是按字典序顺序取的,在当前term之前的Cell对应不到数据。

b、当前Cell > term : 当前term已经匹配完成(因为以后遍历的Cell肯定都比当前term大),定位到下一个>=Cell的最小term,继续遍历Cell。

c、当前Cell = term : 判断当前Cell是否还要继续深度遍历,即如果Cell包含在查询Shape内,或者Cell已经达到了查询Shape的detailLevel层时,则当前Cell遍历结束,将当前term上的docId都取出来;否则继续深度遍历获得当前Cell的与查询Shape相交的子Cell。同时取下一个term。这里有个特殊情况是当term是以+结尾即leaf结点时且Cell长度和term长度一样长时(长度比较不包括+),说明该数据是非Point索引时的叶结点,再深度遍历已经也对应不上相应的term,所以就把该term对应的非Point docId都取出来,然后取下一个term。

不断重复第2步直到term取完或者所有树结点都被遍历完。

下图是查询策略的示意图:


空间索引查询流程

上图以geofilt查询为例,其中分成有score=distance和无score=distance两种情况。

先介绍不需要score的情况:

1、解析查询,生成Query树:获得相应的QParse, 对geofilt进行语法解析,获得geofilt的各个参数,并且获得相应的查询Query(ConstantScoreQuery)包括相应的Filter(IntersectsPrefixTreeFilter),其中也计算了查询Shape的一些属性,如最大索引长度detailLevel。

2、查询:SolrIndexSearch.search()进行创建Weight树和Score树。利用IntersectsPrefixTreeFilter得到符合条件的docIdSet(调用了前面的VistorTemplate深度遍历策略)。由于不需要score,所以Score返回的是ConstantScorer。

需要score的情况(大坑,要缓存所有term对应的docId及对应的geohash中心点),只说明score=distance,score=recipDistance图中已经说明:

基本流程和上面一致。说明下主要不同的地方:

1、Query对象:其创建的是FilteredQuery,其中有几个属性关系到打分:

a、ShapeFieldCacheDistanceValueSource: 用于生成FuncitonValues对象来给各个doc打分,只用于计算Point类的doc,非Point类的doc都打180分(即非Point都是最近的)。其主要属性PointPrefixTreeFieldCacheProvider缓存了所有Point类doc的docId–>point所在geohash的中心点(大坑之所在)。

b、FunctionQuery:其中包括了FunctionWeight、AllScorer、FunctionValues等主要用于空间索引的打分操作。

2、Scorer.score()调用的是AllScorer.score(): 解析出符合条件的docId,然后通过ShapeFieldCacheDistanceValueSource生成的FunctionValues得到docId对应的中心点,计算与查询Shape中心的距离来作为score。再放到优先队列中进行排序,从而实现按score排序的功能。

 

一些主要类说明:

FunctionValues: 其floatVal(docId)用于计算两点距离(非Point默认最近),调用provider的cache来获得各个docId的中心点坐标。

ShapeFieldCacheDistanceValueSource: 生成的FunctionWeight。

ShapeFieldCache(大坑,文档里说以后会替换这块):缓存了docId-->其term对应的Cell的中心点。cache[docId]=ArrayList。

PointPrefixTreeFieldCacheProvider:管理ShapeFieldCache。(只支持Point)

  • 大小: 194.1 KB
  • 大小: 65.6 KB
  • 大小: 28.9 KB
  • 大小: 46.3 KB
  • 大小: 308.7 KB
  • 大小: 325.5 KB
  • 大小: 742.8 KB
分享到:
评论

相关推荐

    YOLO算法-数据集数据集-330张图像带标签-椅子-书桌.zip

    YOLO系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中,文件名末尾是部分类别名称; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值; 【注】可以下拉页面,在资源详情处查看标签具体内容;

    java毕设项目之ssm蜀都天香酒楼的网站设计与实现+jsp(完整前后端+说明文档+mysql+lw).zip

    项目包含完整前后端源码和数据库文件 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7

    weixin138社区互助养老+ssm(论文+源码)-kaic.zip

    weixin138社区互助养老+ssm(论文+源码)_kaic.zip

    光纤到户及通信基础设施报装申请表.docx

    光纤到户及通信基础设施报装申请表.docx

    java毕设项目之ssm基于jsp的精品酒销售管理系统+jsp(完整前后端+说明文档+mysql+lw).zip

    项目包含完整前后端源码和数据库文件 环境说明: 开发语言:Java 框架:ssm,mybatis JDK版本:JDK1.8 数据库:mysql 5.7 数据库工具:Navicat11 开发软件:eclipse/idea Maven包:Maven3.3 服务器:tomcat7

    功能完善的电商数据智能爬虫采集系统项目全套技术资料.zip

    功能完善的电商数据智能爬虫采集系统项目全套技术资料.zip

    YOLO算法-刀数据集-198张图像带标签-刀-枪.zip

    YOLO系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中,文件名末尾是部分类别名称; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值; 【注】可以下拉页面,在资源详情处查看标签具体内容;

    Android程序开发初级教程WORD文档doc格式最新版本

    ### Android程序开发初级教程(一):初识Android **平台概述** Google推出的Android操作系统平台已经正式亮相,这是一个基于Linux内核的开源操作系统。对于开发者而言,了解其架构和支持的开发语言至关重要。以下是Android平台的架构概览: **平台架构及功能** 1. **应用框架(Application Framework)**:包含可重用和可替换的组件,确保所有软件在该层面上的平等性。 2. **Dalvik虚拟机(Dalvik Virtual Machine)**:一个基于Linux的虚拟机,为Android应用提供运行环境。 3. **集成浏览器(Integrated Browser)**:基于开源WebKit引擎的浏览器,位于应用层。 4. **优化图形(Optimized Graphics)**:包括自定义的2D图形库和遵循OpenGL ES 1.0标准的3D实现。 5. **SQLite数据库**:用于数据存储。 6. **多媒体支持(Media Support)**:支持通用音频、视频以及多种图片格式(如MPEG4, H.264

    【组合数学答案】组合数学-苏大李凡长版-课后习题答案

    内容概要:本文档是《组合数学答案-网络流传版.pdf》的内容,主要包含了排列组合的基础知识以及一些经典的组合数学题目。这些题目涵盖了从排列数计算、二项式定理的应用到容斥原理的实际应用等方面。通过对这些题目的解析,帮助读者加深对组合数学概念和技巧的理解。 适用人群:适合初学者和有一定基础的学习者。 使用场景及目标:可以在学习组合数学课程时作为练习题参考,也可以在复习考试或准备竞赛时使用,目的是提高解决组合数学问题的能力。 其他说明:文档中的题目覆盖了组合数学的基本知识点,适合逐步深入学习。每个题目都有详细的解答步骤,有助于读者掌握解题思路和方法。

    .net core mvc在线考试系统asp.net考试系统源码考试管理系统 主要技术: 基于.net core mvc架构和sql server数据库,数据库访问采用EF core code fir

    .net core mvc在线考试系统asp.net考试系统源码考试管理系统 主要技术: 基于.net core mvc架构和sql server数据库,数据库访问采用EF core code first,前端采用vue.js和bootstrap。 功能模块: 系统包括前台和后台两个部分,分三种角色登录。 管理员登录后台,拥有科目管理,题库管理,考试管理,成绩管理,用户管理等功能。 教师登录后台,可进行题库管理,考试管理和成绩管理。 用户登录前台,可查看考试列表,参加考试,查看已考试的结果,修改密码等。 系统实现了国际化,支持中英两种语言。 源码打包: 包含全套源码,数据库文件,需求分析和代码说明文档。 运行环境: 运行需vs2019或者以上版本,sql server2012或者以上版本。

    YOLO算法-易拉罐识别数据集-512张图像带标签-可口可乐.zip

    YOLO系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中,文件名末尾是部分类别名称; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值; 【注】可以下拉页面,在资源详情处查看标签具体内容;

    (175415460)基于SpringBoot的通用管理系统源码+数据库+项目文档,前后端分离的通用管理系统模版,可用于开发毕业设计

    包含了登陆注册、用户管理、部门管理、文件管理、权限管理、日志管理、个人中心、数据字典和代码生成这九个功能模块 系统采用了基于角色的访问控制,角色和菜单关联,一个角色可以配置多个菜单权限;然后再将用户和角色关联,一位用户可以赋予多个角色。这样用户就可以根据角色拿到该有的菜单权限,更方便管理者进行权限管控。 本系统还封装了文件管理功能,在其他模块如若要实现图片/文件上传预览时,前端只需导入现成的 Vue 组件即可实现(使用 viewerjs 依赖实现),后端只需定义 String 类型的实体类变量即可,无需再去研究文件上传预览的相关功能,简化了开发者的工作量。内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。

    三相10Kw光伏并网逆变器 包含全套理图 PCB 源代码

    三相10Kw光伏并网逆变器。包含全套理图 PCB 源代码

    GJB 5236-2004 军用软件质量度量

    GJB 5236-2004 军用软件质量度量文档,本称准规定了车用软件产品的质重模型和基本的度量。本标准为确定车用软件质量需求和衡量军用 软件产品的能力提供了一个框架。

    (179941432)基于MATLAB车牌识别系统【GUI含界面】.zip

    基于MATLAB车牌识别系统【GUI含界面】.zip。内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。

    (9546452)宿舍管理系统

    【宿舍管理系统】是一种专为高校或住宿机构设计的信息化解决方案,旨在提高宿舍管理的效率和准确性。该系统包含了多项核心功能,如宿舍管理员管理、宿舍信息维护、查询、卫生检查以及电费缴纳等,旨在实现全面的宿舍运营自动化。 **宿舍管理员管理**功能允许指定的管理员进行用户权限分配和角色设定。这包括对管理员账户的创建、修改和删除,以及设置不同的操作权限,例如只读、编辑或管理员权限。通过这样的权限控制,可以确保数据的安全性和管理的规范性。 **宿舍添加与管理**是系统的基础模块。管理员可以录入宿舍的基本信息,如宿舍号、楼栋、楼层、房间类型(单人间、双人间等)、容纳人数、设施配置等。此外,系统还支持批量导入或导出宿舍信息,方便数据的备份和迁移。 **查询功能**是系统的重要组成部分,它允许管理员和学生根据不同的条件(如宿舍号、楼栋、学生姓名等)快速查找宿舍信息。此外,系统还可以生成各种统计报告,如宿舍占用率、空闲宿舍数量等,以便于决策者进行资源优化。 **卫生检查**功能则是对宿舍卫生状况进行定期评估。管理员可设定检查计划,包括检查周期、评分标准等,并记录每次检查的结果。系统能自动生成卫生报表,用于

    YOLO算法-包装好的服装数据集-654张图像带标签-.zip

    YOLO系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,包含数据集配置文件data.yaml,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中,文件名末尾是部分类别名称; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值; 【注】可以下拉页面,在资源详情处查看标签具体内容;

    九缸星形发动机点火器3D

    九缸星形发动机点火器3D

    小程序毕业设计项目-音乐播放器

    本项目可以作为小程序毕设项目,主要功能为音乐播放器,主要功能是:可以播放歌曲(采用mp3网络连接实现)、专辑封面播放时可以旋转,能够实现开始和暂停播放,可以点击下一首歌曲,主页面实现动态轮播图

    出差审批单(表格模板).docx

    出差审批单(表格模板).docx

Global site tag (gtag.js) - Google Analytics