`
冷静
  • 浏览: 146862 次
  • 性别: Icon_minigender_1
  • 来自: 佛山
社区版块
存档分类
最新评论

基于Solr的空间搜索(1)

    博客分类:
  • Solr
 
阅读更多

在Solr中基于空间地址查询主要围绕2个概念实现:

  Cartesian Tiers 笛卡尔层

  Cartesian Tiers是通过将一个平面地图的根据设定的层次数,将每层的分解成若干个网格,如下图所示:

  

 

  每层以2的评方递增,所以第一层为4个网格,第二层为16 个,所以整个地图的经纬度将在每层的网格中体现:

  

 

  笛卡尔层在Lucene中对空间地理位置查询最大的用处在查找周边地址的时候有效的减少查询量,即将查询量可以控制在分层后最小的网格中的若干docId。那么如何构建这样的索引结构呢,其实很简单,只需要对应笛卡尔层的层数来构建域即可。也即是tiers0->field_0,tiers1->field_1,tiers2-field_2,……,tiers19->field_19。(一般20层即可)。每个对应笛卡尔层次的域将根据当前这条记录的经纬度通过笛卡尔算法计算出归属于当前层的网格,然后将gridId(网格唯一标示)以term的方式存入索引。这样每条记录关于笛卡尔0-19的域将都会有一个gridId对应起来。但是查询的时候一般是需要查周边的地址,那么可能周边的范围超过一个网格的范围,那么实际操作过程是根据经纬度和一个距离确定出需要涉及查询的从19-0(从高往低查,留给读者思考)若干层对应的若干网格的数据(关于代码实现在后面的文章内容阐述)。那么一个经纬度周边地址的查询只需要如下图圆圈内的数据:

  

 

  所以通过这样的数据过滤,将极大的减少计算量。

  GeoHash算法

  在Lucene索引中将经纬度的二维坐标通过geohash,变成一个一维的字符串base32的坐标,例如,经纬度对应一个base32的坐标为DRT2Y,那这个base32的字符串什么意思呢?其实编码中每个字符都是代表一个区域,并且前面的字符是后面字符的父区域,即R是D区域内的子区域,T又为D区域的子区域,大家可以从如下图片获得base32的层级关系(以下图片均来自互联网):

  

 

  进入D区域,则看到又分为若干区域,而R为其子区域:

  

 

  继续进入R区域,可以继续看到有子区域T区域:

 

 

  而2Y也是基于以上的关系类推,所以一个base32的编码是标示一个区域,而编码过程中会根据经纬度的精度来确定这个区域大小。从上面的解释大家肯定会想到编码的前缀是表示更大的区域。例如wx4g0ec1,它的前缀wx4g0e表示包含编码wx4g0ec1在内的更大区域。所以根据这个特点,利用模糊查询是可以达到一种附近地点的查询。

  Geohash算法实现其实非常简单,网上有很多例子,在这里借用下这些例子再加上比较详细的说明。基本算法流程是基于多轮的收敛,以达到满足精度要求为止。具体流程以(39.92324 纬度, 116.3906 经度)为例,首先将纬度的范围(-90, 90)平分成两个区间(-90, 0)、(0, 90),如果目标纬度位在(-90,0),则编码为0,在(0,90)则编码为1。由于上面的例子中维度39.92324是属于(0, 90),所以第一轮获得的编码位取1。接下来再将(0, 90)分成 (0, 45), (45, 90)两个区间,而39.92324位于(0, 45),所以编码为0。以此类推,直到精度符合要求为止,如下图所示:

  

 

  所以通过16轮的计算后得到经度39.92324的编码为:1011 1000 1100 0111 1001

  经度也用同样的算法,对(-180, 180)多轮的依次细分计算:

  

 

  得到经度116.3906的编码为1101 0010 1100 0100 0100

  经纬度的编码都计算完毕后,接下来就需要合并经纬度的编码,规则是以经度开始,依次每次取一位合并成5位的新编码,如上图红色字标示顺序所示:

  

 

  完成合并编码后就需要将该编码和base32编码表对应起来,做法是每5位为一个十进制数,以11100为例,它的十进制数是28,所以对应的base32编码表示W,如下图所示:

  

 

  其他的五位编码依次从表中找到对应位置后,(39.92324 纬度, 116.3906 经度)的base32编码为:wx4g0ec1

  解码算法与编码算法相反,先进行base32解码,然后分离出经纬度,最后根据二进制编码对经纬度范围进行细分即可,这里不再赘述。不过由于geohash表示的是区间,编码越长越精确,但不可能解码出完全一致的地址

  而关于Solr+Lucene使用Cartesian Tiers 笛卡尔层和GeoHash的构建索引和查询的细节介绍将在新的Blog中阐述。

  • 大小: 13.1 KB
  • 大小: 33.4 KB
  • 大小: 40.3 KB
  • 大小: 399.9 KB
  • 大小: 419.7 KB
  • 大小: 484.9 KB
  • 大小: 137.7 KB
  • 大小: 127.6 KB
  • 大小: 24 KB
  • 大小: 24.3 KB
分享到:
评论

相关推荐

    基于java-solr-geo空间坐标搜索、距离排序、分页

    基于solr-geo空间搜索 1、Solr的schema.xml配置 定义坐标field 2、Solr的data-config.xml配置 建立索引 3、java查询语法 坐标距离、分页、排序

    基于Solr的分布式全文检索系统的研究与实现.pdf

    本文的研究针对这一问题,通过设计并实现了一个基于Solr的分布式全文检索系统,有效解决了传统系统在处理大规模数据时的瓶颈问题。 系统采用网络爬虫技术,负责从互联网上抓取网页信息。这些信息被保存为文本文件,...

    基于Solr与Oracle的农村土地承包经营权确权成果空间数据库设计与实现.pdf

    该文提出了一种结合Oracle关系型数据库和Solr全文搜索引擎的解决方案。 1. **Oracle数据库**:Oracle作为传统的关系型数据库,被用于管理多源异构的成果数据。Oracle的**Spatial特性**允许存储和查询空间数据,提供...

    solr4.9.0.zip

    10. **地理空间搜索**:Solr支持地理空间搜索,可以基于地理位置进行范围查询和距离排序。 11. **XML/JSON API**:Solr 提供了基于HTTP的XML和JSON接口,方便与其他应用程序集成。 12. **强大的文档处理**:Solr...

    ikanalyzer-solr中文分词包兼容solr7.5

    ikanalyzer-solr中文分词包是专门为Apache Solr设计的一款强大的中文分词工具,它在处理中文文本时能够有效地进行词语切分,提高搜索准确性和效率。标题中提到的"ikanalyzer-solr中文分词包兼容solr7.5"意味着这个...

    Apache Solr(solr-7.7.3.tgz)

    5. **contrib**: 这里包含了各种社区贡献的模块,提供了额外的功能,如CSV导入、数据驱动的文档更新、地理空间搜索等。 6. **docs**: 包含Solr的API参考文档和其他技术文档,对于开发者和管理员来说非常有用。 7. ...

    solr开发维护参考

    Solr是Apache软件基金会的一个开源项目,它是基于Java的全文搜索服务器,主要功能包括文档索引、搜索、排序和分布式处理。Solr利用了Lucene库的强大搜索功能,并且提供了更高级别的API和服务,使得企业级搜索应用的...

    高效的企业级搜索引擎Solr

    ### 高效的企业级搜索引擎Solr #### 一、Solr概述 Solr是一款高性能、可伸缩的企业级搜索引擎,广泛应用于需要复杂全文检索功能的系统中。它基于Java开发,能够提供高度灵活的配置机制,并且具备强大的索引与查询...

    最新版windos solr-8.11.0.zip

    6. **数据分析**:Solr内建了丰富的数据分析组件,如Faceting(分面导航)用于分类和统计,Highlighting(高亮显示)用于查询结果的突出显示,以及Spatial Search(空间搜索)支持地理位置的搜索。 7. **优化与性能...

    SOLR的学习资料

    5. **优化索引**:定期进行索引优化可以合并多个段文件,提高搜索效率,但会占用更多磁盘空间。 通过这份学习资料,初学者可以掌握SOLR的基本操作,并逐步探索其高级特性,为实际项目中的应用打下坚实基础。在实践...

    Solrj and Solr and LDAP and SearchEngine

    Solr能够处理大量数据,并支持多种类型的搜索,如全文检索、空间搜索、拼写检查和 faceted search(分面搜索)。Solrj就是用来与Solr服务器通信的工具,允许开发者通过Java代码来利用Solr的各种功能。 【LDAP】 ...

    Flume+Solr演示demo.pdf

    Solr是一个开源的搜索引擎,基于Apache Lucene构建,用于快速搜索索引,它支持全文搜索、范围搜索、模糊搜索、高亮显示、动态集群、复制、负载均衡等特性。Solr通常用于网站搜索引擎,它能够索引各种格式的数据,...

    solr查询语法.pdf

    空间搜索是Solr中针对地理空间信息提供的专门搜索功能。它支持对空间数据进行索引,并提供基于圆形、方形或其他形状的范围搜索,甚至可以根据距离进行搜索结果排序。 检索运算符是Solr中用于构建复杂查询的工具,...

    solr新版参考手册(apache-solr-ref-guide-4.4)

    手册的最后一部分往往还包含了一些高级主题,例如与Hadoop集成、地理空间搜索、以及与NoSQL数据库的集成等,这些主题可以吸引已经熟悉Solr基本操作的用户进一步深入探索。 值得注意的是,本手册是基于Apache软件...

    Solr 使用文档 pdf版

    - **Solr**:Apache Solr 是一个高性能、基于 Lucene 的全功能搜索引擎平台。它支持分布式搜索,并提供了丰富的功能集来满足企业级搜索需求。 - **版本说明**:本手册针对的是 Solr 3.* 版本,该版本在当时是较为...

    solr-4.10.3

    5. **地理位置搜索**:内置对地理空间数据的支持,可以基于地理位置进行搜索和排序。 6. **XML/JSON等多格式支持**:Solr支持多种数据交换格式,如XML、JSON和CSV,便于与各种应用程序集成。 7. **自定义插件**:...

    solr基本总结

    - **索引技术**:Solr 基于索引查询数据,这虽然提高了搜索效率,但也可能会占用较多内存空间。 - **高亮显示**:能够突出显示搜索结果中的关键词。 - **分布式搜索**:支持分布式部署,从而实现更高的可扩展性和...

    搜索引擎选择: Elasticsearch与Solr - 叽歪.pdf

    相对而言,Solr是一个功能强大的搜索平台,它同样基于Apache Lucene。Solr的特色是具有成熟的用户界面和多种管理工具,这些工具使得配置和部署都比较容易。Solr对于搜索结果排序提供了强大的功能,也支持复杂的查询...

    Solr下载地址

    5. **地理空间搜索**:Solr支持基于地理位置的数据检索,适用于地图应用、位置服务等领域。 6. **丰富的API接口**:Solr提供了多种编程语言的API,方便开发者集成到不同的应用系统中。 7. **分布式部署**:Solr可以...

Global site tag (gtag.js) - Google Analytics