Partitioning
有2种通过将数据分区方式来scale搜索引擎: 基于文档(Document based partitioning)and 基于词条(Term based partitioning). Elasticsearch 使用的基于文档的分区方式.
基于文档的分区(Document Based Partitioning)
每一个文档只存一个分区,每个分区持有整个文档集的一个子集,分区是一个功能完整的索引.
优点
- 每个分区都可以独立的处理查询.
- 可以非常简单的添加以文档为单位的索引信息.
- 网络开销很小,每个节点可以分别执行搜索,执行完了之后只需用返回文档的ID和评分信息就可以了,然后在其中一个我们执行分布式搜索的节点上执行合并就可以了.
缺点
- 查询如果需要在所有的分区上执行,那么它将执行 O(K*N) 次磁盘操作(K是词条(Term,或者理解为Field)的数量,N是分区的数量).
在实用性的角度来看基于文档的分区方式已经被证明是一个构建大型的分布式信息检索系统的一种行之有效的方法, 关于这方面的详细内容,可以看 这里 talk by Jeffrey Dean (Google).
基于词条的分区(Term Based Partitioning)
每个分区拥有一部分词条,词条里面包含了整个index的文档数据.
一些基于词条分区的系统,如Riak Search (built on top of Riak key-value store engine) 或是 Lucandra/Solandra (on top of Cassandra). 尽管这些系统不是完全一样,但是它们都面临一个相似的挑战,当然也得益于相同的设计理念.
优点
- 一般来说,你只需要在很少的部分分区上执行查询就行了,比如,我们有5个term词条的查询,我们将至多命中5个分区,如果这5个term词条都保存同一个分区中,那么我们只需用访问一个分区即可,而不管我们是不是实际上有50个分区.
- 另外一个优势就是对应K个Term词条的查询,你只需用执行 O(K) 次磁盘查找(假设我们使用的优化过的实现).
缺点
- 最主要的问题是Lucene Segment概念里面固有的很多结构都将失去。
The main problem is that whole notion of Lucene Segment which is inherent to a lot of constructs in Lucene is lost.
- 对于那些复杂的查询,网络开销将会变得非常高,并且可能使得系统可用性大大降低,尤其是那些会expand出大量的term词条的查询,如fuzzy或者prefix查询.
- 另外一个问题就是获取每个文档的信息将会变得非常困难,举例来说,如果你想获取文档的一部分数据来做进一步的控制,比如(google的PageRank算法),获取每个文档的这些数据都会变得非常困难,因为这种分区的方式使得文档的数据被分散到了不同的地方,所以实现faceting、评分、自定义评分等等都将变得难以实现.
相关推荐
### ElasticSearch中文学习教程知识点梳理 #### 一、总述 **1.1. 简介** ElasticSearch是一款基于Lucene构建的开源、分布式、RESTful搜索引擎。它专为云计算环境设计,具备实时搜索能力,且稳定、可靠、快速、...
分布式搜索是现代大数据处理的关键技术之一,而Elasticsearch作为其中的佼佼者,因其高效、灵活和可扩展性而广泛应用于各种场景。本篇将深入探讨Elasticsearch的基础知识,涵盖其核心概念、环境搭建、配置管理以及...
- ElasticSearch虽可处理热数据,但无法跨索引关联,需要做宽表处理。 - Redis作为键值对存储难以实现实时汇总。 - 经过多种尝试后,ClickHouse因其性能和灵活性脱颖而出。 - **头条选型**: - 需要支持交互式...
首先,DOOM引擎的核心在于其高效的渲染算法——BSP树(Binary Space Partitioning)。这种数据结构使得游戏场景能够被有效地分割和管理,提高了渲染速度和内存利用率。通过构建BSP树,引擎能够快速确定视线可见的...
// Partitioning index int index = partition(arr, low, high); quickSort(arr, low, index - 1); quickSort(arr, index + 1, high); } private static int partition(int[] arr, int low, int high) { int...
- Further performance improvements with automatic spatial partitioning. - API to manage instanced terrain detail prototypes at runtime (examples included). - Editor GPU Instancing simulation. Tree ...
- DLPAR(Dynamic Logical Partitioning)是IBM Power Systems中的一种技术,用于动态调整逻辑分区的资源。在克隆时,需要注意每个DLPAR的唯一性,以避免资源冲突。 3. **AIO(Auto Image Object)启用**: - AIO是...
如果确实需要,考虑使用全文搜索引擎如Elasticsearch。 8. **数据库设计**:良好的数据库设计是性能的基础。确保数据完整性,合理设计数据库模式,例如,使用合适的数据类型,避免冗余数据,遵循第三范式等。 9. *...