理解“query then fetch”和“dfs query then fetch” -

aoyouzi

浏览: 1988868 次
性别:
来自: 北京

最近访客更多访客>>

dy.f

zhaoshijie

lbq136957978

juzhibest

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

理解“query then fetch”和“dfs query then fetch”

博客分类：

搜索
技术总结

query then fetch dfs query then fetch

查询的代码：

$ curl -XGET localhost:9200/startswith/test/_search?pretty -d '{
        "query": {
        "match_phrase_prefix": {
           "title": {
             "query": "d",
             "max_expansions": 5
           }
         }
       }
     }' | grep title

      "_score" : 1.0, "_source" : {"title":"drunk"}
      "_score" : 0.30685282, "_source" : {"title":"dzone"}
      "_score" : 0.30685282, "_source" : {"title":"data"}
      "_score" : 0.30685282, "_source" : {"title":"drive"}

为何文档“drunk”分数为1.0，而其余的分数是0.3？难道这些文档不应该是相同的分数么，因为他们都同等地匹配了“d”。答案是肯定的，但是这个分数本身也有比较合理的地方。

默认搜索类型：`query then fetch`

答案：是也不是。默认情形下，ES会使用一个称之为Query then fetch的搜索类型。它运作的方式如下：

发送查询到每个shard
找到所有匹配的文档，并使用本地的Term/Document Frequency信息进行打分
对结果构建一个优先队列（排序，标页等）
返回关于结果的元数据到请求节点。注意，实际文档还没有发送，只是分数
来自所有shard的分数合并起来，并在请求节点上进行排序，文档被按照查询要求进行选择
最终，实际文档从他们各自所在的独立的shard上检索出来
结果被返回给用户

这个系统一般是能够良好地运作的。大多数情形下，你的索引有足够的文档来平滑Term/Document frequency统计信息。因此，尽管每个shard不一定拥有完整的关于整个cluster的frequency信息，结果仍然足够好，因为fequency在每个地方基本上是类似的。

但是在我们开头提起的那个查询，默认搜索类型有时候会失败。

dfs query then fetch

在上篇文章中，我们默认建立了一个索引，ES通常使用5个shard。接着插入了5个文档进入索引，向ES发送请求返回相关结果和准确的分数。其结果并不是很公平，对吧？

这是由于默认的搜索类型导致的，每个shard仅仅包含一个或者两个文档（ES使用hash确保随机分布）。当我们要求ES计算分数时候，每个shard仅仅拥有关于五个文档的一个很窄的视角。所以分数是不准确的。

幸运的是，ES并没有让你无所适从。如果你遇到了这样的打分偏离的情形，ES提供了一个称为“DFS Query Then Fetch”。这个过程基本和Query Then Fetch类型，除了它执行了一个预查询来计算整体文档的frequency。

预查询每个shard，询问Term和Document frequency
发送查询到每隔shard
找到所有匹配的文档，并使用全局的Term/Document Frequency信息进行打分
对结果构建一个优先队列（排序，标页等）
返回关于结果的元数据到请求节点。注意，实际文档还没有发送，只是分数
来自所有shard的分数合并起来，并在请求节点上进行排序，文档被按照查询要求进行选择
最终，实际文档从他们各自所在的独立的shard上检索出来
结果被返回给用户

如果我们使用这个新的搜索类型，那么获得的结果更加合理了（这些都一样的）：

$ curl -XGET 'localhost:9200/startswith/test/_search?pretty=true&search_type=dfs_query_then_fetch' -d '{
        "query": {
        "match_phrase_prefix": {
           "title": {
             "query": "d",
             "max_expansions": 5
           }
         }
       }
     }' | grep title

      "_score" : 1.9162908, "_source" : {"title":"dzone"}
      "_score" : 1.9162908, "_source" : {"title":"data"}
      "_score" : 1.9162908, "_source" : {"title":"drunk"}
      "_score" : 1.9162908, "_source" : {"title":"drive"}

结论

当然，更好准确性不是免费的。预查询本身会有一个额外的在shard中的轮询，这个当然会有性能上的问题（跟索引的大小，shard的数量，查询的频率等）。在大多数情形下，是没有必要的，拥有足够的数据可以解决这样的问题。

但是有时候，你可能会遇到奇特的打分场景，在这些情况中，知道如何使用DFS query then fetch去进行搜索执行过程的微调还是有用的。

http://www.jianshu.com/p/c7529b98993e

分享到：

Elasticsearch refresh vs. flush | Handler Interceptor与UriComponent

2015-01-26 17:25
浏览 1050
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

理解“query then fetch”和“dfs query then fetch”

相关性打分

默认搜索类型：`query then fetch`

dfs query then fetch

结论

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

理解“query then fetch”和“dfs query then fetch”

相关性打分

默认搜索类型：query then fetch

dfs query then fetch

结论

评论

发表评论

相关推荐

万字总结Java 9~15新特性

架构制图：工具与方法论

性能优化

【冬察冬见】FFmpeg系列学习笔记

有关创新的一些思考

浅谈面试官的培养

冬察冬见·全视角再议晋升

冬察冬见·晋升-晋升的那些事儿1

物联网MQTT实战

大小公司都适用的架构选型工具箱（涵盖上百个组件）

elasticsearch使用踩坑

【冬察冬见】读书日话高效读书

【冬察冬见·荐书】4·23世界读书日 80本书单推荐承包你一年的书单

快速上手 AB Test

优雅的微服务架构下的鉴权

知识图谱的构建

宜信微服务架构落地及其演进

MySQL性能优化神技

REST协议解密(原创)

大型互联网公司分布式ID方案总结

最近访客更多访客>>

默认搜索类型：`query then fetch`