`
qindongliang1922
  • 浏览: 2184051 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117537
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:125922
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:59912
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71301
社区版块
存档分类
最新评论

浅谈ElasticSearch的嵌套存储模型

    博客分类:
  • ELK
阅读更多


最近一个半月都在搞SparkStreaming+Hbase+Redis+ES相关的实时流项目开发,其中重度使用了ElasticSearch作为一个核心业务的数据存储,所以这段时间更新文章较少,现在开发基本完事,接下来的会写几篇有关ElastiSearch的使用心得。


大多数时候我们使用es都是用来存储业务比较简单的数据,比如日志log类居多,就算有一些有主外键关联的数据,我们也会提前join好,然后放入es中存储。

的确,扁平化后的数据存入索引,无论是写入,更新,查询都比较简单。但是有一些业务却没法扁平化后存储。比如我们这次的业务数据。由于业务本身比较复杂,先看下数据实体模型。






总共是三层模型,可以看到User(用户)包含多个Quest(题目),每个题目又包含多个Kp(知识点),其中User,Quest,Kp都是一个实体类,可以包含多个属性,按照es的字段类型应该叫做object类型,先说说为什么不能扁平化处理在写入索引,因为一旦扁平化其实只有统计知识点相关的聚合才是正确的,若想统计题目和人的一些聚合指标有些是查不出来的,因为一旦扁平前2级数据会被冗余放大好多倍,导致计算指标会出现问题。常规的count+distinct可以出来,但是一些sum指标就不对了,会多算冗余数据的和,而且没法再减出去,如果想做可能需要多次查询才能搞定,理想情况下,一次查询就能搞定大部分查询或聚合
所以只有嵌套设计才能贴合真实的数据模型,换做关系型数据需要三张表,用mongodb也可以但是查询+聚合就没有es这么强大和高效


三层嵌套的好处就是贴合实际的数据实体模型,但是带来的弊端也非常明显,对深层嵌套数据的删除,修改比较麻烦,虽然也能做到,但是每一层的数据量越大,性能可能就越低,所以嵌套方案,适合存储和查询多级嵌套数据,且更新和删除操作少的业务情况,尽量没有修改和删除。



es的嵌套查询和聚合支持都比较完善,并且支持嵌套反转查询。嵌套数据的添加可以使用script脚本方式来完成,直接将java的bean给转换完为json提交即可。

下面来看下动态mapping+嵌套类型设置,一个模板如下:


{
  "order": 0,
  "template": "work*",
  "settings": {
    "index": {
      "number_of_replicas": "0",
      "number_of_shards": "3"
    }
  },
  "mappings": {
    "_default_": {
      "dynamic_templates": [
        {
          "nested_kps": {
            "mapping": {
              "type": "nested"
            },
            "path_match": "quests.kps"
          }
        },
        {
          "nested_quests": {
            "mapping": {
              "type": "nested"
            },
            "match": "quests"
          }
        },
        {
          "string_fields": {
            "mapping": {
              "index": "not_analyzed",
              "type": "string"
            },
            "match": "*",
            "match_mapping_type": "string"
          }
        },
        {
          "message": {
            "mapping": {
              "index": "analyzed",
              "type": "string"
            },
            "match": "message",
            "match_mapping_type": "string"
          }
        },
        {
          "date_fields": {
            "mapping": {
              "doc_values": true,
              "type": "date"
            },
            "match": "*",
            "match_mapping_type": "date"
          }
        },
        {
          "float_fields": {
            "mapping": {
              "doc_values": true,
              "type": "float"
            },
            "match": "*",
            "match_mapping_type": "float"
          }
        },
        {
          "double_fields": {
            "mapping": {
              "doc_values": true,
              "type": "double"
            },
            "match": "*",
            "match_mapping_type": "double"
          }
        },
        {
          "integer_fields": {
            "mapping": {
              "doc_values": true,
              "type": "integer"
            },
            "match": "*",
            "match_mapping_type": "integer"
          }
        },
        {
          "long_fields": {
            "mapping": {
              "doc_values": true,
              "type": "long"
            },
            "match": "*",
            "match_mapping_type": "long"
          }
        }
      ],
      "_all": {
        "enabled": false
      }
    }
  },
  "aliases": {}
}


嵌套类型的关键词是nested,如果一个类型是nested,就相当于是设置了Java里面的List是一个集合对象list,可以有多个同一种类型的实体类数据,每个数据里面还可以有自己的嵌套类型或其他类型,上面的动态mapping里面数据类型设置各个类型的定义,并且根据path设置了嵌套的动态mapping设置。这样以来就相当于设置了三层嵌套。

到此我们应该能理解嵌套模型的定义和使用场景了,下篇会给出如何插入数据和使用script追加数据。


有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。
技术债不能欠,健康债更不能欠, 求道之路,与君同行。


  • 大小: 13.9 KB
  • 大小: 60.3 KB
0
0
分享到:
评论

相关推荐

    02-Elasticsearch AI 大模型搜索引擎介绍与演示 meetup 成都 8.19 2023

    Elasticsearch 关联引擎™是 Elasticsearch AI 大模型搜索引擎的核心组件,提供了矢量数据库、矢量生成、矢量存储和搜索等功能。该引擎还支持与第三方 Transformer 模型(如 OpenAI GPT-3.5 和 GPT-4)的集成。 ...

    商城sku在es中存储模型

    为了提高搜索效率与用户体验,越来越多的企业选择使用Elasticsearch(简称ES)作为其商品数据的搜索引擎。本文将详细介绍如何在ES中构建有效的SKU(Stock Keeping Unit,库存量单位)存储模型,并对给定的存储模型...

    elasticsearch嵌套聚合dsl

    elasticsearch嵌套聚合dsl

    Springboot集成elasticsearch

    Elasticsearch(简称ES)作为一个强大的分布式搜索引擎,因其易用性、高可扩展性和实时性能而备受青睐。Spring Boot,作为Java开发框架的明星产品,通过简化配置使得开发变得更加便捷。本文将深入探讨如何将Spring ...

    Elasticsearch 存储方式和管理优化细节1

    Elasticsearch 是一个分布式搜索引擎,其数据存储方式和管理优化对于高效检索和稳定运行至关重要。在Elasticsearch中,数据存储的基本单位是段(segment),每个段都是一个倒排索引,由Lucene生成。每次数据写入后,...

    (狂神)ElasticSearch快速入门笔记,ElasticSearch基本操作以及爬虫(Java-ES仿京东实战)

    好记性不如烂笔头哦~,ElasticSearch,简称es,es是一个开源的高拓展的分布式全文搜索引擎它可以近乎实时的存储、检索数据;本身拓展性很好,可以拓展到上百台服务器,处理PB级别的数据。es也是用Java开发并使用...

    elasticsearch-net, Elasticsearch.Net &嵌套.zip

    elasticsearch-net, Elasticsearch.Net &嵌套 这两个存储库分别为和收费 Elasticsearch.Net,这两个正式的elasticsearch. NET 客户机。兼容矩阵Elasticsearch客户端支持 Windows CI Linux CI Nuget CI

    Elasticsearch笔记.rar

    Elasticsearch(简称ES)是一款基于Lucene的开源全文搜索引擎,它提供了分布式、实时、高可扩展的数据存储和搜索能力。在众多大数据分析和实时搜索场景中,Elasticsearch表现出色,成为许多企业的首选技术。 **一、...

    elasticsearch 8.11.3 windows安装包

    Logstash 和 Beats 有助于收集、聚合和丰富您的数据并将其存储在 Elasticsearch 中。Kibana 使您能够以交互方式探索、可视化和分享对数据的见解,并管理和监控堆栈。 Elasticsearch 为所有类型的数据提供近乎实时的...

    ElasticSearch:向量空间模型,使用ES作为索引器的语言模型

    Elasticsearch(简称ES)是一种基于Java开发的分布式、RESTful风格的全文搜索引擎,广泛应用于数据存储、分析和检索。它以其强大的搜索功能、实时性、高可扩展性和容错性受到广大开发者喜爱。在理解如何利用Elastic...

    ES客户端+谷歌浏览器插件+Multi-Elasticsearch-Head

    1.保存和存储几个Elasticsearch端点 2.索引选项卡中的更多列 3. 任何请求现在都可以像 /_cat/indices 一样处理 JSON 返回 4. 更简约的外观(更小的字体等...) Multi-Elasticsearch-Head是一个用于管理多个Elastic...

    java elasticsearch 存储查询

    这些类通常用作数据模型,用于将Java对象序列化为JSON文档,然后存入Elasticsearch。它们也可能包含注解,如`@Document`,用于指定索引、类型等元信息。 `utils`目录可能包含了各种辅助工具类,比如JSON转换工具,...

    ES查询客户端,elasticsearch可视化工具 elasticsearch查询客户端

    **Elasticsearch查询客户端与可视化工具** Elasticsearch(简称ES)是一款强大的开源搜索引擎,广泛应用于数据检索、分析...正确选择和使用这些工具,能帮助开发者更好地管理和利用存储在Elasticsearch中的海量数据。

    Elasticsearch 开发手册

    在数据抽取 ELT 领域,ES 全家桶 ELK(Elasticsearch+Logstash+Kibana)赫赫有名。 Elasticsearch 基本概念: * 倒排索引:Elasticsearch 为什么快,核心设计理念就是采用了倒排索引机制。倒排索引的方式是,根据 ...

    elasticSearch(ES)最新版 ik分词插件7.10 elasticsearch-analysis-ik-7.10.0

    Elasticsearch(ES)是一种流行的开源全文搜索引擎,它基于Lucene构建,提供了分布式、RESTful风格的搜索和分析引擎服务。在中文环境下,为了实现精确的分词和搜索,我们需要安装适合版本的分词插件,如“elastic...

    elasticsearch elasticsearch-6.2.2 elasticsearch-6.2.2.zip 下载

    根据提供的文件信息,我们可以推断出本篇文章将围绕Elasticsearch 6.2.2版本进行详细介绍,包括其下载方式、主要功能特性以及在实际应用中的常见用途。 ### Elasticsearch简介 Elasticsearch是一款基于Lucene的...

    ElasticSearch官方测试数据

    Elasticsearch(ES)是一种流行的开源全文搜索引擎,它基于Lucene库构建,被广泛用于大数据分析、日志聚合、实时搜索和索引等场景。官方提供的测试数据集是检验Elasticsearch功能、性能和稳定性的关键资源,可以帮助...

    基于.netcore搜索封装ElasticSearch.zip

    索引是Elasticsearch中的逻辑存储单元,类似于关系数据库中的表。 3. **序列化与反序列化**: 使用Nest库,对象会被自动转换为JSON格式,发送到Elasticsearch进行索引。查询结果也会被反序列化回.NET对象。 4. **...

Global site tag (gtag.js) - Google Analytics