`

分布式搜索引擎ElasticSearch 介绍与简介

阅读更多

分布式搜索引擎ElasticSearch 介绍与简介

 

18OCT

分布式搜索引擎ElasticSearch(一) -- 介绍与简介

 

Jason:

  • ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎;设计用于云计算;能够达到实时搜索,稳定,可靠,快速。

 

  • ElasticSearch在近一年当中,有翻天覆地的变化,据我了解:

  1. 2012年11月,获得1000万美元的融资;

  2. 2013年02月,获得2400万美元的融资;

  3. 2013年初,亲爱的GitHub抛弃了Solr,取用了ElasticSearch 来做PB级的搜索;

    听到以上的消息,我心潮澎湃,欣喜若狂;口心念叨:有空折腾ElasticSearch才对得住自己啊!

   

  • ElasticSearch一些国内外的优秀案例:

  1. Github:“GitHub使用ElasticSearch搜索20TB的数据,包括13亿文件和1300亿行代码”

  2. Foursquare:“实时搜索5千万地理位置信息?Foursquare每天使用ElasticSearch做到了”

  3. SoundCloud:“SoundCloud使用ElasticSearch为1.8亿用户提供即时而精准的音乐搜索服务”

  4. Fog Creek : “Elasticsearch使Fog Creek可以在400亿行代码中进行一个月3千万次的查询”

  5. StumbleUpon : "Elasticsearch是StumbleUpon的关键部件,它每天为社区提供百万次的推荐服务"

     

  • ElasticSearch的一些概念:

  1. 集群 (cluster)

    在一个分布式系统里面,可以通过多个elasticsearch运行实例组成一个集群,这个集群里面有一个节点叫做主节点(master),elasticsearch是去中心化的,所以这里的主节点是动态选举出来的,不存在单点故障。

    在同一个子网内,只需要在每个节点上设置相同的集群名,elasticsearch就会自动的把这些集群名相同的节点组成一个集群。节点和节点之间通讯以及节点之间的数据分配和平衡全部由elasticsearch自动管理。

    在外部看来elasticsearch就是一个整体。

  2. 节点(node)

    每一个运行实例称为一个节点,每一个运行实例既可以在同一机器上,也可以在不同的机器上.所谓运行实例,就是一个服务器进程.在测试环境内,可以在一台服务器上运行多个服务器进程,在生产环境建议每台服务器运行一个服务器进程

  3. 索引(index)

    这里的索引是名词不是动词,在elasticsearch里面支持多个索引。类似于关系数据库里面每一个服务器可以支持多个数据库一样。在每一索引下面又支持多种类型,类似于关系数据库里面的一个数据库可以有多张表。但是本质上和关系数据库有很大的区别。这里暂时可以这么理解

     

  4. 分片(shards)

    把一个索引分解为多个小的索引,每一个小的索引叫做分片。分片后就可以把各个分片分配到不同的节点中

     

  5. 副本(replicas)

    每一个分片可以有0到多个副本,每个副本都是分片的完整拷贝,可以用来增加速度,同时也可以提高系统的容错性,一旦某个节点数据损坏,其他节点可以代替他.

 

介绍下es的几个概念:
cluster
     代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。


shards
     代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。


replicas
     代表索引副本,es可以设置多个索引的副本,副本的作用一是提高系统的容错性,当个某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率,es会自动对搜索请求进行负载均衡。


recovery
     代表数据恢复或叫数据重新分布,es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。


river
     代表es的一个数据源,也是其它存储方式(如:数据库)同步数据到es的一个方法。它是以插件方式存在的一个es服务,通过读取river中的数据并把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的,river这个功能将会在后面的文件中重点说到。


gateway
     代表es索引的持久化存储方式,es默认是先把索引存放到内存中,当内存满了时再持久化到硬盘。当这个es集群关闭再重新启动时就会从gateway中读取索引数据。es支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和amazon的s3云存储服务。


discovery.zen
     代表es的自动发现节点机制,es是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。

 


Transport
     代表es内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互,同时它支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等的传输协议(通过插件方式集成)。

 

ElasticSearch核心概念 

 

 1)索引(Index)

  ElaticSearch将数据存放在一个或多个索引当中。一个索引相当于一个数据库,里面存放用户文档数据。在底层,ElasticSearch实际上还是
 使用Lucene完成读写数据的操作,ElasticSearch索引是由一个或多个Lucene索引组成,所以ES中的分片或副本实际上就是一个Lucene索引。
 

 2)文档(Document)

  文档是ES中主要的实体,所有ES的查询都是基于存放在ES中文档资源的查询。每个文档都是由各种域(Field)组成,每个域(Field)有一个名
  称和一个或多个值构成。实际上,从用户的角度看,一个ES文档就是一个JSON对象。
 

 3)映射(Mapping)

  映射用于定义文档域的属性,这些属性包括分词器,字段类型,存储类型等。对于没有定义的字段类型的属性,ES可以自动通过其字段值进行
 识别。
 

 4)类型(Type)

  ES中每个文档必须有一个类型定义。这里的类型相当于数据库当中的表,类型定义了字段映射(类似数据库表结构),这样一来,每个索引可以包含多种文档类型,而每种文档类型定义一种映射关系。 
 

 5)节点(Node)

  ElasticSearch Server的一个实例称作一个节点,每个节点都知道所有文档所处的位置并能够将请求直接转发给拥有数据的节点。
  【号外】:Master Node
        集群启动后会将某个节点选为Master Node,Master Node主要负责管理集群中诸如创建或删除索引、从集群中添加或删除节点等集群范围的
  改变,Master Node不会关心基于文档的改变或检索。
 

 6)集群(Cluster)

  多个ES节点工作在一起组成一个集群。ES对于集群的支持几乎是无缝的,这也是ES重要的竞争优点之一。
 

 7)分片(Shard)

  ES集群环境下是将索引数据打散存放在多个节点上的,所以每个节点实际存放了ES索引的一部分,而这部分索引本质上就是Lucene的物理索引,  在ES中也称作“分片”,分片过程是ES自动执行并且对用户来说是可见,所以分片是基于索引的分片。在现在ES的版本1.3.1,每个索引分片数在创建时指定后不能改变。 
 

 8)副本(Replia)

  副本就是分片的一个拷贝,不仅能提高自身容灾,另外,请求量很大的情况下,副本可以分担主Shard压力,承担查询功能。副本个数还以在创
 建完索引后灵活调整。
 

 9)网关(Getway)

  ES会将各种集群状态信息、索引配置信息等全部持久存放在网关中。
 

 10)路由(Routing)

  ES给每个文档建索引后,通过路由可以算出所查的文档处在哪个分片上,因为在建立索引之初使用公式:shard = hash(routting) % number_of_pr
 imary_shards进行文档分配。routing值是一个任意的字符串,默认是文档的ID,通过人工指定就可以控制文档存放在哪个shard的位置了。
 

 11)索引别名(Index Alias)

  索引别名相当于快捷方式或软链接,可以指向一个或多个索引,甚至可以指向带路由的分片。
 

12)近实时性 near realtime (nrt)

        Elasticsearch是一个近实时性的搜索平台,所以对于刚建过的索引文件进行查询时需要一个轻微的等待时间(通常为1秒)。
 
 

Elasticsearch是一个搜索引擎,建立在Lucene之上,Lucene是一个全文搜索引擎库,最先进的,丰富特点的搜索引擎
库。

Lucene只是一个库,要驾驭它,你需要用java集成Lucene,
更糟糕的是,你需要了解信息搜索如何工作的,Lucene很复杂。
(PS:不懂Lucene,只会用还不是盲人一个么)

Elasticsearch使用Lucene,提供全文搜索,隐藏Lucene的复杂性。

Elasticsearch同时也是一个:

分布式,实时文档存储,每个域都被索引,可以被搜素。
一个分布式的搜索引擎,可以实时分析。

可以扩展到数百台服务器,巨大的数据。集成在一个独立的服务器,你可以通过REST风格的API来访问。

很容易上手,对新手隐藏了复杂的搜索理论,你很快就掌握它。

当你了解越多,你会越能掌握它的功能和特点,可配置,具有弹性,开始学习它!

分享到:
评论

相关推荐

    分布式搜索引擎ElasticSearch思维导图

    分布式搜索引擎ElasticSearch思维导图,ES思维带图。分布式搜索引擎ElasticSearch思维导图,ES思维带图。分布式搜索引擎ElasticSearch思维导图,ES思维带图。分布式搜索引擎ElasticSearch思维导图,ES思维带图。...

    分布式搜索引擎Elasticsearch开发实战基础篇 (ElasticSearch、ELK、搜索引擎、Lucene).rar

    分享一套完整版视频课程——分布式搜索引擎Elasticsearch开发实战基础篇 (ElasticSearch、ELK、搜索引擎、Lucene),本教程旨在带领大家进入搜索引擎领域,从无到有,深入浅出的讲解了什么是搜索引擎,搜索引擎的...

    牛客Java高级工程师 第6章 Elasticsearch,分布式搜索引擎 含视频教程和源码.rar

    牛客Java高级工程师 第6章 Elasticsearch,分布式搜索引擎\牛客Java高级工程师-第六章 Elasticsearch,分布式搜索引擎 .pdf 牛客Java高级工程师 第6章 Elasticsearch,分布式搜索引擎\第六章素材和源码\community-...

    es分布式搜索引擎

    **ES分布式搜索引擎详解** 在数字化信息时代,搜索引擎已经成为获取数据的关键工具。Elasticsearch(简称ES)是一款基于Lucene的开源、实时、分布式全文搜索引擎,它不仅提供了搜索功能,还能进行数据分析和可视化...

    分布式搜索引擎很好的资源

    常见的分布式搜索引擎有Elasticsearch、Solr、Hadoop的Nutch和Tika等。这些系统提供了丰富的API和插件,方便开发者集成和定制化。 总之,分布式搜索引擎是现代大数据时代的关键技术之一,它通过分布式架构实现了对...

    分布式搜索引擎Elasticsearch开发实战基础篇

    **分布式搜索引擎Elasticsearch开发实战基础篇** 在信息化飞速发展的时代,数据量激增,传统的数据库查询方式已经无法满足高效、实时的数据检索需求。此时,分布式搜索引擎如Elasticsearch应运而生,它以其强大的...

    ElasticSearch分布式搜索引擎 v8.2.2

    Elasticsearch 是一个分布式的免费开源搜索和分析引擎,适用于包括文本、数字、地理空间、结构化和非结构化数据等在内的所有类型的数据。Elasticsearch 在 Apache Lucene 的基础上开发而成,由 Elasticsearch N.V....

    分布式搜索引擎 ppt 说明资料

    分布式搜索引擎Elasticsearch基础知识点 1. 什么是Elasticsearch? Elasticsearch是一个开源的分布式搜索引擎,能够快速地从海量数据中找到需要的内容。它是elastic stack(ELK)的核心组件,负责存储、搜索、分析...

    ElasticSearch分布式搜索引擎 v6.7.1.zip

    这个压缩包“ElasticSearch分布式搜索引擎 v6.7.1.zip”包含的是Elasticsearch的源代码和相关文档,对于学习和研究Elasticsearch的内部工作原理,以及进行毕业设计或系统软件开发是非常有价值的资源。 首先,我们来...

    15_分布式搜索引擎写入和查询的工作流程是什么样的?.zip

    本篇将详细介绍分布式搜索引擎,特别是Elasticsearch的写入和查询工作流程,以及与Java高并发API的关联。 首先,我们要理解Elasticsearch的分布式架构。它基于Lucene构建,设计为分布式的、具有自动故障恢复特性的...

    16_分布式搜索引擎在几十亿数据量级的场景下如何优化查询性能?.zip

    在实际应用中,如Java相关的开发中,开发者需熟练掌握如Spring Data Elasticsearch等库,它们简化了与分布式搜索引擎的集成,提供了高级API以处理查询、索引管理和集群监控。 总结,面对几十亿数据量级的场景,...

    ElasticSearch分布式搜索引擎是一个分布式的RESTful风格的搜索和数据分析引擎,能够解决越来越多的用例.rar

    ElasticSearch分布式搜索引擎是一个分布式的RESTful风格的搜索和数据分析引擎,能够解决越来越多的用例。作为Elastic Stack的核心,它集中存储您的数据,帮助您发现意料之中以及意料之外的情况。 Elasticsearch是一...

    ElasticSearch分布式搜索引擎在天文大数据检索中的应用研究.pdf

    #### 二、ElasticSearch分布式搜索引擎介绍 ElasticSearch是一个基于Lucene的开源搜索和分析引擎,支持全文搜索和分析。它具有高扩展性和容错能力,非常适合处理大规模数据集。在本研究中,我们利用了ElasticSearch...

    ElasticSearch分布式搜索引擎在地名地址检索中的应用.pdf

    Elasticsearch分布式搜索引擎是当前搜索引擎技术中的一个热点,尤其在处理大规模、实时的搜索数据方面显示出其独特的优越性。本文档主要讨论Elasticsearch在地名地址检索领域的应用,这种搜索引擎技术正在被广泛应用...

    微服务 SpringCloud :分布式搜索引擎-Elasticsearch

    elasticsearch是一款非常强大的开源搜索引擎,支持的功能非常多 【项目介绍】 1、该项目是个人高分项目源码(文档+源码),已获导师指导认可通过,答辩评审分达到96分。 2、该资源内项目代码都经过测试运行成功,...

    ElasticSearch分布式搜索引擎 v7.17.18.zip

    **Elasticsearch分布式搜索引擎 v7.17.18** Elasticsearch是一个开源的、高度可扩展的全文搜索引擎,基于Lucene构建,旨在提供实时、分布式、容错能力强的搜索和数据分析能力。在v7.17.18版本中,Elasticsearch继续...

    分布式搜索引擎-学习笔记-3

    总之,分布式搜索引擎Elasticsearch在Java开发环境中扮演了重要角色,它为我们提供了高效、灵活的全文搜索和数据分析能力,是构建大规模数据应用的理想选择。通过深入学习和实践,我们可以更好地掌握这一工具,提升...

    ElasticSearch分布式搜索引擎 v8.12.2.zip

    **Elasticsearch分布式搜索引擎v8.12.2详解** Elasticsearch是一个开源的全文搜索引擎,基于Lucene库,设计为分布式、可扩展且实时的搜索和分析引擎。它的核心特性包括强大的全文搜索、实时分析、高可用性和容错...

    基于scrapy的分布式搜索引擎

    在"基于Scrapy的分布式搜索引擎"项目中,我们将探讨如何利用Scrapy来创建一个能够处理大规模数据抓取的分布式系统,并结合搜索引擎技术,实现对抓取数据的有效检索。 一、Scrapy框架详解 Scrapy由多个组件构成,...

Global site tag (gtag.js) - Google Analytics