`

Solr Replication

    博客分类:
  • solr
 
阅读更多

个人博客:http://demi-panda.com

Solr 的扩展 (Scaling)


当你的索引数量越来越大,你会发现你的搜索响应时间变得更慢,索引新内容的时间也会越来越长,那么,到了做出一些改变的时候了,幸运的是, solr 很好的考虑到了这些情况,你只需要改变你的配置就可以了。

以下将从三个方面讲述 solr scaling

l  调优某个 Solr 服务器 (Scale High)

通过缓存和内存管理优化某个单实例的 Solr 。将 Solr 部署到一个拥有快速的 CPU 和硬件的专用服务器,通过调优,最大化的将单个服务器的性能达到最高。

l  使用多 Solr 服务器 (Scale Wide)

使用多 Solr 服务器。如果你的 avgTimePerRequest 参数在你可接受的范围内(数据量一般在数百万),那么可以通过配置将你的 master 上的索引完整地复制到 slave 机器上;如果你的查询已经很慢,那么使用分片来讲你的单个查询的负载分发到多个 Solr 服务器上。

l  使用复制 (replication) 和分片 (sharding)(Scale Deep)

当你的数据量足够大,你需要同时使用复制和分片,那么每个分片将对应一个 master 和若干 slave ,这将是一个最复杂的架构。

我们将会对三个性能参数进行优化:

l  TPS(Transaction Per Second) 每秒事务处理量,可以查看 http://localhost:8983/solr/mbtracks/admin/stats.jsp 或者查看 requesHandler avgTimePerRequest avgRequestsPerSecond 参数。

l  CPU Usage CPU 使用情况,在 Windows 下可以使用 PerfMon 获得 CPU 使用的相关信息,而在 Unix 类操作系统上使用 top

l  Memory Usage 内存使用情况,可以使用 PrefMon top jConsole 来查看。

接下来将会介绍对于 Solr scaling


调优某个 Solr 服务器 (Scale High)


Solr 提供了一系列可选的配置来增强性能,具体怎么使用将取决于你的应用程序。下面将对其中最常用的进行介绍


JVM 配置


Solr 运行在 JVM 之上,因此对 JVM 的调优将直接影响 Solr 的性能,不过对于 JVM 参数的改变要慎重,因为,很可能一丁点改变会引发很大的问题。

可以在启动的时候指定 JVM 参数:

java -Xms512M -Xmx1024M -server -jar start.jar

你的 Xmx 参数应当为你的操作系统以及运行在服务器上的其他进程预留足够的内存,比如你有 4G 的索引文件,你可以指定 6G RAM (并指定较大的缓存)那么你就能取得比较好的性能。

另外,在可能的情况下,尽量使用版本较高的 Java 版本,因为新版本的 Java 虚拟机性能越来越好。


HTTP 缓存


因为 Solr 的许多操作都是基于 HTTP 的,因此 Solr HTTP 缓存有很大的支持。如果你想使用 HTTP 缓存,那么你需要在 solrconfig.xml 中做如下配置:

<httpCaching lastModifiedFrom="openTime" etagSeed="Solr" never304="false">

<cacheControl>max-age=43200, must-revalidate</cacheControl>

</httpCaching>

默认情况下, Solr 是不使用 304 not modified 状态给客户端的,而是始终返回 200 OK ,上面的配置指明 max-age 43200 秒。下面是例子:

      >> curl -v http://localhost:8983/solr/mbartists/select/?q=Smashing+Pumpkins

< HTTP/1.1 200 OK

< Cache-Control: max-age=43200

< Expires: Thu, 11 Jun 2009 15:02:00 GMT

< Last-Modified: Thu, 11 Jun 2009 02:55:39 GMT

< ETag: "YWFkZWIyNjVmODgwMDAwMFNvbHI="

< Content-Type: text/xml; charset=utf-8

< Content-Length: 1488

< Server: Jetty(6.1.3)

很显然, HTTP 缓存配置生效了,那么,我们也可以指定 If-modified-since 参数,这样服务器会比较,如果在最新更改时间之后,那么服务器会返回最新数据。

           >>curl -v -z "Thu, 11 Jun 2009 02:55:40 GMT"

  http://localhost:8983/solr/mbartists/select/?q=Smashing+Pumpkins

* About to connect() to localhost port 8983 (#0)

* Trying ::1... connected

* Connected to localhost (::1) port 8983 (#0)

> GET /solr/mbartists/select/?q=Smashing+Pumpkins HTTP/1.1

> User-Agent: curl/7.16.3 (powerpc-apple-darwin9.0) libcurl/7.16.3

OpenSSL/0.9.7l zlib/1.2.3

> Host: localhost:8983

> Accept: */*

> If-Modified-Since: Thu, 11 Jun 2009 02:55:40 GMT

< HTTP/1.1 304 Not Modified

< Cache-Control: max-age=43200

< Expires: Thu, 11 Jun 2009 15:13:43 GMT

< Last-Modified: Thu, 11 Jun 2009 02:55:39 GMT

< ETag: "YWFkZWIyNjVmODgwMDAwMFNvbHI="

< Server: Jetty(6.1.3)

Entity tag 也是一种新的方法来进行鉴别,它比使用 last modified date 更加的强健和灵活。 ETag 是一个字符串。在 Solr 的索引更新以后,当前的 ETag 会随之改变。


Solr 缓存


Solr 为缓存使用了 LRU 算法,缓存存放在内存中,缓存和 Index Searcher 关联在一起,维持了一个数据的快照 (a snapshot view of data). 在一个 commit 之后,新的 index searcher 打开,并会自动预热 (auto-warmed). 自动预热指的是之前搜索的缓存会被拷贝到新的 searcher 。接着,预先在 solrconfig.xml 中定义的 searcher 会运行。为那些需要排序的字段 (field) 加入一些典型的 query newSearcher firstSearcher ,这样,新的 searcher 就能为新的搜索提供服务了。

Solr1.4 使用了 FastLRUCache, 它比 LRUCache 要更快,因为它无需单独的线程来移除无用的 items

通过 Solr statistics 页面,你可以看到你的缓存有多大,并且可以根据实际情况对缓存的大小进行调整以适应最新的情况。

设计更好的 Schema

你需要考虑是否 indexed ,是否 stored 等等,这些将决定于你应用程序的具体情况。如果你存储很大的文本到你的索引中,你最好使用 field compressed 选项配置对其进行压缩。如果你不是总需要读取所有的 fields ,那么在 solrconfig.xml 中配置使用 field 延迟加载: <enableLazyFieldLoading>true</enableLazyFieldLoading>

这会起到很好的作用。

注意:如果你使用了 compressed ,那么你可能需要使用 field 延迟加载,同时还要降低解压缩的代价。另外降低文本分析的数量将有效提高性能,因为文本分析会消耗大量的 CPU 时间,并且使得你的索引大幅增大。

索引策略

一种加速索引的方式是分批索引,这样将会显著加速性能。但是,随着你的 document 增加,性能还是会开始下降。根据经验,对于大的 document ,每批索引 10 个,而对于小的 document ,每批索引 100 个,并分批提交。

另外,使用多线程进行索引将会再次提高性能。

取消 document 唯一性检查 (Disable unique document check)


默认情况下,索引的时候 Solr 会检查主键是否有重复的,以避免不同的 document 使用相同的主键。如果你确认你的 document 不会有重复的主键,将参数 allowDups=true 加到 url 上可以取消检查,对于 scv 文档,使用 overwrite=false

Commit/optimize 因子 ( factors)


对于大的索引以及频繁的更新,使用较大的 mergeFactor ,它决定了 Lucene 会在 segments 数量达到多少时将它们合并 (merge)

优化 Faceting( 分组查询 ) 的性能


使用 Term Vectors

Term Vectors 是某 field 经文本分析之后的一系列 terms 。它一般包括了 term 的频率, document 的频率和在文本中的数值偏移量,启用它有可能会增强 MoreLikeThis 查询和 Hignlight 查询的性能。

但是启用 tern vectors 会增加索引的大小,并且可能根本不会在 MoreLikeThis Highlight 查询结果中。

提升 phrase 查询的性能


在大索引的查询中, phrase 查询的性能会很慢,因为,某个 phrase 可能会出现在很多的 document 中,一种解决办法是使用 filter 过滤掉诸如“ the ”这样没有意义的词语。但是这样会使得搜索出现歧义,解决方案是使用 Shingling ,它使用类似 n-gram 的方法将搜索句子切分,如“ The quick brown fox jumped over the lazy dog ”将会变为 "the quick", "quick brown",

"brown fox", "fox jumped", "jumped over", "over the", "the lazy", "lazy dog". 粗糙的测试表明,这样至少可以提高 2-3 倍的性能。


使用多 Solr 服务器 (Scale wide)


当你对单台 Solr 服务器的调优仍然无法满足性能需求的时候,接下来你应该考虑拆分查询请求到不同的机器上,具备横向扩展 (Scale wide) 是可扩展系统的最基本的特点,因此, solr 也具备了该特点。

Script VS Java replication

Solr1.4 之前, replication 是通过使用 Unix 脚本进行的。一般来说,这种方案还算不错,但是可能有一些复杂了,需要编写 shell 脚本, cron jobs resync daemon

1.4 开始, Solr 实现了基于 Java 的复制策略,不用再编写复杂的 shell 脚本,并且运行得更快。


Replication 的配置在 solrconfig.xml 之中,并且配置文件本身可以在 master slave 服务器之间被复制。 Replication 目前已经支持 Unix Windows 系统并且已经集成到了 Admin interface 之中。 Admin interface 目前可以控制复制 --- 例如,强制开始 replication 或者终止失效( stalled )的复制。复制是通过 ReplicationHandler 提供的 REST API 进行的。


开始体验多 Solr 服务器


如果你在多个 Solr 服务器之间使用了同一个 solrconfig.xml 文件,那么你需要在启动的时候指定以下几个参数:

l  -Dslave=disabled :指定当前 solr 服务器是 Master Master 将负责推送索引文件到所有 slave 服务器。你将会存储 document master 上,而在 slave 服务器上进行查询。

l  -Dmaster=disabled :指定当前 solr 服务器是 Slave Slave 要么定期轮询 Master 服务器来更新索引,要么手动的通过 Admin interface 触发更新操作。一组 slave 将会被负载均衡(可能是 HAProxy 之类)器管理着来对外提供搜索。

如果你想在同一机器上运行多个 Solr 服务器,那么你需要通过 -Djetty.port=8984 指定不同的端口,并且通过 -Dsolr.data.dir=./solr/data8984 指定不同的 data 目录。

配置 Replication


配置 replication 很简单,在 ./conf/solrconfig.xml 中就有示例配置 :


     <requestHandler name="/replication" class="solr.ReplicationHandler" >
       <lst name="master">
         <str name="enable">${master.enable:false}</str>
         <str name="replicateAfter">commit</str>
         <str name="replicateAfter">startup</str>
         <str name="confFiles">schema.xml,stopwords.txt,elevate.xml</str>
       </lst>
       <lst name="slave">
         <str name="enable">${slave.enable:false}</str>
         <str name="masterUrl">http://192.168.3.227:6091/solr-web-geo/dealgeo/replication</str>
         <str name="pollInterval">00:00:60</str>
         <str name="compression">internal</str>
         <str name="httpConnTimeout">5000</str>
         <str name="httpReadTimeout">10000</str>
       </lst>
     </requestHandler>


注意 ${} 将能够运行期进行配置,它将通过 -Dmaster=disabled -Dslave=disabled 决定这里的参数是 master 还是 slave Master 机器已经配置了在每次 commit 之后进行 replication 。并且可通过 confFiles 属性以指定复制配置文件。复制配置文件非常有用,因为你可以在运行期修改配置而无需重新部署。在 master 上修改配置文件, replication slave 后, Slave 将会知道配置文件被修改了,并 reload core

可以参考 http://wiki.apache.org/solr/SolrReplication

Replication 的实现


Master 是感知不到 Slave 的存在的, Slave 会周期性的轮询 Master 来查看当前的索引版本。如果 Slave 发现有新的版本,那么 Slave 启动复制进程。步骤如下:

1.         Slave 发出一个 filelist 命令来收集文件列表。这个命令将返回一系列元数据( size lastmodified alias 等等)

2.         Slave 查看它本地是否有这些文件,然后它会开始下载缺失的文件 ( 使用命令 filecontent) 。如果连接失败,则下载终止。它将重试 5 次,如果仍然失败则放弃。

3.         文件被下载到了一个临时目录。因此,下载中途出错不会影响到 slave

4.         一个 commit 命令被 ReplicationHandler 执行,然后新的索引被加载进来


跨多个 Slave 的分布式搜索

 

索引一些文件到 Master

你可以用 SSH 运行两个 session ,一个开启 Solr 服务,另一个索引一些文件:

>> curl http://localhost:8983/solr/mbreleases/update/csv -F f.r_

attributes.split=true -F f.r_event_country.split=true -F f.r_event_

date.split=true -F f.r_attributes.separator=' ' -F f.r_event_country.

separator=' ' -F f.r_event_date.separator=' ' -F commit=true -F stream.

file=/root/examples/9/mb_releases.csv

上面的命令索引了一个 csv 文件。你可以通过 Admin interface 监控这个操作。

配置 Slave

 

之前已经索引了文件,并且通过复制已经到了 slave 上,接下来,需要使用 SSH slave 机器上,配置 masterUrl 如下:

<lst name="${slave:slave}">

<str name="masterUrl">

http://ec2-67-202-19-216.compute-1.amazonaws.com:8983/solr/mbreleases/replication

</str>

<str name="pollInterval">00:00:60</str>

</lst>

你可以到 Admin interface 上查看当前的 replication 状况。



分享到:
评论

相关推荐

    Solr.学习文档

    Solr Replication 主要是指在 Solr 集群中的不同节点之间同步索引数据的过程。Solr 支持两种类型的复制:自动复制和手动复制。 - **自动复制**:通过配置自动复制,当主节点上的索引发生变化时,这些更改会自动传播...

    最新版windows solr-8.8.2.zip

    1. **分布式搜索**:Solr支持在多台服务器上分布式部署,通过Sharding和Replication技术,能够处理海量数据,并实现快速的搜索响应。 2. **灵活的数据导入**:Solr提供了DataImportHandler(DIH),可以方便地从...

    Solr项目源码及solr资源包

    8. **SolrCloud模式**:如果项目涉及到SolrCloud,那么还需要了解分布式搜索和存储的概念,如Sharding(分片)、Replication(复制)和ZooKeeper(协调节点)。 9. **Spring Data Repository**:项目可能使用了...

    solr入门java工程

    4. 分布式搜索的概念,特别是SolrCloud的Sharding和Replication机制。 5. 如何配置和使用CloudSolrClient进行SolrCloud的交互。 通过深入研究这个入门工程,你将能够熟练掌握Solr与Java的结合使用,为构建基于华为...

    Solr(Cloudera)使用手册

    ### Solr(Cloudera)使用手册 #### 一、创建Collection与管理实例 在使用Solr(Cloudera)时,创建Collection是基本的操作之一。Collection是Solr中的数据存储单元,相当于关系数据库中的表。 ##### 创建路径与实例 ...

    最新版windos solr-8.11.0.zip

    通过Sharding和Replication技术,保证了数据的高可用性和容错性。 3. **实时索引**:Solr具有快速的索引能力,允许实时或准实时地更新和查询数据,适应不断变化的数据环境。 4. **Cloud模式**:SolrCloud模式是...

    solr4.9.0.zip

    4. **分布式搜索**:Solr 4.9.0 支持分布式搜索,可以将索引分散在多台服务器上,通过Sharding和Replication技术实现负载均衡和数据冗余,提高系统的可用性和性能。 5. **实时索引**:Solr具有实时索引能力,即新...

    solr 4.10&

    - **Replication(复制)**:通过主从复制,确保数据的一致性和高可用性,当主节点故障时,从节点可以接管服务。 - **Cloud模式**:通过ZooKeeper协调,支持动态添加和删除节点,实现自动负载均衡和故障恢复。 - ...

    solr安装与配置

    - **配置Replication**:为提高系统的可用性和容错能力,可以设置多个副本,确保数据的安全性和一致性。 综上所述,Solr的安装与配置涉及多个环节,从基本的环境搭建到复杂的集群配置,每一步都至关重要。通过本文...

    solr5.5.4部署及使用

    例如,通过SolrCloud实现分布式部署,利用Sharding和Replication提高可用性和性能,以及通过设置过滤器、分析器等进一步定制搜索行为。总之,掌握Solr的部署和使用是构建高效全文搜索引擎系统的基础,它能为企业数据...

    ES和solr搜索方案对比

    首先,ES是一个分布式搜索服务器,它提供了轻松的分片(sharding)和复制(replication)功能。这意味着ES能够将一个大索引分割成小块,分散在不同的节点上,同时它还能够将索引复制到多个节点,从而实现高可用性和...

    solr4.3源代码一

    通过Sharding和Replication,SolrCloud可以将索引分散在多个节点上,实现高可用性和负载均衡。 **Analysis组件** 在你提到的"analysis"目录中,包含的是Solr的文本分析模块。这部分代码负责对输入的文本进行预处理...

    solr搜索服务器安装配置

    3. **分布式部署**:通过Sharding和Replication机制实现Solr集群的分布式部署,提高系统的可用性和扩展性。 4. **监控工具**:使用Solr提供的监控工具或者第三方工具(如Ganglia、Nagios等)对Solr集群进行监控。 #...

    solr-8.1.1.tgz

    它通过Sharding和Replication技术,确保数据的可用性和容错性。 3. **云服务支持**:SolrCloud是Solr的分布式管理解决方案,它基于ZooKeeper提供集群管理和配置协调,确保高可用性和一致性。在Solr 8.1.1中,用户...

    solr开发维护参考

    理解ZooKeeper的角色以及Sharding和Replication原理是大规模部署的关键。 8. **实时索引**:Solr支持实时添加、更新和删除文档,这对于需要实时反映数据变化的应用场景非常重要。 9. **优化与分析**:索引优化是...

    solr6.6.0源码

    4. **复制(Replication)**:用于保证数据的一致性和冗余,防止单点故障。 5. **Cloud模式**:在ZooKeeper的协调下,Solr支持云部署,实现动态集群管理和数据路由。 二、Solr配置 Solr的配置主要通过`solrconfig....

    solr-7.5.0.zip

    SolrCloud支持自动的Sharding和Replication,使得数据分散在多个服务器上,提高了系统的稳定性。 2. **查询与排序**:Solr提供了丰富的查询语法,包括标准的Lucene查询语法、布尔运算符、通配符搜索、模糊匹配、...

    solr开发应用教程

    SolrCloud是Solr的分布式解决方案,支持Sharding和Replication,实现跨多个节点的数据分布和冗余备份,提高系统可用性和可扩展性。 七、监控与优化 通过Solr的内置JMX接口,可以监控系统的运行状态,如CPU使用率、...

    zookeeper-solr集群

    Solr集群是Apache Solr的一种分布式部署方式,它允许用户在多台服务器上分布数据,以提高搜索性能和可用性。在本场景中,我们主要关注如何在Linux环境下搭建一个基于Zookeeper的SolrCloud集群。 首先,我们需要准备...

    solr-7.7.2+ik-analyzer-solr7x.zip

    2. **分布式搜索**:通过Sharding和Replication,Solr可以在多台服务器上构建大规模的搜索集群,实现数据的分散存储和并行处理。 3. **多字段类型支持**:Solr允许为不同的字段定义不同的数据类型,如text、int、...

Global site tag (gtag.js) - Google Analytics