`
johnnyhg
  • 浏览: 347233 次
  • 来自: NA
社区版块
存档分类
最新评论

Solr的扩展(Scaling)以及性能调优

阅读更多

当你的索引数量越来越大,你会发现你的搜索响应时间变得更慢,索引新内容的时间也会越来越长,那么,到了做出一些改变的时候了,幸运的是,solr很好的考虑到了这些情况,你只需要改变你的配置就可以了。


以下将从三个方面讲述solr的scaling:

l  调优某个Solr服务器(Scale High)

通过缓存和内存管理优化某个单实例的Solr。将Solr部署到一个拥有快速的CPU和硬件的专用服务器,通过调优,最大化的将单个服务器的性能达到最高。

l  使用多Solr服务器(Scale Wide)

使用多Solr服务器。如果你的avgTimePerRequest参数在你可接受的范围内(数据量一般在数百万),那么可以通过配置将你 的master上的索引完整地复制到slave机器上;如果你的查询已经很慢,那么使用分片来讲你的单个查询的负载分发到多个Solr服务器上。

l  使用复制(replication)和分片(sharding)(Scale Deep)

当你的数据量足够大,你需要同时使用复制和分片,那么每个分片将对应一个master和若干slave,这将是一个最复杂的架构。

我们将会对三个性能参数进行优化:

l  TPS(Transaction Per Second) 每秒事务处理量,可以查看http://localhost:8983/solr/mbtracks/admin/stats.jsp 或者查看requesHandler的avgTimePerRequest和avgRequestsPerSecond参数。

l  CPU Usage CPU使用情况,在Windows下可以使用PerfMon获得CPU使用的相关信息,而在Unix类操作系统上使用top。

l  Memory Usage 内存使用情况,可以使用PrefMon、top和jConsole来查看。

接下来将会介绍对于Solr的scaling。

 

调优某个Solr服务器(Scale High)

Solr提供了一系列可选的配置来增强性能,具体怎么使用将取决于你的应用程序。下面将对其中最常用的进行介绍

JVM配置

Solr运行在JVM之上,因此对JVM的调优将直接影响Solr的性能,不过对于JVM参数的改变要慎重,因为,很可能一丁点改变会引发很大的问题。

可以在启动的时候指定JVM参数:

java -Xms512M -Xmx1024M -server -jar start.jar

你的Xmx参数应当为你的操作系统以及运行在服务器上的其他进程预留足够的内存,比如你有4G的索引文件,你可以指定6G的RAM(并指定较大的缓存)那么你就能取得比较好的性能。

另外,在可能的情况下,尽量使用版本较高的Java版本,因为新版本的Java虚拟机性能越来越好。

 

HTTP缓存

因为Solr的许多操作都是基于HTTP的,因此Solr对HTTP缓存有很大的支持。如果你想使用HTTP缓存,那么你需要在solrconfig.xml中做如下配置:

<httpCaching lastModifiedFrom=”openTime” etagSeed=”Solr” never304=”false”>

<cacheControl>max-age=43200, must-revalidate</cacheControl>

</httpCaching>

默认情况下,Solr是不使用304 not modified状态给客户端的,而是始终返回200 OK,上面的配置指明max-age是43200秒。下面是例子:

      >> curl -v http://localhost:8983/solr/mbartists/select/?q=Smashing+Pumpkins

< HTTP/1.1 200 OK

< Cache-Control: max-age=43200

< Expires: Thu, 11 Jun 2009 15:02:00 GMT

< Last-Modified: Thu, 11 Jun 2009 02:55:39 GMT

< ETag: “YWFkZWIyNjVmODgwMDAwMFNvbHI=”

< Content-Type: text/xml; charset=utf-8

< Content-Length: 1488

< Server: Jetty(6.1.3)

很显然,HTTP缓存配置生效了,那么,我们也可以指定If-modified-since参数,这样服务器会比较,如果在最新更改时间之后,那么服务器会返回最新数据。

           >>curl -v -z “Thu, 11 Jun 2009 02:55:40 GMT”

 http://localhost:8983/solr/mbartists/select/?q=Smashing+Pumpkins

* About to connect() to localhost port 8983 (#0)

* Trying ::1… connected

* Connected to localhost (::1) port 8983 (#0)

> GET /solr/mbartists/select/?q=Smashing+Pumpkins HTTP/1.1

> User-Agent: curl/7.16.3 (powerpc-apple-darwin9.0) libcurl/7.16.3

OpenSSL/0.9.7l zlib/1.2.3

> Host: localhost:8983

> Accept: */*

> If-Modified-Since: Thu, 11 Jun 2009 02:55:40  GMT

< HTTP/1.1 304 Not Modified

< Cache-Control: max-age=43200

< Expires: Thu, 11 Jun 2009 15:13:43 GMT

< Last-Modified: Thu, 11 Jun 2009 02:55:39  GMT

< ETag: “YWFkZWIyNjVmODgwMDAwMFNvbHI=”

< Server: Jetty(6.1.3)

Entity tag也是一种新的方法来进行鉴别,它比使用last modified date更加的强健和灵活。ETag是一个字符串。在Solr的索引更新以后,当前的ETag会随之改变。

 

Solr缓存

Solr为缓存使用了LRU算法,缓存存放在内存中,缓存和Index Searcher关联在一起,维持了一个数据的快照(a snapshot view of data).在一个commit之后,新的index searcher打开,并会自动预热(auto-warmed).自动预热指的是之前搜索的缓存会被拷贝到新的searcher。接着,预先在 solrconfig.xml中定义的searcher会运行。为那些需要排序的字段(field)加入一些典型的query到newSearcher和 firstSearcher,这样,新的searcher就能为新的搜索提供服务了。

Solr1.4使用了FastLRUCache,它比LRUCache要更快,因为它无需单独的线程来移除无用的items。

通过Solr的statistics页面,你可以看到你的缓存有多大,并且可以根据实际情况对缓存的大小进行调整以适应最新的情况。

设计更好的Schema

你需要考虑是否indexed,是否stored等等,这些将决定于你应用程序的具体情况。如果你存储很大的文本到你的索引中,你最好使用 field的compressed选项配置对其进行压缩。如果你不是总需要读取所有的fields,那么在solrconfig.xml中配置使用 field延迟加 载:<enableLazyFieldLoading>true</enableLazyFieldLoading>

这会起到很好的作用。

注意:如果你使用了compressed,那么你可能需要使用field延迟加载,同时还要降低解压缩的代价。另外降低文本分析的数量将有效提高性能,因为文本分析会消耗大量的CPU时间,并且使得你的索引大幅增大。

索引策略

一种加速索引的方式是分批索引,这样将会显著加速性能。但是,随着你的document增加,性能还是会开始下降。根据经验,对于大的document,每批索引10个,而对于小的document,每批索引100个,并分批提交。

另外,使用多线程进行索引将会再次提高性能。

 

取消document唯一性检查(Disable unique document check)

默认情况下,索引的时候Solr会检查主键是否有重复的,以避免不同的document使用相同的主键。如果你确认你的document不 会有重复的主键,将参数allowDups=true加到url上可以取消检查,对于scv文档,使用overwrite=false。

 

Commit/optimize因子( factors)

对于大的索引以及频繁的更新,使用较大的mergeFactor,它决定了Lucene会在segments数量达到多少时将它们合并(merge)。

 

优化Faceting(分组查询)的性能

使用Term Vectors

Term Vectors是某field经文本分析之后的一系列terms。它一般包括了term的频率,document的频率和在文本中的数值偏移量,启用它有可能会增强MoreLikeThis查询和Hignlight查询的性能。

但是启用tern vectors会增加索引的大小,并且可能根本不会在MoreLikeThis和Highlight查询结果中。

 

提升phrase查询的性能

在大索引的查询中,phrase查询的性能会很慢,因为,某个phrase可能会出现在很多的document中,一种解决办法是使用filter过滤掉诸如“the”这样没有意义的词语。但是这样会使得搜索出现歧义,解决方案是使用Shingling ,它使用类似n-gram的方法将搜索句子切分,如“The quick brown fox jumped over the lazy dog”将会变为”the quick”, “quick brown”,

“brown fox”, “fox jumped”, “jumped over”, “over the”, “the lazy”, “lazy dog”.粗糙的测试表明,这样至少可以提高2-3倍的性能。

 

使用多Solr服务器(Scale wide)

当你对单台Solr服务器的调优仍然无法满足性能需求的时候,接下来你应该考虑拆分查询请求到不同的机器上,具备横向扩展(Scale wide)是可扩展系统的最基本的特点,因此,solr也具备了该特点。

Script VS Java replication

在Solr1.4之前,replication是通过使用Unix脚本进行的。一般来说,这种方案还算不错,但是可能有一些复杂了,需要编写shell脚本,cron jobs和resync daemon。

从1.4开始,Solr实现了基于Java的复制策略,不用再编写复杂的shell脚本,并且运行得更快。

Replication的配置在solrconfig.xml之中,并且配置文件本身可以在master和 slave服务器之间被复制。Replication目前已经支持Unix和Windows系统并且已经集成到了Admin interface之中。Admin interface目前可以控制复制—例如,强制开始replication或者终止失效(stalled)的复制。复制是通过ReplicationHandler 提供的REST API进行的。

 

 

开始体验多Solr服务器

如果你在多个Solr服务器之间使用了同一个solrconfig.xml文件,那么你需要在启动的时候指定以下几个参数:

l  -Dslave=disabled:指定当前solr服务器是Master。Master将负责推送索引文件到所有slave服务器。你将会存储document到master上,而在slave服务器上进行查询。

l  -Dmaster=disabled:指定当前solr服务器是Slave。Slave要么定期轮询Master服务器来更新索引, 要么手动的通过Admin interface触发更新操作。一组slave将会被负载均衡(可能是HAProxy之类)器管理着来对外提供搜索。

如果你想在同一机器上运行多个Solr服务器,那么你需要通过-Djetty.port=8984指定不同的端口,并且通过-Dsolr.data.dir=./solr/data8984指定不同的data目录。

 

配置Replication

配置replication很简单,在./examples/cores/mbreleases/solrconfig.xml中就有示例配置:

<requestHandler name=”/replication” class=”solr.ReplicationHandler” >

<lst name=”${master:master} “>

<str name=”replicateAfter”>startup</str>

<str name=”replicateAfter”>commit</str>

<str name=”confFiles”>stopwords.txt</str>

</lst>

<lst name=”${slave:slave}”>

<str name=”masterUrl”>http://localhost:8983/solr/replication</str>

<str name=”pollInterval”>00:00:60</str>

</lst>

</requestHandler>

注意${}将能够运行期进行配置,它将通过-Dmaster=disabled 或 -Dslave=disabled决定这里的参数是master还是slave。Master机器已经配置了在每次commit之后进行 replication。并且可通过confFiles属性以指定复制配置文件。复制配置文件非常有用,因为你可以在运行期修改配置而无需重新部署。在 master上修改配置文件,replication到slave后,Slave将会知道配置文件被修改了,并reload core。

可以参考http://wiki.apache.org/solr/SolrReplication

 

Replication的实现

Master是感知不到Slave的存在的,Slave会周期性的轮询Master来查看当前的索引版本。如果Slave发现有新的版本,那么Slave启动复制进程。步骤如下:

1.         Slave发出一个filelist命令来收集文件列表。这个命令将返回一系列元数据(size,lastmodified,alias等等)

2.         Slave查看它本地是否有这些文件,然后它会开始下载缺失的文件(使用命令filecontent)。如果连接失败,则下载终止。它将重试5次,如果仍然失败则放弃。

3.         文件被下载到了一个临时目录。因此,下载中途出错不会影响到slave。

4.         一个commit命令被ReplicationHandler执行,然后新的索引被加载进来

 

跨多个Slave的分布式搜索

索引一些文件到Master上

你可以用SSH运行两个session,一个开启Solr服务,另一个索引一些文件:

>> curl http://localhost:8983/solr/mbreleases/update/csv -F f.r_

attributes.split=true -F f.r_event_country.split=true -F f.r_event_

date.split=true -F f.r_attributes.separator=’ ‘ -F f.r_event_country.

separator=’ ‘ -F f.r_event_date.separator=’ ‘ -F commit=true -F stream.

file=/root/examples/9/mb_releases.csv

上面的命令索引了一个csv文件。你可以通过Admin interface监控这个操作。

 

配置Slave

之前已经索引了文件,并且通过复制已经到了slave上,接下来,需要使用SSH到slave机器上,配置masterUrl如下:

<lst name=”${slave:slave}”>

<str name=”masterUrl”>

http://ec2-67-202-19-216.compute-1.amazonaws.com:8983/solr/mbreleases/replication

</str>

<str name=”pollInterval”>00:00:60</str>

</lst>

你可以到Admin interface上查看当前的replication状况。

 

 分发搜索请求到不同的Slave上

由于使用了多个Slave,所以我们没有一个固定的请求URl给客户的,因此,我们需要使用负载均衡,这里使用了HAProxy。

在master机器上,配置/etc/haproxy/haproxy.cfg,将你的salve机器的url放入:

listen solr-balancer 0.0.0.0:80

balance roundrobin

option forwardfor

server slave1 ec2-174-129-87-5.compute-1.amazonaws.com :8983

weight 1 maxconn 512 check

server slave2 ec2-67-202-15-128.compute-1.amazonaws.com :8983

weight 1 maxconn 512 check

solr-balancer处理器将会监听80端口,并将根据权重将请求重定向到每个Slave机器,运行

>> service haproxy start

来启动HAProxy。

当然,SolrJ也提供了API来进行负载均衡,LBHttpSolrServer需要客户端知道所有slave机器的地址,并且它没有HAProxy这样的强健,因为它在架构上实现得很简略。可以参考:

http://wiki.apache.org/solr/LBHttpSolrServer

索引分片(Sharding indexes)

Sharding是一种当你的数据太多时很普遍的对单台数据库进行扩展的策略。在Solr中,sharding有两种策略,一是将一个单一 的Solr core分成多个Solr服务器,二是将单核的Solr变成多核的。Solr具备将单一的查询请求分发到多个Solr shards上,并聚集结果到一个单一的result里返回调用者。

 

当你的查询在单台服务器上执行太慢时你就需要组合多台solr服务器的能力来共同完成一个查询。如果你的查询已经足够快了,而你只是想扩展以为更多用户服务,那么建议你使用全索引而使采用replication的方法。

使用Sharding并不是一个完全透明的操作。关键的约束就是当索引一个document,你需要决定它应当 在哪个Shards上。Solr对于分布式索引并没有相关的逻辑支持。那么当你搜索的时候你需要加上shards参数到url,以确定需要到哪些 shards上收集结果。这意味着客户端需要知道Solr的架构。另外,每个document需要一个唯一的id,因为你是基于行将其拆分的,需要一个 id来区分彼此。

 

分发documents到shards

一种比较好的办法是对id进行hash,在模分片的大小来决定应当分发到哪个shards上:

SHARDS = ['http://ec2-174-129-178-110

.compute-1.amazonaws.com:8983/solr/mbreleases',

'http://ec2-75-101-213-59

.compute-1.amazonaws.com:8983/solr/mbreleases']

unique_id = document[:id]

if unique_id.hash % SHARDS.size == local_thread_id

# index to shard

end

这样,在你的shards不变化的情况下,你的document将会很好的找到它的shards。

 

跨多个shards搜索(Searching across shards)

这个功能是已经配置在query request handler里面的。因此你无需做额外的配置,如果你想在两个shards上面进行查询,那么你只需要在url跟相关的参数即可:

>> http://[SHARD_1]:8983/solr/select?shards=ec2-174-129-178-110.

compute-1.amazonaws.com:8983/solr/mbreleases,ec2-75-101-213-59.compute-

1.amazonaws.com:8983/solr/mbreleases&indent=true&q=r_a_name:Joplin

注意shards后的参数不能跟http这样的传输协议,并且你可以跟尽量多的shards,只要你不超过GET URL的最大字符数4000.

 

在使用Shards的时候,请务必注意以下内容:

l  Shards仅仅支持以下组件(Component):Query,faceting,Hignlighting,Stats和Debug

l  每个document必须有一个唯一的id。Solr是根据这个来合并搜索结果document的。

l  如果多个shards返回了相同id的document,那么第一个会被选中,而余下的被忽略。

 

联合使用Replication和Shards(Scale Deep)

如果你使用了前面的方法,仍然发现性能无法满足要求,那么是到了将两个联合起来组成更高层次的架构来达到你的需要的时候了。

你需要使用同样的方法配置一组Master,这样最终你将有一棵树一样的Masters和Slaves。你甚至可以有一个专用的Solr服务器,它没有索引,只负责将查询分发的shards上,并在最后合并结果返回用户。

数据的更新将通过在Master机器上更新并replication到slave机器上实现。前端需要相关的负载均衡支持,但是这样一来,Solr将能够处理极大的数据。

关于Solr的下一步scaling,在Solr的邮件列表里面已经讨论了很多次,一些调查研究显 示,Hadoop能够提供强健可靠的文件系统。另一个有趣的项目是ZooKeeper,它将能对分布式系统进行集中式的管理,对于将ZooKeeper集 成进来已经有不少努力。

 

参考文件

分享到:
评论
1 楼 bingyu 2012-02-16  
写的好。

相关推荐

    大数据各类性能调优

    - 类似地,当Solr使用HDFS作为底层存储时,也需要注意HDFS的性能调优,以保证数据访问的高效性。 #### 12.9 Spark ##### 12.9.1 Spark Core调优 - Spark Core的调优主要涉及以下方面: - **数据序列化**: 选择...

    solr4.4部署、维护、调优

    Solr 是一个基于 Lucene 的全文检索服务器,用于构建高效、可扩展的搜索应用。在本文中,我们将探讨如何在 Linux 环境下部署、维护和调优 Solr 4.4 版本。 首先,为了运行 Solr,我们需要先安装 Java 开发工具包...

    solr扩展词库

    solr扩展词库,共100多万条,供大家下载使用,内容很全

    Solr扩展依赖Jar包

    总之,Solr扩展依赖Jar包是提升Solr功能和性能的关键,它们涵盖了分词器、过滤器、查询解析器等多个方面,使得Solr能够适应多样化的需求,尤其在大数据和云计算环境中,发挥出强大的全文检索能力。正确选择和配置...

    php与solr交互扩展库包

    1. 连接Solr服务器:通过配置Solr服务器的URL、端口以及核心(collection)名称,建立连接。 2. 创建索引:构建SolrDocument对象,添加字段和值,然后将其提交到Solr服务进行索引。 3. 查询索引:利用Solr的查询语法...

    solr7.0性能测试报告

    本性能测试报告针对的是 Solr 7.0 版本,旨在探讨在不同环境下的读写性能,包括单节点部署和 Solr on HDFS 的集群模式。 在环境准备阶段,我们设置了两种不同的配置: 1. 单节点 Solr 服务器,配置了 15GB 内存和 8...

    solr索引和检索性能测试报告

    solr在做检索的时候时常需要得知他的性能参数,此处使用8G内存,双核处理器测试的结果

    SOLR检索调优

    SOLR 检索调优

    Scaling Big Data with Hadoop and Solr

    Scaling Big Data with Hadoop and Solr is a step-by-step guide that helps you build high performance enterprise search engines while scaling data. Starting with the basics of Apache Hadoop and Solr, ...

    搜索引擎solr的扩展词库

    电商搜索引擎solr的扩展词库,20W+的专业名词,txt文件;

    solr软件包扩展词典可停词配置学习和开发文档

    在这个"solr软件包扩展词典可停词配置学习和开发文档"中,我们将深入探讨Solr在Linux环境下的安装、扩展词典的使用以及停词配置的关键知识点。 **1. Solr的Linux环境安装** 在Linux环境下安装Solr,首先确保系统...

    Solr 学习笔记(五)-Solr扩展之分布式索引实例

    Solr的分布式索引能力允许我们跨越多个节点分布和处理索引过程,从而提高索引速度和查询性能。在实际应用中,这尤其适用于大型企业级搜索引擎解决方案。 首先,我们需要理解SolrCloud的概念。SolrCloud是Solr的一个...

    solr资料以及问题汇总

    "solr性能调优.mht"文件专门针对Solr的性能优化,包括索引优化、硬件配置、查询策略调整等方面,对于追求高效稳定运行的Solr系统来说,这部分内容是必不可少的。 这些文档和资料覆盖了Solr的多个方面,包括入门、...

    linux+tomcat+mysql+solr调优

    虽然给定的部分内容中没有提及具体的Solr调优方法,但在实际应用中,Solr的性能优化可以从以下几个方面着手: 1. **索引结构优化**:合理设计索引结构,包括字段类型、分词器的选择等。 2. **查询优化**:使用高效...

    php 扩展 -- solr-1.0.1

    总的来说,安装PHP扩展Solr-1.0.1涉及多个步骤,包括系统环境的准备、源码的获取与编译,以及最后的配置和测试。在整个过程中,确保遵循最佳实践,及时解决任何遇到的问题,以确保扩展的正确安装和使用。

    php_solr.dll ,php5.3版本

    Apache Solr 是一个开源的企业级搜索平台,它允许快速、可扩展的全文检索,以及丰富的搜索功能和结果排序。在 PHP 中集成 Solr 扩展,可以极大地提高开发效率,使开发者能够轻松地在网站中实现高级搜索功能。 标题...

    电商solr用扩展词库商品名称大全关键词库ext.dic

    可做为电商搜索引擎solr的扩展词库,20W+专业名词,txt文件可修改后缀名,不定时更新。

    solr深入浅出

    性能调优是Solr使用中的重要环节。这涉及到Schema设计(如哪些字段应被索引,哪些应被存储),配置优化(mergeFactor、缓存设置等),内存管理(防止内存溢出,合理分配JVM内存),以及更新频率和查询响应压缩等方面...

    solr同步调优

    solr同步调优,达到15分钟处理10万条数据更新,大约20万次solr操作(删除和插入),失败率1/10万

Global site tag (gtag.js) - Google Analytics