`
badxy
  • 浏览: 142403 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

建设高性能solr-分发与拷贝

阅读更多
分发和拷贝
对于接收大量查询的应用来说,单个solr server可能满足不了性能要求。因此,Solr提供基于负载均衡的多查询server间拷贝Lucene index的机制。复制过程通过处理一组事件监听器(这些监听器在solrconfig.xml配置)来和一些shell脚本来完成。

在复制架构中,一个Solr server扮演master server角色,为一个或多个(用于查询服务的)slave server提供index的拷贝(也叫snapshots)。建Index的指令被发到主server,查询指令被发到从server。主server 能手动创建快照,也能通过配置solrconfig.xml中的<updateHandler>段以触发snapshot的创建(当收到 commit或/与optimize时间时)。不管是手动的拷贝还是自动的事件触发的方式,snapshooter脚本在主server中被调用,以创建一个名为snapshot.yyyymmddHHMMSS的目录。从server然后使用rsync拷贝那些lucene index中已改过的文件。
Listing 1. Update handler listeners

<listener event="postCommit" class="solr.RunExecutableListener">
    <str name="exe">snapshooter</str>
    <str name="dir">solr/bin</str>
    <bool name="wait">true</bool>
    <arr name="args"> <str>arg1</str> <str>arg2</str> </arr>
    <arr name="env"> <str>MYVAR=val1</str> </arr>
</listener>

在从server那边,通过snappuller脚本从主server收到snapshot。snappuller从主server收到必要的文件然后snapinstaller shell脚本能用来安装snapshot并通告solr新的snapshots已创建好了。最好安排好你的系统按照多久你会创建snapshots的基准来执行这些步骤。主server这边,rsync后台进程必须在从server能获取snapshots前启动。从server这边 snappuller-enable脚本必须在snappuller调用前执行。

分发时常用问题解决:
当尝试optimize 更新的index时,会有以下问题:
1.优化大index会非常耗时,建议在index 更新操作不是那么多的时候做。Optimization 导致很多lucene的索引文件合并成一个文件。这意味着“从server”不得不拷贝整个文件。但这种方式比在每个 从server 上自己optimize index要好很多。因为这些server可能没有从主server同步到数据。
2.如果新的snapshots被频繁的从master server拷贝出来,slave server可能会隐过度使用snappuller的copy操作和因为新的index需要预热而经受性能下降。
【译者注】
截止到目前为止,官方只发布了solr 1.3 此版本还未提供solr的java版的replication。但从solr的官方wiki中讲到了java版的ReplicationHandler。see http://svn.apache.org/viewvc/lucene/solr/trunk/src/java/org/apache/solr/handler/ReplicationHandler.java?revision=823711&view=markup 想在solr中直接使用还是要稍微DIY一下了。
分享到:
评论
1 楼 shijiyu 2009-11-20  
现在solr1.4办法的已经有复制功能了

相关推荐

    solr-mongo-importer-1.1.0.jar

    solr-mongo-importer-1.1.0.jar solr-mongo-importer-1.1.0.jar solr-mongo-importer-1.1.0.jar

    apache-solr-dataimportscheduler-1.0.zip_official54l_solr 5.x定时生成

    "apache-solr-dataimportscheduler-1.0.zip"是一个官方发布的54l版本,专门针对Solr 5.x的定时索引生成需求。 数据导入调度器(DataImportScheduler)是这个扩展的核心组件,它允许用户根据预设的时间间隔自动执行...

    solr增量更新架包apache-solr-dataimportscheduler.jar

    总的来说,"apache-solr-dataimportscheduler.jar" 是一个强大的工具,它使Solr能够高效地处理大数据量的变化,同时保持搜索性能。通过合理配置和优化,你可以确保Solr始终拥有最新的、最准确的数据,满足实时搜索和...

    apache-solr-3.5.0.jar

    2. `apache-solr-solrj-3.5.0.jar`: SolrJ是Solr的Java客户端库,提供了与Solr服务器进行交互的API。通过SolrJ,开发者可以方便地在Java应用程序中创建索引、执行查询、管理索引段和处理Solr服务器返回的结果。这个...

    Apache Solr(solr-8.11.1.tgz)

    Solr-8.11.1是该软件的一个特定版本,包含了最新的特性和改进。 在"solr-8.11.1.tgz"这个压缩包中,我们可以期待找到以下关键组成部分: 1. **Solr WAR 文件**:这是核心的搜索服务器应用程序,通常命名为`solr....

    solr-import-export-json最新代码

    solr-import-export-json最新代码solr-import-export-json最新代码solr-import-export-json最新代码solr-import-export-json最新代码solr-import-export-json最新代码solr-import-export-json最新代码solr-import-...

    solr(solr-9.0.0.tgz)

    Solr-9.0.0是该软件的最新版本,此版本可能包含了一些新的特性和改进,比如性能优化、新的查询语法、更强大的分析器等。 在Solr-9.0.0的压缩包中,通常会包含以下组件: 1. **bin** 文件夹:这个目录下有启动和...

    solr-dataimport-scheduler.jar 可使用于solr7.x版本

    总的来说,solr-dataimport-scheduler.jar是Solr 7.x版本中实现定时数据导入和索引更新的关键工具,它极大地提升了Solr在实时和大数据环境下的性能和可靠性。通过合理配置和使用,可以确保你的Solr实例始终拥有最新...

    solr-dataimporthandler的jar包

    标题中的"solr-dataimporthandler的jar包"指的是 Solr 用于实现数据导入功能的两个核心 JAR 文件: 1. `solr-dataimporthandler-6.0.1.jar`:这是 DIH 的主库,包含了处理数据导入过程所需的类和方法。它提供了数据...

    solr(solr-9.0.0-src.tgz)源码

    通过深入研究`solr-9.0.0-src.tgz`源码,开发者可以理解Solr的工作原理,定制自己的搜索解决方案,解决特定场景下的性能挑战,并为社区贡献新的功能和优化。同时,这也为学习和研究信息检索、全文搜索、分布式计算等...

    最新版linux solr-8.8.2.tgz

    首先,你需要从 Apache 官方网站下载 `solr-8.8.2.tgz` 文件。完成下载后,使用 `tar` 命令解压文件: ``` tar -zxvf solr-8.8.2.tgz ``` 2. **配置环境变量**: 为了方便使用 Solr 的命令行工具,可以将 Solr...

    solr-7.4.0.zip

    标题"solr-7.4.0.zip"表明这是一个包含了Solr 7.4.0版本的压缩包文件,该版本发布于2018年,包含了完整的Solr服务器及其相关组件。 在描述中提到,“solr7需要java8环境”,这是因为Solr的运行依赖于Java平台,特别...

    mmseg4j-solr-2.4.0.jar

    而mmseg4j-solr-2.4.0.jar是mmseg4j分词库的Solr插件版本,专为Solr设计,使得开发者可以方便地将mmseg4j的分词功能集成到Solr中,以提升搜索性能和精确度。 在Solr 6.3版本下,要使用mmseg4j-solr-2.4.0.jar,首先...

    solr6--solr-dataimporthandler-scheduler-1.1

    在"solr6--solr-dataimporthandler-scheduler-1.1"这个项目中,我们关注的重点是DIH的调度功能,也就是如何定期自动更新Solr索引。 DataImportHandler(DIH)是Solr的一个插件,用于从关系型数据库或其他结构化数据...

    支持solr6.1-solr-dataimport-scheduler-1.2.jar

    在 Solr 的生态系统中,`solr-dataimport-scheduler-1.2.jar` 是一个非常重要的组件,它允许用户定时执行数据导入任务,这对于需要定期更新索引的应用场景尤其有用。这个特定的版本 `1.2` 已经被优化以兼容 `Solr ...

    solr-dataimportscheduler-1.1.1.jar

    总的来说,solr-dataimportscheduler-1.1.1.jar是Solr环境中提高数据实时性和系统性能的必备工具。它通过智能地识别和导入变化的数据,降低了系统资源消耗,同时保证了用户可以得到最新的搜索结果。在实际应用中,...

    solr-dataimporthandler-4.10.3.jar

    solr自动更新包

    solr-data-import-scheduler

    solr 增量更新所需要的包 solr-dataimporthandler-6.5.1 + solr-dataimporthandler-extras-6.5.1 + solr-data-import-scheduler-1.1.2

    solr-4.9.0-安装部署文档

    - 将 C:\solr-4.9.0\example\resources\log4j.properties 复制到 C:\apache-tomcat-7.0.53\webapps\solr\WEB-INF\classes 3. **启动与测试** - 启动 Tomcat 服务器 - 在浏览器中访问 http://localhost:8080/solr...

    solr定时自动同步数据库需要用到的apache-solr-dataimportscheduler.jar包

    在标题提到的"solr定时自动同步数据库需要用到的apache-solr-dataimportscheduler.jar包"中,`apache-solr-dataimportscheduler.jar`是用于实现Solr数据导入计划任务的扩展插件。这个插件使我们能够设置定时任务,...

Global site tag (gtag.js) - Google Analytics