`
eksliang
  • 浏览: 600942 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

SolrCloud中的文件与Collection管理

    博客分类:
  • solr
阅读更多
http://eksliang.iteye.com/
一.内嵌启动SolrCloud时端口默认分配

当 Solr 运行内嵌 zookeeper 服务时,默认使用 solr 端口+1000 作为客户端口,另外,solr 端口+1 作为 zookeeper 服务端口,solr 端口+2 作为主服务选举端口。所以第一个例子中,Solr 运行在 8983端口,内嵌 zookeeper 使用 9983 作为客户端端口,9984 和 9985 作为服务端口。

clientPort=9983 
server.1=192.168.238.133:9984 :9985 
这几个端口就是对应配置里面的这几个端口

 内嵌启动的SolrCloud的例子点击:http://wiki.apache.org/solr/SolrCloud

 

二. 通过集群api 管理集群(Core Admin)

1).创建接口(第一种自动分配)

http://192.168.66.128:8081/solr/admin/collections?action=CREATE&name=collection1&numShards=3&replicationFactor=2&maxShardsPerNode=2&collection.configName=myconf

http://192.168.66.128:8081/solr/admin/collections?action=CREATE&name=collection1&numShards=3&replicationFactor=2&maxShardsPerNode=2&collection.configName=myconf&createNodeSet=192.168.66.128:8083_solr,192.168.66.128:8081_solr,192.168.66.128:8082_solr

   这样会出来一个collection,它有3个shard,每个shard有1个数据节点,1个备份节点,即该collection共有6个core

 

 参数:

name:将被创建的集合的名字
numShards:集合创建时需要创建逻辑碎片的个数
replicationFactor:分片的副本数。replicationFactor(复制因子)为 3 意思是每个逻辑碎片将有 3 份副本。

maxShardsPerNode:默认值为1,每个Solr服务器节点上最大分片数(4.2新增的)

注意三个数值:numShards、replicationFactor、liveSolrNode(当前存活的solr节点),一个正常的solrCloud集群不容许同一个liveSolrNode上部署同一个shard的多个replic,因此当maxShardsPerNode=1时,numShards*replicationFactor>liveSolrNode时,报错。因此正确时因满足以下条件:numShards*replicationFactor<liveSolrNode*maxShardsPerNode

createNodeSet:如果不提供该参数,那么会在所有活跃节点上面创建core,如果提供该参数就会在指定的solr节点上创建core

例如我现在在5台tomcat上面创建3个片,1个副本,不提供该参数结果是这样的



 

提供该参数例如:createNodeSet=192.168.66.128:8083_solr,192.168.66.128:8081_solr,192.168.66.128:8082_solr

结果是这样的




  collection.configName:用于新集合的配置文件的名称。如果不提供该参数将使用集合名称作为配置文件的名称。

 

创建接口2(手动分配)实例:通过下面多个链接进行创建(3个分片,每个节点上面一个备份)推荐使用,因为这种方式你想创建多少次就多少次 

http://192.168.66.128:8081/solr/admin/cores?action=CREATE&name=shard1_replica1&instanceDir=shard1_replica1&dataDir=data&collection=collection1&shard=shard1&collection.configName=myconf
http://192.168.66.128:8082/solr/admin/cores?action=CREATE&name=shard1_replica2&instanceDir=shard1_replica2&dataDir=data&collection=collection1&shard=shard1&collection.configName=myconf


http://192.168.66.128:8082/solr/admin/cores?action=CREATE&name=shard2_replica1&instanceDir=shard2_replica1&dataDir=data&collection=collection1&shard=shard2&collection.configName=myconf
http://192.168.66.128:8083/solr/admin/cores?action=CREATE&name=shard2_replica2&instanceDir=shard2_replica2&dataDir=data&collection=collection1&shard=shard2&collection.configName=myconf

http://192.168.66.128:8083/solr/admin/cores?action=CREATE&name=shard3_replica1&instanceDir=shard3_replica1&dataDir=data&collection=collection1&shard=shard3&collection.configName=myconf
http://192.168.66.128:8081/solr/admin/cores?action=CREATE&name=shard3_replica2&instanceDir=shard3_replica2&dataDir=data&collection=collection1&shard=shard3&collection.configName=myconf

 参数含义:

name:新建core的名称

创建的core的命名规则:

coreName_shardName_replicaN

例如:创建pscp的集合,2个分片,每个分片上面有两个备份

则命名如下:

pscp_shard1_replica1

pscp_shard1_replica2

pscp_shard2_replica1

pscp_shard2_replica2

shard:指定一个分配id,这个core将挂在那个分片上(随便写,如果还没有这个id,第一次会帮你创建)
collection.configName:从zookeeper中指定一份配置文件

instanceDirdataDir:从下图看出他的含义

命名规则:instanceDir与name的名称相同,dataDir:统一建议命名为data

 

总结一:在一个集群中添加一个副本的两种方式

http://192.168.66.128:8081/solr/admin/collections?action=ADDREPLICA&collection=collection1&shard=shard2&node=192.168.66.128:8085_solr
上面这句话的意思就是在collection1这个集合的shard2分片上添加一个副本,副本的地址在192.168.66.128:8085_solr台机子上面
http://192.168.66.128:8083/solr/admin/cores?action=CREATE&name=shard3_replica1&instanceDir=shard3_replica1&dataDir=data&collection=collection1&shard=shard3&collection.configName=myconf

 

2).删除接口

http://localhost:8983/solr/admin/collections?action=DELETE&name=mycollection

   参数:

name:将被创建的集合别名的名字
collections:逗号分隔的一个或多个集合别名的列表

 

3).重新加载接口,这个时候,相应的core会重新加载配置文件

http://localhost:8983/solr/admin/collections?action=RELOAD&name=mycollection

 参数:

name:将被重载的集合的名字

 

4).分割碎片接口

http://localhost:8983/solr/admin/collections?action=SPLITSHARD&collection=&lt;collection_name&gt;&shard=shardId

 collection:集合的名字

shard:将被分割的碎片 ID

 这个命令不能用于使用自定义哈希的集群,因为这样的集群没有一个明确的哈希范围。 它只用于具有plain 或 compositeid 路由的集群。该命令将分割给定的碎片索引对应的那个碎片成两个新碎片。通过将碎片范围划分成两个相等的分区和根据新碎片范围分割出它在父碎片(被分的碎片)中的文档。新碎片将被命名为 appending_0 和_1。例如:shard=shard1 被分割,新的碎片将被命名为 shard1_0 和 shard1_1。一旦新碎片被创建,它们就被激活同时父碎片(被分的碎片)被暂停因此将没有新的请求到父碎片(被分的碎片)。该特征达到了无缝分割和无故障时间的要求。原来的碎片数据不会被删除。使用新 API 命令重载碎片用户自己决定。该特性发布始于 Solr4.3,由于 4.3 发布版本发现了一些 bugs,所以要使用该特性推荐等待 4.3.1

 

三.通过命令行工具将文件上传到Zookeeper进行管理

之所以能分布式是因为引入ZooKeeper来统一保存配置文件,故而需要将SolrCloud的配置文件上传到ZooKeeper中,这里演示命令行进行上传

要使用命令行管理管理工具,必须要先有包,这些包就是solr.war里面/WEB-INF/lib下面的所有jar包

第一步:新建文件夹

在可以和Zookeeper集群通讯的任意一台机子上面,新建两个文件夹,例如如下是我的目录

/usr/solrCloud/conf/files  /usr/solrCloud/conf/lib

files:用来保存配置文件   lib:用来存放jar包

第二步:上传需要使用的jar和配置文件

上传jar到lib目录,将solr发布包下面的jar(solr-4.8.0\example\solr-webapp\webapp\WEB-INF\lib\ 和 solr-4.8.0\example\lib\ext\ 下面包都要)全部上传到上面的lib目录

将solr的配置文件上传到上面的files目录下面

第三步:将文件上传Zookeeper进行统一管理

java -classpath .:/usr/solrCloud/conf/lib/* org.apache.solr.cloud.ZkCLI -cmd upconfig -zkhost 192.168.27.18:2181,192.168.27.18:2182,192.168.27.18:2183 -confdir /usr/solrCloud/conf/files  -confname myconf

-cmd upconfig:上传配置文件

-confdir:配置文件的目录 

-confname:指定对应的名称

查看文件是否已经上传到Zookeeper服务器:

sh zkCli.sh -server localhost:2181
ls /configs/myconf

第四步:将上传到ZooKeeper中配置文件与collection相关联

java -classpath .:/usr/solrCloud/conf/lib/* org.apache.solr.cloud.ZkCLI -cmd linkconfig -collection collection1 -confname myconf -zkhost 192.168.27.18:2181,192.168.27.18:2182,192.168.27.18:2183

-cmd linkconfig:为指定collection"绑定"配置文件

-collection:上面指定的collection的名称

-confname:zookeeper上面的配置文件名称

上面这句代码的意思就是:创建的core(collection1)将使用myconf这个配置文件

例如:执行下面这个请求将创建一个core为collection1,那么他使用的配置文件为zookeeper中的myconf这个配置

http://localhost:8983/solr/admin/collections?action=CREATE&name=collection1&numShards=3&replicationFactor=1

话又说回来,如果zookeeper管理的集群上面仅有一份配置,那么创建的core都会用这份默认的配置。如果有多份,如果没有执行第四步,随便创建一个core将抛出异常,构建失败!

例如执行:

http://192.168.66.128:8081/solr/admin/collections?action=CREATE&name=sdf&numShards=3&replicationFactor=1

 将抛出:因为上面有两份配置,但是并没有执行第四步,将配置与即将创建core(name=sdf)关联起来

<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">16563</int>
</lst>
<lst name="failure">
<str>
org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:Error CREATEing SolrCore 'sdf_shard2_replica1': Unable to create core: sdf_shard2_replica1 Caused by: Could not find configName for collection sdf found:[conf1, myconf]
</str>
<str>
org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:Error CREATEing SolrCore 'sdf_shard1_replica1': Unable to create core: sdf_shard1_replica1 Caused by: Could not find configName for collection sdf found:[conf1, myconf]
</str>
<str>
org.apache.solr.client.solrj.impl.HttpSolrServer$RemoteSolrException:Error CREATEing SolrCore 'sdf_shard3_replica1': Unable to create core: sdf_shard3_replica1 Caused by: Could not find configName for collection sdf found:[conf1, myconf]
</str>
</lst>
</response>

 

当然了第四步也可以用下面替换,而且下面这个更灵活,推荐使用(有了这步,第四步完全可以省略

http://192.168.66.128:8081/solr/admin/collections?action=CREATE&name=conf2&numShards=3&replicationFactor=1&collection.configName=myconf
collection.configName=myconf:为创建的core指定一个在zookeeper中配置

 

文档写到这里,下面来看下怎么对上传到zookeeper中的文件进行修改和删除操作:

修改的常用做法就是:重新上传,重新上传会覆盖上面的文件,从而达到修改的目的

删除zookeeper中的文件或者目录的方式如下:

[zk: 192.168.66.128:2181(CONNECTED) 7] delete /configs/conf1/schema.xml
[zk: 192.168.66.128:2181(CONNECTED) 10] ls /configs/conf1
[solrconfig.xml]
[zk: 192.168.66.128:2181(CONNECTED) 11]

 

 将配置上传到zookeeper,如果要让正在运行的solr同步加载这些文件,只需要需要让solr重新加载一下配置文件,在浏览器中输入

http://192.168.27.18:8081/solr/admin/collections?action=RELOAD&name=collection1

 

 参考文献:

怎么通过api来管理整个集群的collection官网

https://cwiki.apache.org/confluence/display/solr/Collections+API

通过api来管理solr core 官网

http://wiki.apache.org/solr/CoreAdmin

SolrCloud在tomcat上面的部署 官网

http://wiki.apache.org/solr/SolrCloudTomcat

solr在tomcat上面部署 官网

http://wiki.apache.org/solr/SolrTomcat

值得参考的博客:

http://blog.csdn.net/xyls12345/article/details/27504965

http://myjeeva.com/solrcloud-cluster-single-collection-deployment.html#deploying-solrcloud

http://blog.csdn.net/woshiwanxin102213/article/details/18793271

http://blog.csdn.net/natureice/article/details/9109351

solrcloud名称解释

http://www.solr.cc/blog/?p=99

solr.xml解释

http://www.abyssss.com/?p=415

 

 

  • 大小: 96.6 KB
  • 大小: 67.6 KB
  • 大小: 21 KB
  • 大小: 17 KB
  • 大小: 17.8 KB
分享到:
评论

相关推荐

    solrcloud6安装配置

    SolrCloud是Apache Solr的一种分布式部署模式,它利用Zookeeper进行集群管理和配置同步,提供高可用性和数据的水平扩展。在本篇中,我们将详细探讨如何安装配置SolrCloud 6。 首先,我们需要下载Solr 6.6.0的安装包...

    solrCloud的集群部署

    在SolrCloud中,一个Collection可以跨越多个物理节点,从而确保了数据的高可用性和扩展性。 - **Shard**:Collection可以进一步划分为多个Shard。每个Shard都是一个逻辑单元,它包含了完整的数据子集,并且可以拥有...

    SolrCloud文档

    - **配置SolrCloud模式**:修改Solr配置文件,使其支持Zookeeper集群管理。 - **启动服务**:启动Tomcat和Solr服务,并确认集群状态正常。 ### 实战案例分析 假设我们需要为一个电商平台构建一个支持高并发搜索...

    Tomcat上部署SolrCloud.txt

    1. **Zookeeper集群搭建**:Zookeeper是SolrCloud的重要组件之一,用于协调和管理SolrCloud集群中的各个节点。搭建一个至少包含三个节点的Zookeeper集群是必要的。 2. **Tomcat安装配置**:在每台SolrCloud节点机器...

    Tomcat+solrcloud6.2整合Web项目

    SolrCloud通过ZooKeeper进行集群管理,ZooKeeper负责存储配置信息,协调节点间的通信以及处理故障转移。在我们的项目中,"zookeeper-3.4.6.jar"是ZooKeeper的依赖库,它的存在确保了集群的稳定运行。 接着,我们...

    SolrCloud使用教程及原理介绍

    1. 集中式配置信息:SolrCloud通过Zookeeper集中管理集群中的配置信息,确保各个节点的数据一致性。 2. 自动容错:当集群中某个节点出现故障时,SolrCloud能够自动进行数据修复和节点恢复,保证搜索服务的高可用性...

    solrcloud部署文档.docx

    SolrCloud 提供了类似 Hadoop 的 ZooKeeper 配置和服务发现机制,使得管理和扩展 Solr 集群变得更加简单。 ZooKeeper 是一个分布式协调服务,它在 SolrCloud 中扮演着至关重要的角色。ZooKeeper 保存了 SolrCloud ...

    分布式全文检索系统SolrCloud简介

    SolrCloud的核心特性之一是其集中式的配置管理,通过Zookeeper来存储和管理Solr的配置信息。这使得当配置文件发生变化时,所有节点都能实时同步更新,确保一致性。此外,Zookeeper还用于发布和协调各种任务,如索引...

    solrCloud基本概念和搭建1

    2. **Config Set**:一组必需的配置文件,如solrconfig.xml和schema.xml,存储在Zookeeper中,用于定义Solr Core的行为。 3. **Core(Solr Core)**:Solr的基本工作单元,可以独立提供索引和查询服务。每个Core对应...

    solrcloud5_多数据源导入成功的例子

    本文将通过一个具体实例来介绍如何在SolrCloud 5中实现多数据源的导入操作。该示例涉及MySQL数据库中的两个表——`teacher`和`USER`的数据导入到Solr的过程。 #### 数据准备与结构 首先,在MySQL数据库中创建并...

    Solr4+SolrCloud安装使用手册和详细说明,参考官方文档整理.

    Solr 是一个基于 Lucene 的全文检索服务器,用于构建企业级搜索应用。...安装过程中,需正确配置 Solr Home、上传配置到 ZooKeeper 并创建和管理集合。持续优化和监控是确保 SolrCloud 高效稳定运行的关键。

    SolrCloud4.9.0+tomcat7+zookeeper-3.4.6搭建教程

    Tomcat是Apache软件基金会的一个开源的Java Servlet容器,而Zookeeper是一个分布式应用程序协调服务,它可以提供配置管理、名字服务、分布式同步和提供组服务等功能。本文将指导读者在Windows操作系统下搭建...

    solrcloud分布式集群部署zookeeper集群安装+ClientCRUD实例

    SolrCloud是Apache Solr的一个分布式搜索和分析平台,它利用Zookeeper进行集群管理和协调。在本教程中,我们将深入探讨如何部署一个SolrCloud分布式集群,并安装Zookeeper集群,同时提供客户端的CRUD(创建、读取、...

    solr集群安装部署

    Zookeeper是SolrCloud(Solr的集群模式)的核心组件,用于协调节点间的通信和状态管理。你需要在至少三个不同的服务器上部署Zookeeper实例,以实现容错。配置Zookeeper配置文件`conf/zoo.cfg`,包括`dataDir`(存储...

    Solr集群搭建,Solr提供的分布式搜索方案

    4. **Collection**:在 SolrCloud 集群中,Collection 是一个逻辑意义上的完整索引结构,由一个或多个 Shard 组成。 #### 五、SolrCloud示例分析 下面通过一个具体的示例来理解 SolrCloud 的结构: 假设我们有三...

    cloudera search官网参考资料

    Collection是在SolrCloud中逻辑上的索引划分,它可以被分区为多个shard,每个shard可以在不同的节点上,这样可以分散负载并提高性能。添加collection时,需要指定其配置,包括分片数量、复制因子等。 在**修改...

    Solr介绍文档

    1. **集中式配置管理**:SolrCloud将配置文件统一存储于Zookeeper中,确保所有节点访问相同的配置信息。这种方式不仅简化了配置管理,还提高了系统的灵活性和一致性。 2. **自动容错机制**:SolrCloud通过数据分片和...

    cloudera-Manager安装

    Cloudera Manager 安装部署与 SolrCloud 集成 Cloudera Manager 是一个分布式系统管理工具,用于管理 CDH(Cloudera Distribution of Hadoop)集群。SolrCloud 是一个基于 Apache Solr 的分布式搜索引擎,用于提供...

    Solr操作说明文档

    Solr 的文件数据导入主要是指将文件中的数据导入到 Solr 中。 Solr 文件主键解决方案 Solr 的文件主键解决方案主要是指使用唯一的主键来标识文件中的每条记录。 IK 分词器配置 IK 分词器是 Solr 中的一个中文...

    solr4.10.0部署文件全集(包括分词器、mysql的jar包)

    - 用户可以通过运行`bin/solr start`命令启动Solr服务器,使用`bin/solr create -c collection_name`创建一个新的索引集合,`bin/post -c collection_name path/to/files`可以上传文件进行索引。 6. **索引与查询*...

Global site tag (gtag.js) - Google Analytics