使用xml更新solr索引
Solr接受xml格式数据更新、提交、修改索引。
更新的Schema
不要混淆SCHEMA.XML
add/replace documents
Simple Example:
<!--[if !supportLists]-->· <!--[endif]--><add>
<!--[if !supportLists]-->· <!--[endif]--> <doc>
<!--[if !supportLists]-->· <!--[endif]--> <field name="employeeId">05991</field>
<!--[if !supportLists]-->· <!--[endif]--> <field name="office">Bridgewater</field>
<!--[if !supportLists]-->· <!--[endif]--> <field name="skills">Perl</field>
<!--[if !supportLists]-->· <!--[endif]--> <field name="skills">Java</field>
<!--[if !supportLists]-->· <!--[endif]--> </doc>
<!--[if !supportLists]-->· <!--[endif]--> [<doc> ... </doc>[<doc> ... </doc>]]
</add>
注:多个文件,可以在一个单一的<add>命令指定。
optional属性为“add”
overwrite =“true”|“false” 默认是“true”,意味着新的文件具有相同的uniquekey取代以前添加的文件。
可选的属性“DOC”
boost = <float> — default is 1.0
这是一个方便的机制◦等同的刺激属性指定各个领域,支持规范(见下文)
optional属性为“field”
update = "add" | "set" | "inc"
boost = <float> — default is 1.0
◦NOTE: 确保规范启用 (omitNorms="false" in the schema.xml)
添加各种可选的属性文件的例子
Example of "add" with optional boost attribute:
<!--[if !supportLists]-->· <!--[endif]--><add>
<!--[if !supportLists]-->· <!--[endif]--> <doc boost="2.5">
<!--[if !supportLists]-->· <!--[endif]--> <field name="employeeId">05991</field>
<!--[if !supportLists]-->· <!--[endif]--> <field name="office" boost="2.0">Bridgewater</field>
<!--[if !supportLists]-->· <!--[endif]--> </doc>
</add>
Example of "add" with optional update attribute:
<!--[if !supportLists]-->· <!--[endif]--><add>
<!--[if !supportLists]-->· <!--[endif]--> <doc>
<!--[if !supportLists]-->· <!--[endif]--> <field name="employeeId">05991</field>
<!--[if !supportLists]-->· <!--[endif]--> <field name="office" update="set">Walla Walla</field>
<!--[if !supportLists]-->· <!--[endif]--> <field name="skills" update="add">Python</field>
<!--[if !supportLists]-->· <!--[endif]--> </doc>
</add>
Example of "add" with optional update attribute to set multiple values on a multi-valued field:
<!--[if !supportLists]-->· <!--[endif]--><add>
<!--[if !supportLists]-->· <!--[endif]--> <doc>
<!--[if !supportLists]-->· <!--[endif]--> <field name="employeeId">05991</field>
<!--[if !supportLists]-->· <!--[endif]--> <field name="skills" update="set">Python</field>
<!--[if !supportLists]-->· <!--[endif]--> <field name="skills" update="set">Java</field>
<!--[if !supportLists]-->· <!--[endif]--> <field name="skills" update="set">Jython</field>
<!--[if !supportLists]-->· <!--[endif]--> </doc>
</add>
Example of "add" with optional update attribute to set a field to null (i.e. delete a field):
<!--[if !supportLists]-->· <!--[endif]--><add>
<!--[if !supportLists]-->· <!--[endif]--> <doc>
<!--[if !supportLists]-->· <!--[endif]--> <field name="employeeId">05991</field>
<!--[if !supportLists]-->· <!--[endif]--> <field name="skills" update="set" null="true" />
<!--[if !supportLists]-->· <!--[endif]--> </doc>
<!--[if !supportLists]-->· <!--[endif]--></add>
"commit" and "optimize"
提交操作将会在新的查询请求中提现。
Optional attributes for "commit" and "optimize"
waitFlush = "true" | "false" — default is true,等到索引更改刷新到磁盘
waitSearcher = "true" | "false" — default is true 等到新搜索打开注册主查询搜索,使变化可见
softCommit = "true" | "false" — default is false 执行一个软的提交,这将在一个更高效的方式刷新索引的“视图”,但是没有“磁盘”的保证。
Optional attributes for "commit"
expungeDeletes = "true" | "false" — default is false 合并段删除掉
Optional attributes for "optimize"
<!--[if !supportLists]-->· <!--[endif]--><commit waitSearcher="false"/>
<!--[if !supportLists]-->· <!--[endif]--><commit waitSearcher="false" expungeDeletes="true"/>
<!--[if !supportLists]-->· <!--[endif]--><optimize waitSearcher="false"/>
<!--[if !supportLists]-->· <!--[endif]-->
通过提交和commitwithin参数作为URL的一部分
curl http://localhost:8983/solr/update?commit=true -H "Content-Type: text/xml" --data-binary '<add><doc><field name="id">testdoc</field></doc></add>'
"delete" documents by ID and by Query
<!--[if !supportLists]-->· <!--[endif]--><delete><id>05991</id></delete>
<delete><query>office:Bridgewater</query></delete>
<!--[if !supportLists]-->· <!--[endif]--><delete>
<!--[if !supportLists]-->· <!--[endif]--> <id>05991</id><id>06000</id>
<!--[if !supportLists]-->· <!--[endif]--> <query>office:Bridgewater</query>
<!--[if !supportLists]-->· <!--[endif]--> <query>office:Osaka</query>
</delete>
参考网址
http://wiki.apache.org/solr/UpdateXmlMessages
相关推荐
#### 三、Solr索引创建的XML语法示例 ```xml <field name="id">222 ``` 此XML片段展示了如何使用`<add>`标签创建一个包含单个字段的新文档。`boost`属性表示该文档的重要性权重。 #### 四、总结 通过对...
4. **触发索引更新**:可以通过SOLR的API或Web界面来触发全量或增量数据导入,使SOLR根据MySQL中的最新数据更新索引。 接下来,我们关注到`schema.xml`文件。这是SOLR的核心配置文件,定义了索引的字段类型和字段。...
- **版本选择**:根据项目需求选择合适的Solr版本,通常推荐使用官方提供的最新稳定版。 - **下载地址**:从Apache官方网站或者其镜像站点下载,如`http://apache.etoak.com/lucene/solr/`。 2. **设置Solr Home*...
- 使用`<dataConfig>`标签定义数据导入处理器(DIH,DataImportHandler),它可以读取文件夹内容并将其导入到Solr索引中。 - 创建一个`data-config.xml`文件,在其中定义数据源和查询语句,以遍历文件夹并读取文件...
Solrconfig.xml 是 Apache Solr 的核心配置文件之一,主要用于定义 Solr 实例如何处理文档的索引与查询请求。该文件中包含了多种配置项,用于定制化 Solr 的行为。 #### Solrconfig.xml 详解 **datadir 节点** - ...
本篇文章将深入探讨如何在Solr中配置中文解析器以及在导入数据到Solr索引库时所需关注的jar包。 首先,让我们来了解Solr中的中文解析器。在Solr中,解析器是处理文本输入的关键组件,它负责将原始文本转化为可搜索...
Schema.xml是Solr的核心配置文件,定义了索引的结构。在这里,你需要指定文档的字段,以及字段的类型和特性,如是否可搜索、是否可排序等。正确设计Schema对于优化搜索性能至关重要。 6. **搜索与查询**: 用户...
3. **创建定时任务**:在Solr服务器的外部,如Linux服务器,你可以使用cron job或Windows的任务计划程序来定期执行更新索引的命令。命令通常是发送一个HTTP请求到Solr的Update Handler来触发数据导入。 4. **增量...
每个分片都是一个完整的Solr索引,可以独立工作,这样就能够在不影响整个系统的情况下对单个节点进行维护或升级。 在我们的实例中,文件kobe.xml和jane.xml代表我们要索引的数据源。这些XML文件通常包含一系列文档...
- 更新HBase中的数据时,Solr中的索引也会相应更新。 3. **删除数据** - 删除HBase中的数据时,Solr中的索引会被同步删除。 #### 四、管理命令 1. **列出配置目录列表** - 查看所有配置目录。 2. **列出...
solrconfig.xml定义了索引的创建、更新和查询行为,而schema.xml则规定了索引的字段类型和字段信息,如分词器、过滤器等。通过修改这些配置,可以定制化Solr的行为以适应特定的搜索需求。 在分布式环境下,...
CDH 使用 Solr 实现 HBase 二级索引 在大数据处理中,HBase 是一种流行的 NoSQL 数据库,用于存储大量的数据。然而,在查询和检索数据时,HBase 的性能可能不太理想。这是因为 HBase 是基于 Key-Value 的存储方式,...
在这个主题“跟益达学Solr5之增量索引MySQL数据库表数据”中,我们将深入探讨如何利用Solr 5来实现对MySQL数据库表数据的增量索引,以便在搜索时获得实时更新的结果。 首先,我们需要理解什么是增量索引。在传统的...
在本文中,我们将深入探讨如何使用Solr进行索引查询,并结合相关库文件解析其背后的工作原理。 首先,Solr的查询过程主要分为以下步骤: 1. **建立索引**:Solr通过分析和索引文档内容来创建索引,这个过程包括...
- **XML/JSON接口**:Solr使用HTTP协议和XML/JSON格式进行通信,方便与其他系统集成。 2. **Solr核心组件** - **Core**:Solr的基本工作单元,包含了配置信息、索引数据和处理请求的组件。 - **Schema**:定义了...
在Solr中,定时更新主要通过DataImportHandler(DIH)实现,这是一个用于将结构化数据导入到Solr索引中的内置工具。DIH支持多种数据源,如关系型数据库、CSV文件等,并提供了全量导入和增量导入两种方式。全量导入会...
Solr 数据导入调度器(solr-dataimport-scheduler.jar)是一个专门为Apache Solr 7.x版本设计的组件,用于实现数据的定期索引更新。在理解这个知识点之前,我们需要先了解Solr的基本概念以及数据导入处理...
1. **全量导入**:全量导入是将所有数据从源数据库或文件一次性导入到Solr索引的过程。这通常在系统初始化或者数据大幅度变动时进行。 2. **增量导入**:增量导入只导入自上次导入以来发生变化的数据。Solr通过跟踪...