有时候需要删除 Solr 中的数据(特别是不重做索引的系统中,在重做索引期间)。删除一些 Solr 无效数据(或不合格数据)。
删除 solr 中的数据有几种方式:
1、先来看 curl 方式:
-
curlhttp://localhost:8080/solr/update--data-binary"<delete><query>title:abc</query></delete>"-H'Content-type:text/xml;charset=utf-8'
-
-
-
-
curlhttp://localhost:8080/solr/update--data-binary"<commit/>"-H'Content-type:text/xml;charset=utf-8'
2、用自带的 post.jar,在 apache-solr-XXX\example\exampledocs 目录下:
-
java-Ddata=args-jarpost.jar"<delete><id>42</id></delete>"
-
-
-
-
java-jarpost.jar-help
3、直接用 url,使用 stream 相关参数:
比如:
http://localhost:8080/solr/update/?stream.body=<delete><id>123</id></delete>&stream.contentType=text/xml;charset=utf-8&commit=true
stream 相关参数还有:stream.file=(服务器本地文件),stream.url 分别指到你的删除文本,这里是直接字符串内容用 stream.body 参数。commit 参数是指提交,提交了才能看到删除效果。
小结:其实,方式1、2原理一样,直接 POST xml 数据过去。方式3就是直接可以告诉服务器从那些地方取删除的 xml 内容。
删除指令有两种,一是:用 <id></id> 包装;二是:<query></query> 包装。指令都很明显,一个是 id 值(是在 schema.xml 的 uniqueKey 所指字段的值,而不是索引内部的 docId);query 值是查询串,如:title:"solr lucene"
原文出处:http://blog.chenlb.com/2010/03/solr-delete-data.html
分享到:
相关推荐
10. **监控与管理**:SolrAdmin是Solr内置的Web界面,用于监控和管理Solr实例,包括查看统计信息、加载和删除索引、测试查询等。 总的来说,Solr-4.10.3作为一个稳定的版本,为用户提供了强大且灵活的全文搜索引擎...
通常有几种常见的方案: 1. **基于Lucene自封装实现站内搜索**:这种方式需要较大的开发投入,并且在后续维护和扩展上也会比较复杂,因此在本教材中并未推荐此方法。 2. **调用第三方搜索引擎API**(如Google或...
常见的几种方案包括: 1. **基于Lucene自行封装实现站内搜索**:这种方式虽然能够最大程度地控制搜索引擎的行为,但由于需要大量的开发工作,且在后续维护和扩展方面可能会遇到挑战,因此通常不会被首选。 2. **...
在Solr 8.10.0中,我们可以找到以下几个重要的知识点: 1. **新特性与改进**:每个新版本都会带来一些功能增强和性能优化。Solr 8.10.0可能包括更快的搜索速度、更稳定的运行环境以及对新数据格式的支持。开发者...
倒排索引是一种数据结构,它将每个词映射到包含该词的文档列表,极大地加速了搜索速度。 2. **字段类型与配置**:Solr允许用户自定义字段类型,如字符串、数字、日期等,以适应不同的数据需求。这些字段类型的配置...
3. **强大的RESTful API**:SolrCloud提供了一套全面的RESTful API接口,方便开发者编写脚本来管理和维护系统,如添加、删除索引、查询数据等操作。 4. **优秀的管理界面**:SolrCloud配备了一个直观易用的管理界面...
3. **关于分词器**:解释了分词器的作用和工作原理,并列举了几种常用的分词器类型。 4. **关于过滤器**:介绍了文本过滤器的概念和用途,包括大小写转换、停用词移除等常见过滤器。 5. **分词器**:提供了 Solr...
- **索引操作**:可以添加、删除、更新文档到 Solr 索引,以便进行全文检索。 - **查询执行**:通过 PHP 代码发送查询请求,获取并处理返回的结果集,包括排序、分页、高亮显示等。 - **高级搜索特性**:支持 ...
在企业级搜索引擎方案的选择中,考虑到不同的技术路线和技术成熟度,通常会有几种不同的方案可供选择。本文档提到的主要关注于以下几种方案: 1. **基于Lucene自行封装实现站内搜索**:这种方案虽然可行,但存在较...
"ik-analyzer-solr7.x.zip"压缩包为用户提供了便捷的集成方式,只需简单几步即可让IK Analyzer在Solr 7.x环境中发挥出其强大的功能。无论是开发人员还是运维人员,理解并掌握IK Analyzer的使用都是提升Solr中文搜索...
Solr 是 Apache 开源项目中的一个全文搜索服务器,基于 Java 开发,并且是构建在 ...同时,随着对 Solr 的深入使用,可能还需要了解如何创建和管理 Core(Solr 的数据处理单元),以及如何进行性能调优等高级主题。
7. 数据生命周期管理:根据数据的价值和使用频率,实施自动化的数据归档和删除策略。 8. 分布式存储:如Hadoop HDFS,适合处理海量数据,通过复制数据实现容错和高可用性。 Nutch与Hadoop的结合,使得在大数据环境...
SolrCloud是一个基于Apache Lucene构建的分布式全文检索系统,主要在Solr 4.0版本之后引入,目的是为了提供一种高效、可扩展且具备容错能力的搜索解决方案。SolrCloud结合了Solr和Zookeeper的技术优势,使得索引和...
B+树是一种自平衡的树数据结构,它保持了数据排序并允许搜索、顺序访问、插入和删除在一个对数时间内完成。在分布式索引的背景下,B+树用于优化分片数据的索引和查询操作。 文章中还提到了Solr集群的概念,Solr集群...
通常情况下,有以下几种方案可供选择: - **基于Lucene自封装实现站内搜索**:这种方式可以提供高度的定制化能力,但开发工作量大且后期维护成本较高。 - **调用Google或Baidu等第三方搜索引擎API**:虽然这种方式...
在这个压缩包中,"SolrMongoImporter-master"可能是一个用于将MongoDB的数据导入到Solr(一个全文搜索引擎)的项目,同时也可能支持将数据间接导入到HBase,因为Solr与HBase之间有成熟的集成方案。 对于MongoDB的...
Atlas 可以从多种大数据组件中获取和管理元数据,目前支持以下几种来源: 1. **Hive**:通过 HiveBridge 组件,Atlas 可以集成 Hive 的元数据,包括数据库、表和列等信息。 2. **Sqoop**:通过 SqoopBridge 组件,...
MongoDB是一种流行的NoSQL数据库,它以JSON格式存储数据,适合处理大量非结构化或半结构化数据。 "手头参考的例子程序代码"提示我们,压缩包中可能包括了用于演示如何使用PHP操作Solr和MongoDB的实例代码,这对于...
5. **数据管理**: 包含如何使用PHP脚本语言对数据进行操作,如CRUD(创建、读取、更新、删除)操作,以及可能的索引和查询优化技巧。 6. **开发实践**: 这个压缩包可能包含实际项目中的代码示例,可以作为学习如何将...