`

在Lucene中删除一条指定URL的文档

阅读更多
本来想用IndexReader.Delete(docNum)的方式,后来发现除非遍历整个索引,否则是没有办法获得docNum的(一个索引里边上万条记录太正常了,这个遍历就太恐怖了)。

后来发现一个简单的,直接IndexReader.Delete(term)就可以了。把url也保存成一个field(注意要是keyword),然后IndexReader.Delete(new Term("url","http://ringoding/test.html"))就可以了。

其实这个方法早就知道,只是折腾了好久...曲折,有的时候本来很简单的东西,结果被自己弄复杂了。


分享到:
评论

相关推荐

    Lucene2.0+Heritrix(源代码)

    《构建搜索引擎:剖析Lucene2.0与Heritrix源代码》 在信息化时代,搜索引擎已经成为我们日常...这是一条通向构建个性化、高效搜索引擎的道路,对于从事信息检索、大数据分析和网站运营的人员来说,都是宝贵的资源。

    lucene笔记

    例如,一条数据库记录可以转化为一个`Document`对象,而记录中的每一列则对应一个`Field`。 - **索引域**: 存储的是经过分词处理后的信息。这部分主要用于搜索过程,通过对分词后的关键词进行匹配来快速定位文档。 -...

    用LUCENE连击MYSQL建立索引并搜索的JAVA代码。

    分词后的词项会被添加到`Document`对象中,每个`Document`对象代表数据库中的一条记录。 `Document`对象包含了多个`Field`,每个`Field`对应数据库表中的一个字段。例如,我们可以创建一个`TextField`用于存储文章...

    实时搜索引擎源码LUCENE 实时搜索引擎源码LUCENE

    这种索引方式使得在大量文档中查找含有特定术语的文档变得非常高效。 ### 2. 实时搜索原理 #### 2.1 增量索引(Incremental Indexing) LUCENE支持实时索引,意味着当新文档或现有文档更新时,无需重建整个索引,...

    Heritrix+Lucene搜索例子

    要将Heritrix抓取的数据导入Lucene,你需要创建一个`IndexWriter`实例,设置好相应的索引参数,然后逐条处理Heritrix输出的数据,将每条记录转化为`Document`对象,并添加到索引中。`Document`对象可以包含多个`...

    《开发自己的搜索引擎-Lucene 2.0 Heritrix》cd(全)(下载地址)

    - **Document**:代表要索引的一条记录或文档。 - **Field**:构成Document的基本单位,表示文档的一个属性,如标题、正文等。 - **Analyzer**:用于分析文档内容,将其分解成一系列的Term。 - **QueryParser**:将...

    搜索引擎解密Lucene与Solr的前世今生.ppt

    Lucene的核心机制是倒排索引,这是一种用于快速定位文档中关键词的技术。在索引构建过程中,每个文档会被分解成单词,每个单词都会对应一个文档列表,这个列表包含了包含该词的所有文档的引用。Analyzer是处理文本的...

    java大数据作业_7Flume、Kafka、Sqoop、Lucene

    当一个消费者成功消费了一条消息后,会向 Kafka Broker 发送一个 offset commit 请求,记录下已经消费的消息偏移量。这样,即使消费者重启,也会从上次提交的偏移量继续消费,从而避免了重复消费的情况。 #### 3. ...

    lucene of lietu

    **Document**:在 Lucene 中,Document 代表一条记录,它可以包含多个 Field(字段)。例如,一篇文章可能有标题、正文和修改时间等字段。每个 Field 都有其特定的存储和索引属性,如是否分词、是否存储原始内容以及...

    基于Lucene的MYSearch全文搜索引擎

    基于Lucene的全文搜索引擎MYSearch是通过利用Lucene开源框架来实现的。Lucene本身是一个全文索引引擎工具包,它不提供直接的搜索引擎界面...这种结合开源技术和定制开发的方法,为搜索引擎的设计提供了一条有效的路径。

    ZendFramework中文文档

    10.5.8. 取回一条记录 10.5.9. 取回多条记录 10.5.10. Adding Domain Logic 10.6. Zend_Db_Table_Row 10.6.1. 简介 10.6.2. 取回一条记录 10.6.3. 修改数据 10.7. Zend_Db_Table_Rowset 10.7.1. 简介 ...

    Elasticsearch学习笔记.docx

    **ID(_id)** 是文档的唯一标识符,结合索引和类型可以唯一确定一条记录。ID 可以由用户自定义,如 `123`,也可以让 Elasticsearch 自动生成。 接下来,我们来看一下 Elasticsearch 的 **基本操作**: 1. **创建...

    solr创建索引并查询

    - 分析文档中的数据,如标题、内容等。 #### 六、查询结果示例分析 根据给定的查询结果示例,可以看出Solr返回了多批次的结果集,每批次包含一定数量的文档。这些文档包含了各种社会热点新闻、控诉信等内容,展示...

    搜索引擎设计软件程序源码+数据库+WORD毕业设计论文文档.zip

    万维网一出现就收到了全世界各国人的追捧,人们在它出现的十几年的一个时间段中,就在万维网这一平台上发布了几十亿条的网页信息,他的一个数据量是那么的庞大,粗略计算一下,万维网上的网页信息每天都会不断增长几...

    网络爬虫调研报告(1).doc

    深度优先则从起始页面开始,沿着链接逐个深入,直至一条路径完成后再转至另一条路径,设计相对简单。 在专业搜索引擎中,网络爬虫不仅需要抓取网页,还需要决定链接的访问顺序。这通常涉及“搜索前沿”队列,其中...

    网络爬虫调研报告样本.doc

    - **深度优先**:从起始页开始,沿着链接逐个处理,完成一条路径后再转到下一个起始页。这种方法设计相对简单。 在专业搜索引擎中,网络爬虫会根据链接的“重要程度”决定访问顺序,这一过程涉及到链接价值的评价...

    网络爬虫调研报告.doc

    广度优先是指网络爬虫会先抓取起始网页中链接的所有网页 ,然后再选择其中的一个链接网页 ,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络爬 虫并行处理 ,提高其抓取速度。深度优先是指...

Global site tag (gtag.js) - Google Analytics