ElasticSearch的Schema free特性给动态提取并索引网页结构化文本内容提供了支持,使用URL的hash值来作为索引的主键(实际开发中使用URL作为主键,这里使用URL的hash值是为了方便演示),当网页内容改变后,可以非常方便地更新索引。
下面演示了动态索引结构和索引更新机制:
- 1、提交索引:
curl -XPUT http://localhost:9200/webpage/finance/85723925 -d '
{
"url" : "http://money.163.com/14/0523/02/9ST8D7KR00253B0H.html",
"title" : "中国非一线城市限购可退出 楼市限购或全面松绑",
"content" : "昨日有消息称,除北上广深之外,其他城市的限购政策可以自行调节,尤其是库存过大的地方。这意味着除四大一线城市之外的30多个限购城市,有可能全面松绑限购政策。"
}
'
2、服务器响应:
{"_index":"webpage","_type":"finance","_id":"85723925","_version":1,"created":true}
- 3、查看索引结构:
需要elasticsearch-head插件,下面是安装方法:
plugin -install mobz/elasticsearch-head
浏览器访问:
http://localhost:9200/_plugin/head/
- 4、再次提交同样URL的索引,内容改变了:
curl -XPUT http://localhost:9200/webpage/finance/85723925 -d '
{
"url" : "http://money.163.com/14/0523/02/9ST8D7KR00253B0H.html",
"title" : "标题改了:中国非一线城市限购可退出 楼市限购或全面松绑",
"content" : "内容改了:昨日有消息称,除北上广深之外,其他城市的限购政策可以自行调节,尤其是库存过大的地方。这意味着除四大一线城市之外的30多个限购城市,有可能全面松绑限购政策。"
}
'
5、服务器响应:
{"_index":"webpage","_type":"finance","_id":"85723925","_version":2,"created":false}
可以看到,版本变为2,created为false,已经成功更新索引
- 6、再次提交同样URL的索引,不但内容改变了,而且新增了2个字段:
curl -XPUT http://localhost:9200/webpage/finance/85723925 -d '
{
"url" : "http://money.163.com/14/0523/02/9ST8D7KR00253B0H.html",
"title" : "标题改了:中国非一线城市限购可退出 楼市限购或全面松绑",
"content" : "内容改了:昨日有消息称,除北上广深之外,其他城市的限购政策可以自行调节,尤其是库存过大的地方。这意味着除四大一线城市之外的30多个限购城市,有可能全面松绑限购政策。",
"keywords" : "试探,限购政策,淡出,一次次",
"description" : "中国非一线城市限购可退出 楼市限购或全面松绑,试探 限购政策 淡出 一次次"
}
'
7、服务器响应:
{"_index":"webpage","_type":"finance","_id":"85723925","_version":3,"created":false}
- 8、再次查看索引结构:
可以看到,新增的两个索引字段已经添加到索引里面了
相关推荐
动态索引策略能够根据数据更新和查询的需求,动态调整索引结构和数据存储位置,减少数据存取的延迟,提高系统的响应速度。在系统规模扩展时,动态索引策略还能帮助系统通过增加新的服务器节点来提升整体性能,而不会...
其中,最重要的挑战之一是如何在高并发环境下保证索引结构的正确性和高效性。因此,面向大数据的并发索引结构成为了一个重要的研究方向。 #### 设计优化的并发控制策略 并发控制是确保并发索引结构正确性的核心...
### Oracle索引机制分析 #### 1. 基本索引概念 索引是数据库管理系统(DBMS)为了加快数据检索速度而采用的一种数据结构。Oracle提供了多种类型的索引,每种索引都有其特定的优势和适用场景。索引的基本目的是通过...
3. 工具支持:Lucene提供了丰富的工具和API,如Luke工具可以查看索引结构,Solr和Elasticsearch则是基于Lucene的全文搜索引擎服务,提供了更高级的功能和服务。 综上,深入理解Lucene的索引机制有助于优化搜索性能...
4. 源码解析:可能涉及到数据库管理系统中索引的实现,例如如何构建和维护索引结构,以及优化查询过程。 5. 索引的创建与管理:如何在SQL语句中创建、修改和删除索引,以及如何监控和分析索引性能。 6. 工具的使用:...
理解Lucene的索引结构原理对于优化搜索性能和设计高效的搜索应用至关重要。 首先,我们要知道Lucene的索引并非数据库中的那种可以立即定位数据的索引,而是用于快速查找文档中包含特定单词的索引。这个过程分为以下...
总的来说,R树是一种强大的索引结构,它在多维数据管理和查询方面提供了有效的解决方案,尤其在大数据和复杂查询场景下具有显著优势。理解并掌握R树的原理和操作,对于开发和优化涉及多维数据的系统至关重要。
- **动态调整机制**:支持倒排索引的增量更新和删除操作,确保索引结构能够实时适应数据的变化。 - **容量规划**:通过对词典的合理规划和管理,确保倒排索引能够在不牺牲检索性能的前提下,有效控制存储空间的增长...
### MySQL索引和锁机制详解 #### 一、索引基础 **索引定义:** 索引是MySQL中用于提高查询效率的一种数据结构。通过索引可以在数据表中快速定位到所需的数据行,大大减少不必要的全表扫描。 **索引的重要性:** 1....
非主键索引通常指的是次级索引或者辅助索引,它们同样采用B+树结构。与主键索引不同,非主键索引的叶子节点存储的是主键值而不是完整的行记录。这种方式减少了索引的空间占用,但需要额外的二次查找来获取完整的记录...
同时,索引结构支持字段内和跨字段的灵活查询,以及基于权重的排序机制,确保搜索结果的精准性和商业相关性。 ### 查询算法优化 除了索引结构的创新,文章还讨论了配套的查询算法优化。传统的全文检索算法可能无法...
### 动态字符串存储与索引机制 #### 动态字符串存储的基本原理 **内存管理** 1. **内存分配器的角色:** 动态字符串存储过程中,内存分配器扮演着核心角色,负责分配和回收内存空间。当字符串长度发生变化时...
之后,索引文件会被合并和优化,最终构建出完整的分布式索引结构。这个过程需要精心设计和优化才能保证在大规模数据集上的效率。 在构建分布式索引的过程中,还需要考虑容错机制。单机多线程在索引构建时虽然可以...
6. **动态索引**:动态索引意味着索引结构会随着数据集的变化自动更新。当数据插入、删除或更新时,对应的索引需要同步更新以保持有效。这需要精心设计索引更新机制,以确保性能和准确性。 7. **性能优化**:在处理...
【Lucene 索引结构原理】 Lucene 是一个高性能、全文检索的开源库,它主要处理非结构化的数据,如邮件、Word 文档等。与传统的数据库不同,Lucene 更专注于文本的检索,而非存储和管理结构化数据。本文将深入探讨...
这些算法在需要频繁更新的空间索引结构中(如移动GIS系统)存在一定的局限性,尤其是在动态环境下,如移动用户位置的变化,数据的频繁插入、删除和查询操作等。 #### 动态四叉树空间索引算法 为了解决移动GIS系统...