`

Lucene / Solr 4.0 的新特性

 
阅读更多

 

 原文 http://www.oschina.net/question/12_60240

 

Lucene 和 Solr 4.0 是一个非常重要的里程碑,包含大量的新特性以及性能的提升,本文主要介绍值得关注的一些改进。

Lucene:

  • ColumnStrideFields: DocValues 存储在每个文档中,每个文档的域可包含一个给定类型的值
  • Facet search, 这个功能已经包含在 Solr 中,现在 Lucene 也提供了
  • 通过 灵活的索引 用户可自行修改 fields, terms, docs 和 positions 在索引的编码方式
  • 增加了不同的相关排名系统
  • 增加了用于支持 append-only 文件系统的编码 (例如 Hadoop DFS).
  • 增加 DirectSpellChecker 可直接从 Levenshtein 自动字典检索校正
  • 文本词条使用 UTF-8 编码存储,而不再是 UTF-16
  • 大幅提升搜索时使用过滤器的性能
  • FuzzyQuery 性能提升 100-200 倍
  • 增加索引统计,包括词条的关键字数等
  • 增加 RegexpQuery 正则表达式查询

Solr:

Solr 4.0-alpha 包含更多 NoSQL 特性,适用于很多人将 Solr 做为数据存储解决方案。

  • 分布式索引设计,提供近乎实时的操作和 NoSQL 特性,如 realtime-get, 乐观锁和持续更新。
  • 高可用性,无单点故障
  • 集成 Apache Zookeeper 用于分布式协调、元数据集群以及配置存储
  • 发往集群节点中的更新操作将自动转到正确的分片以及复制到冗余节点
  • 发往任意节点的查询会自动执行全分布式搜索,提供负载均衡和故障自动迁移
  • 事务日志确保不会丢失任何一个未提交的文档
  • Real-time Get ? 可快速获取文档的最新版本,无需提交或者打开一个新的 Searcher
  • 原子更新,可添加、删除、修改和增加已存在文档的字段值,无需再次传送整个文档
  • Pivot Faceting ? 多层次约束每一个不同 field 的顶级约束。
  • Pseudo-Join 功能? 可基于关联度来选择一组文档
  • 新的 Web 管理界面,支持 SolrCloud.

 

 

分享到:
评论

相关推荐

    Lucene4.0 IK分词器使用pdf

    ### Lucene4.0 IK分词器使用概览 #### IKAnalyzer:中文分词利器 IKAnalyzer是一款基于Java开发的开源中文分词工具包,自2006年首次发布以来,历经多个版本的迭代,已成为业界广泛认可的中文分词解决方案。其最初...

    solr6.6.2的完整的包

    3. **云部署**: 自Solr 4.0起引入了SolrCloud模式,6.6.2版本中也包含此功能,允许用户在Zookeeper的协调下创建分布式Solr集群,提供了容错和自动恢复能力。 4. **实时索引**: Solr支持实时索引,即新增或更新文档...

    使用java实现solr-7.1.0的api和solr最新支持的sql查询

    Solr是Apache Lucene项目的一个子项目,是一个高性能、基于Java的企业级搜索服务器。它提供了全文检索、Hit高亮、拼写检查、动态集群、分布式搜索等特性,广泛应用于各类数据检索场景。在本篇文章中,我们将深入探讨...

    IK Analyzer 2012FF_hf1+lucene4.0的jar包

    Lucene4.0是该库的一个重要版本,它引入了许多新的特性和性能优化,例如更高效的倒排索引结构、更强大的分析器支持以及对多线程操作的改进。 标题中提到的" IK Analyzer 2012FF_hf1+lucene4.0的jar包 ",意味着这个...

    最新版windows solr-8.9.0.zip

    - **SolrCloud**:从Solr 4.0开始引入,提供了分布式搜索和处理能力,允许多台Solr服务器组成集群,实现数据的自动分片、复制和故障恢复。 3. **配置文件**: - **solrconfig.xml**:这是Solr实例的主要配置文件...

    solr-4.10.3.zip

    - **SolrCloud模式**:Solr 4.0引入的新特性,支持分布式索引和查询,提供高可用性和容错性。 - **请求处理器(Request Handler)**:处理HTTP请求,如搜索请求、更新请求等。 - **查询解析器(Query Parser)**:...

    solr-4.10.3

    在4.0到5.0的升级过程中,Solr引入了大量的新特性和改进,这些变化主要体现在以下几个方面: 1. **Cloud功能增强**:SolrCloud是Solr的分布式搜索和索引存储解决方案,4.10.3版本对SolrCloud进行了优化,提供了更...

    solr7官方文档

    文档还提到了 "schemaless 模式",这是 Solr 4.0 以后引入的一个重要特性,允许用户无需定义字段模式即可进行索引操作,大大简化了使用门槛。 此外,还涉及了 "分词器、分析器和过滤器" 的使用和配置,它们是实现...

    solr-4.10.3.rar

    Solr 是一个开源的企业级搜索平台,由Apache软件基金会维护,是Lucene项目的一部分。它提供了全文检索、命中高亮、拼写检查、缓存、近实时搜索等特性,广泛应用于网站内容搜索、电子商务产品搜索等领域。本次分享的...

    Solr介绍文档

    SolrCloud是自Solr 4.0版本起引入的一种全新的分布式搜索方案。它采用了Zookeeper作为协调服务,以实现高度可伸缩和高可用性的搜索服务。相比于传统的单机或多机Master-Slave部署方式,SolrCloud具有以下显著特点: ...

    solr-4-10.3.zip

    2. **Lucene库升级**: Solr是基于Lucene构建的,4.10.3版本可能采用了当时最新的Lucene库,带来了性能优化和新功能,如更高效的倒排索引、新的查询解析器等。 3. **查询与排序**: Solr提供了丰富的查询语法,包括...

    apache-solr-1.4.0.zip_apache-solr _apache-solr-1.4.0_apache-solr

    3. **分布式搜索**:SolrCloud是Solr的分布式搜索和索引分片功能,但在1.4.0版本中,Solr尚未集成这一特性。不过,可以通过设置多个独立的Solr实例实现基本的分布式部署。 4. **实时索引**:Solr支持实时索引,即新...

    EasyNet.Solr-3.5.1

    Solr是一个开源的全文检索平台,由Apache Lucene项目维护,它提供了一个高效、可扩展的搜索和分析服务。 描述中提到的“.net环境下开发 solr 用到的bin文件”意味着这个压缩包包含的是运行时库和相关的调试信息,...

    分布式全文检索系统SolrCloud简介

    SolrCloud是Solr4.0版本开发出的具有开创意义的基于Solr和Zookeeper的分布式搜索方案,或者可以说,SolrCloud是Solr的一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式,这些方式部署的...

    tomcat8.5+solr7+IKAnalyzer5+ikpinyin直装版

    Solr 7是Lucene项目下的一个高性能、可扩展的企业级搜索平台。它能够处理大量数据的索引和查询,具有丰富的查询语言和排序选项,非常适合构建全文搜索引擎。在这个直装版中,Solr已经被预先配置好,用户可以直接启动...

    solrCloud基本概念和搭建1

    SolrCloud是Apache Solr的一种分布式部署方式,从Solr 4.0版本开始引入,它结合了Zookeeper实现了一种高可用和可扩展的搜索引擎解决方案。SolrCloud基于Java开发,利用Lucene(一个强大的全文检索引擎库)进行扩展和...

Global site tag (gtag.js) - Google Analytics