`

Lucene整理中

阅读更多
1. 概念
   Store: 是否完整存储该Field的值
   Index: 是否索引该Field的值,以便可以Search
   Analyze: 是否分析(分词)该Field的值
   如Field.Index.NOT_ANALYZED[Index=true, Analyze=false]表示索引但不分词,所以可以用其完整值进行搜索

2. Field
   a. TermVectors
   b. omitTermFreqAndPositions
   c. omitNorms
         设为true,会忽视字段中的 norm (这样就禁用了字段的length normalization和索引期间(index-time)字段的 boosting,同时会节省一些内存)。
         仅full-text 和需要索引期间加 boosting的字段才需要 norm。
         length normalization:长度越小的匹配Field,权重(boost)越高,表明匹配度越高。

3. 参考资料
    http://www.cnblogs.com/forfuture1978/archive/2009/12/14.html

分享到:
评论

相关推荐

    lucene整理文档,lucene详细描述,安装使用过程。

    在 Maven 项目中,可以在 pom.xml 文件中添加 Lucene 的依赖,或者在其他构建工具中进行相应的配置。对于非 Maven 项目,可以直接下载 Lucene 的 JAR 包并将其添加到项目的类路径中。 **Lucene 的基本组件** 1. **...

    lucene4.10.4 jar,手动整理,去除其他文件

    在Lucene 4.10.4版本中,我们看到这个压缩包文件"lucene4.10.4.jar"是该版本的核心库,包含了实现全文搜索功能所需的全部Java类和资源。这个版本的发布,是为了提供稳定且优化的搜索性能,同时也可能包括了错误修复...

    整理Lucene.net一些简单属性说明

    标题:“整理Lucene.net一些简单属性说明” 在信息技术领域,搜索引擎是不可或缺的一部分,而Lucene.net作为Apache Lucene的.NET版本,为开发者提供了一套强大的全文搜索功能。这个文档将对Lucene.net的一些核心...

    Lucene.net学习书记整理

    **Lucene.net学习笔记整理** 在信息技术领域,搜索引擎技术一直占据着重要的地位,尤其是在大数据时代,高效、精准的检索能力显得尤为重要。Lucene是Apache软件基金会的一个开源项目,它为Java开发者提供了一个高...

    Lucene中文分词组件 JE-Analysis 1.5.1

    全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 ...

    jsuop+lucene demo

    在"jsuop+lucene demo"项目中,这两个工具被结合使用,以实现一个简单的新闻爬虫系统,并在此基础上构建了全文索引查询功能,便于用户快速、准确地查找所需新闻内容。 **一、新闻爬虫** 1. **网络爬虫基础**:网络...

    lucene 入门整理

    在本文中,我们将深入探讨Lucene的核心概念、包结构及其内部工作原理,以期为初学者提供一份详尽的入门指南。 #### 二、Lucene的包结构解析 Lucene的包结构设计得非常精细,每个包都承担着特定的功能角色,共同...

    Lucene资料整理

    Lucene 提供了丰富的索引和搜索功能,包括分词、倒排索引、布尔查询等,使得开发者能够快速地在大量文本数据中实现高效检索。 **一、Lucene 的基本概念** 1. **文档(Document)**:在 Lucene 中,文档是信息的...

    基于Lucene的Web站内信息搜索系统

    1. **集成Lucene**:首先,需要在Web应用中引入Lucene的库,并配置相应的Analyzer以适应网站内容的特性。 2. **索引构建**:定期或实时抓取网站内容,使用Lucene API建立索引。索引过程包括创建IndexWriter对象,...

    向LUCENE搜索引擎中加人中文同义词查询

    【标题】: 向LUCENE搜索引擎中添加中文同义词查询 【描述】: 本文探讨了如何在Lucene搜索引擎中实现中文同义词查询,适合那些希望了解和使用Lucene同义词功能的读者。 【标签】: lucene同义词 【正文】: 随着...

    基于Lucene的中文自然语言搜索引擎

    在标题中提到的“标准中文词库”,指的是经过精心挑选和整理的中文词语的集合,这些词库通常包含了大量常用的词汇,并且可能会根据不同领域(如法律、医疗、技术等)来定制,以提高分词的准确性和效率。基于这样的...

    自己整理的 最新的 lucene-3.0.1_api

    《全面解析:Lucene-3.0.1 API——基于最新整理资料》 在信息技术日新月异的今天,搜索引擎技术扮演着至关重要的角色。Apache Lucene,作为一款开源的全文检索库,为开发者提供了强大的文本搜索功能。本文将基于...

    基于lucene.net开发的个人知识库

    这个项目,即“基于Lucene.Net开发的个人知识库”,展示了如何利用这一工具来整理、检索和管理个人知识。 Lucene.Net是一个开源的、高性能的全文搜索引擎库,它提供了高级的索引和搜索功能,适用于各种数据源,包括...

    lucene索引建立[整理].pdf

    在Lucene中,一个文档的数据源通常由多个Field组成,例如文件路径、修改时间和内容。每个Field代表一种特定的数据类型,Document则是这些Field的容器,用于表示完整的文档信息。例如,一个文档文件可以包含一个表示...

    lucene+nutch代码

    Lucene和Nutch是两个在搜索引擎领域中极具影响力的开源项目,它们为开发者提供了构建高效、可扩展的全文搜索引擎的基础框架。本篇文章将深入探讨这两个项目的核心技术和应用场景。 Lucene是一个高性能、全文检索库...

    Lucene中文分词组件 JE-Analysis 1.4.0

    超过22万词的词库整理 实现正向最大匹配算法 //采用正向最大匹配的中文分词算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该...

    Lucene.NET v3.0.3 DEMO范例程序(含PanGu分词)

    这是Lucene.NET v3.0.3 DEMO范例程序(含PanGu分词),用C#... 项目中还整理了一个后台任务线程监听范例,可以用作增量索引创建,但这个需要你自行加入相关具体的适合自己的代码…… 对了,这是基于.NET MVC的范例项目。

    lucene-9.8.0-src.tgz

    在Java开发环境中,Lucene被广泛应用,是一个成熟且免费的开源工具。除此之外,Lucene 也是一个单机版的搜索引擎,其最基本的功能分为写功能和读功能,写入的过程即为建立索引,读取的过程则是利用索引进行搜索。就...

    Lucene详细使用文档

    好不容易整理的,分享给大家。 里面有4个文件,详细说明了全文检索的初步使用过程 第一个:Lucene(讲义).doc ...第三个:lucene_入门整理.pdf 第四个:Lucene教程详解.doc 绝对超值,新手必备宝典。超值分享。

Global site tag (gtag.js) - Google Analytics