- 浏览: 316224 次
- 性别:
- 来自: 重庆
文章分类
- 全部博客 (286)
- 设计模式 (14)
- spring (5)
- 开发工具 (12)
- java (19)
- apache.commons工具 (7)
- ibaits (5)
- extjs4.0 (4)
- 数据库 (2)
- spring工具类 (2)
- jquery1.8 (32)
- 杂记 (1)
- linux (2)
- Quart (1)
- springMVC (2)
- webservice (1)
- oracle (5)
- dwr (6)
- jbmp3 (27)
- lucene3.5 (27)
- javascript (18)
- hibernate3.3.2 (27)
- spring事务管理 (10)
- nio (2)
- strust2 (3)
- jvm (7)
- jquery-easyui-1.2.6 (22)
- 多线程 (14)
- maven (3)
- 常用正则表达式 (4)
最新评论
-
HF_SKY000:
请问:
一、能否提供一下密钥库文件的生成方法?
二、密钥库的密 ...
Java sslSocket 聊天实例
Field.Store.YES或者NO(存储域选项)
YES:将会存储域值,原始字符串的值会保存在索引中,以此可以进行相应的恢复操作,对于主键,标题可以是这种方式存储
NO:不会存储域值,通常与Index.ANAYLIZED合起来使用,索引一些如文章正文等不需要恢复的文档
,
此时内容无法完全还原(doc.get)
Field.Index(索引选项)
Index.ANALYZED:进行分词和索引,适用于标题、内容等
Index.NOT_ANALYZED:进行索引,但是不进行分词,如果身份证号,姓名,ID等,适用于精确搜索
Index.ANALYZED_NOT_NORMS:进行分词但是不存储norms信息,这个norms中包括了创建索引的时间和权值等信息
Index.NOT_ANALYZED_NOT_NORMS:即不进行分词也不存储norms信息
Index.NO:不进行索引
最佳实践:
索引选项
存储选项
NOT_ANALYZED_NOT_NORMS YES 标识符(主键、文件名),电话号码,身份证号,姓名,日期
ANAYLZED YES 文档标题和摘要
ANAYLZED NO 文档正文
NO YES 文档类型,数据库主键(不进行索引)
NOT_ANALYZED NO 隐藏关键字
索引文件的初步认识:
_0.fdt
_0.fdx
---存储域的值---
_0.fnm
---存储域的名称---
_0.frq
---分词出现的频率---
_0.nrm
---存储评分信息---
_0.prx
---位偏移量---
_0.tii
_0.tis
---索引信息---
文档和域的概念很重要
文档相当于表中的每一条记录,域相当于表中每一个字段
发表评论
-
二十七、Luence在项目中运用
2012-12-26 15:03 1099public class LuceneContext { ... -
二十六、solr的基本使用
2012-12-26 10:26 963public class Message { p ... -
二十五、solr与tomcat的整合
2012-12-25 13:52 10541、solr是全文搜索服务器,专门用户管理索引的。 2 ... -
二十四、通过NRTManager和SearchManager实现近实时搜索
2012-12-21 11:35 1350是否进行实时搜索 实时搜索(近实时搜索) ... -
二十三、高亮显示
2012-12-20 09:24 1012public void lighter01() { ... -
二十二、Tika
2012-12-20 09:24 967Tika是2008年才产生的一个apache的项目,主要用于打 ... -
二十一、Luke
2012-12-20 09:24 815luke是一个查询索引的工具,使用时必须注意:版本要与luce ... -
二十、自定义过滤器
2012-12-20 09:23 876有的应用有些要求,对于某类型的内容即使满足条件了,但是也不 ... -
十七、搜索过滤
2012-12-20 09:23 639public void searcherByFilter(St ... -
十九、自定义QueryParser
2012-12-19 16:28 1225原因: 1、对于某些Quer ... -
十八、自定义评分
2012-12-19 16:18 792public class MyCustomScoreProvi ... -
十六、搜索排序
2012-12-19 12:14 1032public void searcherBySort(Stri ... -
十五、实现简单同义词分词器
2012-12-19 11:41 1260public interface SamewordContex ... -
十四、中文分词器
2012-11-28 13:49 865中文分词器 : Paoding:庖丁解牛分词器。 ... -
十三、自定义Stop分词器
2012-11-28 13:42 765import java.io.Reader; impor ... -
十二、Attribute
2012-11-28 13:20 828Attribute : ... -
十一、分词器的核心类
2012-11-28 13:12 908Analyzer : SimpleAnalyz ... -
十、分页搜索
2012-11-27 17:30 881分页查询有两种实现方式: 1、再查询 ... -
九、Queryparser
2012-11-27 17:24 1003Mike 默认域包含mike Mi ... -
八、其他搜索Query
2012-11-27 10:30 666TermRangeQuery : 字母范围搜索 ...
相关推荐
资源名称:Lucene实战视频教程资源目录:【】01_lucenc简介和创建索引初步【】02_lucene简介和搜索初步【】03_lucene索引_创建_域选项【】04_lucene索引_的删除和更新【】05_lucene索引_加权操作和Luke的简单演示...
【标题】"java+lucene)1236.rar_Lucene 搜索_Luncene_lucene_lucene web" 提供的信息表明这是一个使用Java和Lucene框架实现的搜索系统,特别是针对公交数据的搜索。Lucene是Apache软件基金会的一个开源全文检索库,...
开发者可以通过调用Pangu4Lucene的相关API,轻松地在自己的应用程序中实现中文分词和索引创建。 “Lucene for .NET”是Lucene的.NET版本,为C#、VB.NET等.NET语言提供了全面的接口支持。它保留了原生Lucene的核心...
2. **索引创建**:理解如何创建索引,包括分析文本(分词)、定义字段类型、设置存储和索引选项等。 3. **字段处理**:了解如何处理各种数据类型,如字符串、日期等,并将其转换为Lucene可以处理的形式。 4. **...
这个名为“lucenevideao(eddy).rar_Lucene.net a_eddy_lucene_lucene web_luce”的资源,包含了一份由Eddy精心制作的Lucene.NET视频教程,以及相关的学习材料,是深入理解和应用Lucene.NET的好帮手。 首先,视频...
lucene.net 是一个非常优秀的全文检索类库。有了它你可以比较轻松的着手开发自己的的搜索引擎 这是_2_9_1版的 最新开发包 源代码在Lucene.Net_2_9_1\src\Lucene.Net路径下 FILES: src/Lucene.Net The Lucene ...
jar资源
#### 二、创建索引的基本步骤 根据提供的描述,创建索引的主要步骤包括: 1. **指定源目录**:首先确定要索引的文本文件所在的位置。 2. **设置目标索引目录**:定义存放生成索引文件的路径。 3. **初始化`...
2. 索引(Index):索引是Lucene.Net的核心,它将文档内容转化为倒排索引结构,便于快速查找包含特定词汇的文档。索引过程包括字段划分、分析、建立词典和倒排表等步骤。 3. 文档(Document):文档是索引的基本...
2. **索引创建**:使用Lucene的API,我们可以读取网页内容并创建索引。这通常涉及到以下几个步骤: - 分词:Lucene提供了一些内置的Analyzer,如StandardAnalyzer,用于将文本分割成可搜索的单词。 - 文档创建:每...
以上就是Lucene索引器实例的基本介绍,通过这个实例,我们可以理解到如何使用Lucene来创建、管理和搜索文本索引。在实际项目中,可以根据需求选择合适的存储(如硬盘目录或分布式存储)、优化分析器配置、处理大量...
二、创建中文索引 1. **初始化索引目录** 使用`FSDirectory`打开一个目录,这将是我们的索引存储位置。例如: ```java FSDirectory directory = FSDirectory.open(Paths.get("indexdir")); ``` 2. **配置...
通过对“lucene_multiThreadIndex”压缩包的学习,你将掌握如何在Lucene中实现多线程索引,从而提高大型数据集的索引构建速度。通过实践,你可以更好地理解和应用这些技术,优化你的信息检索系统。
#### 二、Lucene3模块介绍 ##### 1. `analysis` 该模块包含了用于对文档进行分词、过滤等一系列预处理的工具。常见的分析器包括: - **WhitespaceAnalyzer**:基于空白字符进行分词。 - **StopAnalyzer**:除空白...
java创建Lucene索引
**二、Lucene.Net 1.4.3 版本特性** 1. **性能优化**: 1.4.3版本对索引读写速度进行了优化,提高了搜索效率。 2. **稳定性增强**: 修复了前一版本中发现的bug,确保了系统的稳定运行。 3. **内存管理改进**: 对...
本篇文章将详细阐述如何使用Lucene来创建和查询索引,帮助你深入理解其核心概念和操作流程。 ### 1. Lucene基本概念 - **文档(Document)**:在Lucene中,一个文档代表你要索引的信息单元,它可以包含多个字段...
2. **索引创建**:在Struts Action或Spring Service层,定义一个方法来读取数据源(如数据库)中的信息,使用Lucene的Analyzer对内容进行分词,然后创建索引。索引可以存储在文件系统或者内存中,根据实际需求选择。...
lucene_in_action中文版lucene_in_action中文版lucene_in_action中文版lucene_in_action中文版lucene_in_action中文版lucene_in_action中文版
3. 索引(Index):索引是Lucene的核心,它将文档转换为倒排索引结构,以便快速查找匹配查询的文档。索引过程包括分析、创建Term(词项)和Posting(文档位置信息)。 4. 查询(Query):查询对象表示用户要搜索的...