lucene-处理关键词域 - 深未来(深度创造未来)[deepfuture@yeah.net] - ITeye博客

`

deepfuture

浏览: 4437510 次
性别:
来自: 湛江

最近访客更多访客>>

linxl2011

mars36

jccz_zys

zkm0309

博主相关

博客

微博

相册

收藏

留言

关于我

博客专栏

: SQLite源码剖析
浏览量：80446

: WIN32汇编语言学习应用...
浏览量：71019

: 神奇的perl
浏览量：104314

: lucene等搜索引擎解析...
浏览量：287977

: 深入lucene3.5源码...
浏览量：15204

: VB.NET并行与分布式编...
浏览量：68621

: silverlight 5...
浏览量：32690

: 算法下午茶系列
浏览量：46371

文章分类

社区版块

存档分类

最新评论

yoyo837： counters15 写道目前只支持IE吗？插件的东西是跨浏览 ...
Silverlight 5 轻松开启绚丽的网页3D世界
shuiyunbing：直接在前台导出方式：excel中的单元格样式怎么处理，比如某行 ...
Flex导出Excel
di1984HIT：写的很好~
lucene入门-索引网页
rjguanwen：在win7 64位操作系统下，pygtk的Entry无法输入怎 ...
pygtk-entry
ldl_xz： http://www.9958.pw/post/php_exc ...
PHPExcel常用方法汇总(转载)

lucene-处理关键词域

博客分类：

搜索引擎

阅读更多

使用Field.Keyword对关键词进行索引是很容易的，因为lucene本身就将它做为增加到域中的一个独立的语汇单元，所以它并不需要经过语汇单元的切分处理，Lucene会把它做为一个单独的项编入到索引中。

每个域的关键词性质只有在索引期间才能体现。一旦这个域被索引完后，就跟与其它的域没有区别了

分享到：

java-分析器解析 | lucene-使用特定方式分析一个域

2009-12-24 20:30
浏览 1381
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

lucene笔记: - **构建文档对象**: 将原始数据转化为Lucene可以处理的对象形式。 - **分析文档**: 对文档进行分词处理，将长文本拆分成一个个单独的单词。 - **创建索引**: 将分析后的数据存储到索引库中。 **2.2 搜索流程** - ...

lucene3源码分析: 创建文档Document对象，并加入域(Field)**：定义文档结构和内容。 - **3. 将文档加入IndexWriter**：执行文档的索引化操作。 - **4. 将文档加入DocumentsWriter**：进一步处理文档数据。 - **5. 缓存管理**：优化...

Lucene 3.6 学习笔记: - `TokenFilter`: 对Token流进行进一步处理的过滤器，例如去除停用词、执行词干提取等。 #### 1.3 搜索部分的核心类 - `IndexReader`: 提供读取索引的能力，可以获取文档数量、文档信息等。 - `IndexSearcher`: ...

lucene检索文件: 在描述中提到的"lucene全文检索文件"指的是利用Lucene进行文档检索的能力，涵盖了多种文件格式，如TXT、DOC、XLS、PPT和PDF，这表明Lucene不仅限于纯文本，还能处理包含富文本和二进制数据的文档。 1. **Lucene核心...

lucene搜索引擎教程: - **读出流程**：用户输入搜索关键词，经过Analyzer处理后，Lucene通过索引找到对应的Document，并返回搜索结果。 4. 关键概念 - **Analyzer**：负责文本分析，将字符串拆分为有意义的词语（token），并过滤掉...

论文lucene和heritrix的全文检索解决方案: 在处理网页时，Lucene会提取关键信息，包括URL、关键词位置、发布时间、文件大小和链接等。对于校园网内容检索，系统会先由Heritrix抓取网页，然后利用Lucene进行文本分析和索引构建。在此过程中，非重要信息如脚本...

Lucene 原理与代码分析完整版.pdf: - **正向信息**：如段的元数据信息、域(Field)的元数据信息和数据信息等。 - **反向信息**：如词典信息、文档号及词频信息、词位置信息等。 - **其他信息**：如规范化因子文件(nrm)和删除文档文件(del)等。 #### ...

基于Lucene的全文检索系统研究与开发: #### 关键词索引、段、记录、域、关键字 #### 引言随着信息技术的飞速发展，大量的非结构化数据（如文本、图像等）不断涌现，这使得传统的数据库检索技术在处理这类数据时显得力不从心。为了更好地管理和检索...

Lucene 原理与代码分析完整版: - 理解Lucene索引的结构，首先要了解一些基本概念，比如文档、域、词项等。 **2. 基本类型** - 索引文件通常包含多种类型的数据，如字符串、整数等。 **3. 基本规则** - 索引采用了一些特定的编码规则，如前缀后缀...

【ASP.NET编程知识】详解Spring Boot 中使用 Java API 调用 lucene.docx: 文档为包含一个或者多个域的容器，而域则是依次包含“真正的”被搜索的内容，域值通过分词技术处理，得到多个词元。 Lucene 文件结构 Lucene 文件结构是一个层次结构： * index：一个索引存放在一个目录中 * ...

lucene学习笔记: - Lucene的主要任务是接收一组字符串，通过索引，为用户提供关键词搜索服务，指出关键词在哪些文档中出现。 2. **Lucene的工作方式** - **写入流程**：源数据经过Analyzer处理，进行分词和去除停用词（可选），...

lucene学习全方面剖析总结: 2. **自动关键词提取技术**：通过算法自动识别出文档中的关键词，为后续的索引建立和搜索提供支持。 3. **自动摘要技术**：从大量文本中自动提炼出关键信息，生成简洁的摘要，便于用户快速获取文档主要内容。 4. **...

lucene学习资料: - **语言处理**：对关键词进行规范化处理。 3. **搜索索引，得到符合语法树的文档**：根据语法树在索引中查找匹配的文档。 4. **根据得到的文档和查询语句的相关性，对结果进行排序**： - **计算权重(Termweight)*...

Lucene搜索引擎[归纳].pdf: 项是经过分词处理后的关键词，它们在文档中出现的位置被记录，用于计算相关性。段是Lucene为了提高性能而引入的数据结构，它将大量文档分组，形成可独立读写的存储块。 **优化与扩展** 针对大规模数据管理的需求，...

lucene相关文档: - **关键词**：Lucene 支持多种查询语法关键字，如 +（必须包含）、-（排除）、&&（AND）、||（OR）、!(NOT)等。特殊字符需要转义，如 `\`。 - **查询词**：单个词或词组，词组用双引号包围，如 "hello world"。 ...

Global site tag (gtag.js) - Google Analytics