`
java风
  • 浏览: 57434 次
  • 来自: 北京
社区版块
存档分类
最新评论
  • 泛泛evil: 总结的很好,谢谢分享
    JavaScript
  • wanxkl: 哇!总结的太好了。。凤哥哥,你好强大啊。。请问您跟凤姐什么关系 ...
    css应用

lucene3.0

阅读更多

全文搜索
核心:创建索引——查询索引--分词器
索引引擎:创建索引
查询引擎:查询索引
文本分析引擎:分词器
开发接口:应用调用他的api实现以上功能


一、lucene实例(全文检索适用于数据量巨大的情况)
基于java的全文索引工具包(只关注文本的搜索和索引)
package:lucene。index索引包、lucene。store存储包、lucene。document一条索引、lucene。util工具包、lucene。queryParser解析搜索语言包、lucene。search查询包、lucene。analysis对外接口,分词包



1.文件搜索引擎(文件解析、创建索引、检索)
流程:
构建文本库----构建索引----进行搜索----对结果进行过滤、排序
package:core
数据来源:txt文件
1.数据收集
2.创建索引
    a。创建indexWriter
    b。创建Document 添加到IndexWriterz中
    c。创建Field,添加到Document
    d。优化索引
    e。关闭IndexWriter

IndexWriter(文件,分词器,是否新建索引文件,是否限制大小多少(或给出数量按照出现频率多少创建))
Field:
存储:表示是否需要显示
索引:表示是否需要按此项进行搜索
分词:表示是否对该项支持模糊查询
pulic Field(String name,String value,Store store,Index index);
pulic Field(String name,Reader reader);
pulic Field(String name,byte[] value,Store store);
name:名称
value:值,文字或二进制数组(比如声音,图片),文字较多可以用流读取
store:存储
store.NO 不存储
store.YES 存储
store.COMPRES 压缩存储(适用二进制)
index:索引方式
Index.NO 不索引
Index.UN_ANALYZED 不分词索引
Index.NO_NORMS 不分词索引,禁止参与评分,减少内存消耗
Index.ANALYZED 分词索引

3.查询索引
TopDocs--TopDocs.totalHits--TopDocs.scoreDocs--scoreDoc.doc--scoreDoc.score
a.创建Indexsearch
b.创建query new xxxQuery()/QueryParse.parse(..);
c.执行搜索,返回topDocs
d.遍历topDocs.scoreDocs
e.找到doc--Document
f.Document--Field
g.关闭IndexSearch
IndexSearch(文件,是否只读);
分词器:standard、jfk、ik
office:poi

2.web搜索引擎
爬虫、html解析、创建索引、分页搜索、高亮显示
3.wap搜索引擎
创建查询索引、wap显示

二、分布式搜索与缓存
1.特指的分布式搜索引擎

2.广义上的分布式搜索引擎

分享到:
评论

相关推荐

    lucene3.0 lucene3.0

    lucene3.0 lucene3.0 lucene3.0 lucene3.0 lucene3.0

    lucene 3.0 API 中文帮助文档 chm

    lucene 3.0 API中文帮助,学习的人懂得的

    Lucene3.0之查询类型详解

    【Lucene3.0查询类型详解】 在Lucene3.0中,查询处理是一个关键环节,涉及多种查询方式和理论模型。以下是对这些概念的详细解释: 1. **查询方式**: - **顺序查询**:是最简单的查询方式,直接遍历索引,效率较...

    Lucene 3.0 原理与代码分析完整版

    《Lucene 3.0 原理与代码分析完整版》是一本深入解析Lucene 3.0搜索引擎库的专业书籍。Lucene是Apache软件基金会的开源项目,它为Java开发者提供了一个高性能、全文检索的工具包,广泛应用于各种信息检索系统。这...

    lucene3.0 分词器

    lucene3.0 中文分词器, 庖丁解牛

    lucene3.0核心jar包

    这里的"lucene3.0核心jar包"是 Lucene 的一个重要版本,发布于2009年,为当时的开发人员提供了构建全文搜索引擎的基础框架。 在 Lucene 3.0 中,以下几个关键知识点值得关注: 1. **索引结构**:Lucene 使用倒排...

    lucene3.0 实例

    在 Lucene 3.0 版本中,虽然已经相对较旧,但仍然包含了基本的搜索引擎功能,适用于简单或特定场景的搜索需求。在这个实例中,我们将探讨如何在 JDK 1.5 和 Lucene 3.0 的环境下构建和运行一个简单的搜索引擎。 ...

    Lucene3.0全文信息检索

    **Lucene 3.0 全文信息检索** Lucene 是一个由Apache软件基金会4 Jakarta项目组开发的开源全文检索引擎工具包。自1999年发布以来,Lucene 已经发展成为Java世界中最为广泛使用的全文检索库,为开发者提供了构建高...

    lucene3.0庖丁+索引搜索程序

    《深入剖析Lucene3.0:庖丁解牛与索引搜索实践》 在IT行业中,搜索引擎技术扮演着至关重要的角色,而Lucene作为一个开源全文检索库,为开发者提供了强大的文本搜索功能。本文将深入探讨Lucene3.0版本,结合“庖丁解...

    lucene3.0使用介绍及实例

    在本文中,我们将深入探讨Lucene 3.0版本,了解其核心概念、功能特性,并通过实例来展示如何使用这个强大的工具。 ### 1. Lucene 3.0核心概念 #### 1.1 文档与字段 在Lucene中,数据是以文档(Document)的形式...

    lucene3.0全文检索入门实例

    **Lucene 3.0 全文检索入门实例** Lucene 是一个开源的全文检索库,由 Apache 软件基金会开发。它提供了一个高级、灵活的搜索功能框架,允许开发者在自己的应用中轻松地集成全文检索功能。本文将重点介绍如何使用 ...

    lucene3.0资料包

    这里我们主要聚焦于`lucene3.0`版本,该版本在当时是Lucene的一个重要里程碑,引入了许多改进和新特性。 1. **索引构建**: 在Lucene3.0中,索引是数据检索的基础。它通过将文本数据转换为倒排索引来实现快速查询...

    Lucene3.0分词系统.doc

    Lucene3.0分词系统的核心在于理解和应用其分词原理,无论是对于英文还是中文文本,这一过程都是构建高效搜索引擎的基础。以下是对Lucene3.0分词系统中涉及的关键知识点的深入解析。 ### 英文分词原理 英文分词相较...

    lucene 3.0 入门实例

    **Lucene 3.0 入门实例** Lucene 是一个高性能、全文本搜索库,由 Apache 软件基金会开发。它提供了完整的搜索功能,包括索引、查询解析、排序以及高级的文本分析能力。在 Lucene 3.0 版本中,开发者可以利用其强大...

    lucene 2.0 api以及lucene 3.0 api

    **Lucene 2.0 API 和 Lucene 3.0 API 深度解析** Lucene 是一个由 Apache 软件基金会开发的全文搜索引擎库,它为开发者提供了在 Java 应用程序中实现高性能、可扩展的全文搜索功能的能力。Lucene 的 API 设计得相当...

    lucene3.0-highlighter.jar

    lucene3.0-highlighter.jar lucene3.0的高亮jar包,从lucene3.0源码中导出来的

    lucene3.0英文API

    **Lucene 3.0英文API详解** Lucene是一个高性能、全文检索库,由Apache软件基金会开发并维护。它提供了一个简单且可扩展的接口,用于在各种应用程序中实现搜索功能。Lucene 3.0是该库的一个重要版本,引入了许多...

Global site tag (gtag.js) - Google Analytics