`
jkbjxy
  • 浏览: 84003 次
  • 性别: Icon_minigender_1
  • 来自: 苏州
社区版块
存档分类
最新评论

初识Lucene(Lucene可以做什么?)

阅读更多

1.获取内容(Acquire Content)
Lucene不提供爬虫功能,如果需要获取内容需要自己建立爬虫应用。
Lucene只做索引和搜索工作。
2.建立文档(Build Document)
文档通常由一个个域(fields)组成,例如:标题,正文,摘要等。
需要保证文档的格式一致(如都为txt格式)
在此过程中可以通过语义分析来使要保存的文档更加精炼,也可以通过加权值来决定域和文档是否重要。
可以再建立索引的时候加权值,也可以在搜索的时候加权值。
3.分析文档(Analyze Document)
解决如果控制符合单词,解决拼写错误,是否关联同义词,是否折叠单数复数形式。
是否保留结果的偏差,当非拉丁语表示的语言,如何辨别词。
4.建立文档索引(Index Document)
5.搜索
支持单个或者符合查询,短语查询,通配符,模糊查询,结果排序
支持对错误拼写矫正等
6建立查询(Build Query)
7.检索查询(Search Query)
8返回结果(Rednder Results)

用户界面

管理员界面
管理员要设置起始URL,建立爬虫访问的范围和加载什么类型的文件,设置访问文件时间等
开关服务,检测全部系统是否正常,建立或者从备份中恢复数据。
分析界面

Solr作为Apache的子项目,添加了一些服务。比如提供管理员接口,扩展,从数据库中获取索引内容,
添加重要的用户端功能,如:分面导航。

Nutch是一个网络爬虫,也有各种各样的工具可以用来构建一个完整的搜索应用。

一般来说Lucene可以对.txt文档做索引
如果要对其他一般的文档做索引可以用Tika



分享到:
评论

相关推荐

    lucene in action 电子版

    - **章节1:初识Lucene** - **信息组织与访问的发展**:介绍了从最早的纸质图书到数字化时代的信息检索方式的变化,强调了现代搜索引擎技术的重要性。 - **Lucene是什么**: - **定义**:Lucene是一个高性能、全...

    深入理解Luncen搜索引擎开发

    第1章 Lucene初识 Lucene4入门精通实战课程概述 Lucene系统架构 第2章 Lucene索引 Lucene索引里有什么 Lucene索引深入 Lucene索引深入优化 Lucene索引搜索 第3章 Lucene搜索实战 Lucene搜索实战 Lucene搜索深入...

    Lucene 相关

    1. 初识Lucene: - 了解Lucene的基本组件,如Analyzer、Document、Field、IndexReader、IndexWriter、Query等。 - 学习如何创建简单的索引和搜索示例。 - 掌握基本的查询语法,如TermQuery、BooleanQuery、...

    lucene(HelloWord)

    《Lucene:初识搜索引擎库的“Hello World”》 Lucene,作为Apache软件基金会的顶级项目,是一款高性能、全文本检索引擎库,被广泛应用于各类搜索引擎和信息检索系统中。它提供了完整的搜索功能,包括索引、查询、...

    java搜索引擎的设计与实现英文文献外文翻译.doc

    初识Lucene的人可能会误认为它是一个可以直接使用的应用程序,比如文件搜索程序、网络爬虫或网站搜索引擎。实际上,Lucene并非如此,它是一个软件库,更确切地说,是一个工具包,而不是一个完整的功能丰富的搜索应用...

    Elasticsearch初识与简单案例.pdf

    ### Elasticsearch 初识与简单案例 #### 一、Elasticsearch简介 Elasticsearch 是一款基于 Lucene 的分布式全文搜索引擎,具有高度可扩展性及灵活性。它不仅支持文本搜索,还能进行复杂的数据分析任务,因此在众多...

    初识Hadoop 2.x.pdf

    Hadoop 是一个能够处理海量数据的开源软件框架,它最初由Apache Lucene项目演化而来,旨在解决大规模数据处理的问题。Hadoop 2.x 版本相比早期版本有了显著的改进和增强,特别是在性能、稳定性和安全性方面。 - **...

    Hadoop阶段初识学习笔记

    Doug Cutting是著名的开源搜索技术倡导者和创造者,他之前还创立了Lucene和Nutch等项目。 - **命名由来**:Hadoop这个名字来源于Cutting的孩子给一头玩具大象起的名字,它是一个非正式的名称,简单易记,没有特殊...

    Elasticsearch入门讲解

    1. ELASTICSEARCH 初识 Elasticsearch(简称ES)是一款基于Lucene的开源分布式搜索引擎,以其强大的全文检索、实时分析和高可扩展性而闻名。它不仅用于传统的搜索功能,还广泛应用于日志分析、监控、物联网(IoT)...

    藏经阁-Elastic Stack 实战手册(早鸟版)-1182.pdf

    Elasticsearch是基于Apache Lucene构建的开源全文搜索引擎,因其易于使用和高性能的特点深受开发者喜爱。它不仅支持实时搜索,还具备分布式、可扩展的特性,可以处理大规模数据。Elasticsearch不仅适用于传统的搜索...

    大数据培训课程安排.pdf

    我今天就把成都科多⼤数据公司的培 训课程分享给⼤家,希望对学习⼤数据技术的⼩伙伴能有所帮助 上图如果看的不是很清楚,我⾃⼰做了⼀个简单介绍,⽤通俗易懂的话语讲解给各位 ps:第⼀⾄第四阶段是我将java基础...

    ES入门文档

    **1.1 什么是ES?** Elasticsearch(简称ES)是一款基于Lucene的开源搜索引擎。它为开发者提供了高效、可靠的搜索和数据分析能力,支持多种数据类型的实时索引与搜索。 **1.2 入门指南** - **1.2.1 初识ES** - ...

Global site tag (gtag.js) - Google Analytics