`
chenhua_1984
  • 浏览: 1251198 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

lucene+nutch学习笔记四:搜索引擎信息索引

阅读更多

     在实际的生活中,Nutch只能从网络上收集网页 ,而对网页本身的分析却不能很好的处理。搜索引擎普遍采用全文检索技术,平常的word的字处理工具的查询采用的是顺序扫描文件,这种做法效率比较低,遇到大型的文件则根本就不使用。所以出现了索引这个技术。

 

   概括来说 : 索引就是给一个文本内容按照一定的格式进行数据重排,使其便与查找。索引技术的核心是倒排索引的结构。倒排索引(Inverted Index)

 

  索引的分类

               按照类型来分:可以分为:字索引,词索引,短语索引,混合索引 (实现比较复杂)。

               按照管理方式分:可以分为:静态索引和动态索引

 

      Lucene的索引的介绍 :主要包括独立索引模式和复合索引模式。独立索引模式是指每个document独立索引成一个文件,这样数度快,但不适合大量的文档。复合索引就是把所有的Document索引成一个文件,这个文件的内容不同,也可以包括异构型文档。

索引文件可以存放在磁盘和内存 中,在磁盘中,可以重复利用,但增加了IO,在内存中,虽数度快,但不能保存。lucene的索引以文件的形式存储,不依赖特定的数据库和操作系统,它是跨平台 的。

 

      Lucene的索引结构

                     可以分为,索引索引断索引文档索引域索引项 几个。每个索引的结构有一个或多个索引段组成,每个段包含一个或多个文档,每个文档管理一个或多个域,每个域有一个或多个索引项组成。每个索引项是一个索引数据。

                1索引(INDEX)

                    2索引段(SeGment)

                    3索引文档(Document)

                    4索引域(Field)

                    5索引项(Term)

  其中Field有多个构造函数,下面这个是参数最多的一个。注意是lucene2.3目前最新为2.4

   public Field (String name , String value , Store store , Index index , TermVector termVector ) {

 

  name,是一个字符串,表示的是需要被索引的属性的名字,可以是name,path,content。

  value,是值,可以为字符串,也可以是Reader类型

  store,表示数据本身是否需要存储,有YES,NO,COMPRESS 三中选择。

  index,表示数据是否需要索引。也就是说这个数据是否哪来查询,这里和数据库不同,数据库的索引字段可以查询,没被索引的字段也可以查询,但这里没被索引的Field不能查询。

         A:TOKENIZED :分词并建立索引

         B:NO :不建立索引

         C:UN _TOKENIZED 把内容作为一个整体,避免分词的麻烦。

         D:NO _NORMS  禁用分析器处理。

 

termVector:表示域内的信息是否需要分词,通常在中文搜索中使用。

 

0
0
分享到:
评论

相关推荐

    Lucene+nutch搜索引擎开发

    完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。

    Lucene+Nutch搜索引擎开发.王学松源代码

    《Lucene+Nutch搜索引擎开发:王学松源代码解析》 在信息技术日新月异的今天,搜索引擎已经成为了人们获取信息的重要工具。Lucene和Nutch是两个在开源社区广泛使用的搜索引擎技术,它们为开发者提供了构建高效、可...

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

    Lucene+nutch搜索引擎开发(全本2-1)

    Lucene+nutch搜索引擎开发(全本2-1),本电子书共两部分

    Lucene+nutch搜索引擎开发.part1.rar

    Lucene nutch 搜索引擎开发 Part1

    Lucene+nutch搜索引擎开发(源代码)

    《Lucene+nutch搜索引擎开发(源代码)》是关于构建搜索引擎的一个重要资源,它结合了Apache Lucene和Nutch两大开源技术,旨在帮助开发者深入了解搜索引擎的工作原理并实践相关开发。Lucene是一个强大的全文检索库,...

    Lucene+nutch搜索引擎开发 源代码

    《Lucene+nutch搜索引擎开发》书附带的源代码

    lucene+nutch开发自己的搜索引擎一书源代码

    《lucene+nutch开发自己的搜索引擎一书源代码》是一份专为初学者设计的资源,旨在教授如何利用Apache Lucene和Nutch构建自定义搜索引擎。Lucene是Java编写的一个高性能全文检索库,而Nutch则是一个开源的网络爬虫...

    lucene+nutch搜索引擎开发源码1

    《lucene+nutch搜索引擎开发源码1》是一个包含开源搜索引擎项目Lucene和Nutch源代码的压缩包,主要针对搜索引擎开发的学习和实践。这个压缩包是书籍《lucene+nutch搜索引擎开发》的一部分,由于源码量较大,因此分为...

    Lucene+Nutch搜索光盘资料

    总结来说,Lucene+Nutch是构建搜索引擎的强大组合,它们不仅提供了文本处理和索引的基本工具,还涵盖了网络爬取的完整流程。通过深入理解和熟练运用这两个工具,开发者能够搭建出满足各种需求的搜索引擎系统,服务于...

    lucene+nutch搜索引擎

    《Lucene+Nutch搜索引擎》是一本深入探讨如何利用开源搜索引擎技术构建高效检索系统的书籍。它主要围绕Apache Lucene和Nutch这两个核心项目展开,旨在帮助读者理解和掌握搜索引擎的基础原理及其实现方法。 Lucene是...

    Lucene+nutch开发自己的搜索引擎 part2

    《Lucene+nutch开发自己的搜索引擎 part2》是关于利用开源技术构建搜索引擎的实践教程,主要聚焦于Lucene和Nutch这两个强大的工具。本部分着重深入探讨Lucene的功能和Nutch的集成,旨在帮助读者理解如何将这两者结合...

    Lucene+nutch搜索引擎开发(全本2-2)

    Lucene+nutch搜索引擎开发(全本2-2),本电子书共两部分

    lucene+nutch搜索引擎开发源码2

    总之,通过学习和实践这份“lucene+nutch搜索引擎开发源码”,开发者不仅可以掌握搜索引擎的基本原理和技术,还能了解到如何在实际项目中应用这些知识,从而构建出满足需求的搜索解决方案。无论是对于个人技能提升,...

    lucene+nutch搜索引擎(12章源码)

    《Lucene+Nutch搜索引擎深度解析》 在信息技术日益发达的今天,搜索引擎已经成为人们获取网络信息的重要工具。Lucene和Nutch作为开源的全文检索库和搜索引擎框架,为开发者提供了构建高效、可扩展的搜索解决方案。...

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--dic

    SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part3 SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎--NewsWithSearch.part2 SSH + Lucene + 分页 + 排序 + 高亮 ...

Global site tag (gtag.js) - Google Analytics