`
yufenfei
  • 浏览: 802963 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Lucene之五(Analysis分析器)

阅读更多

 

在搜索的过程中,有两个地方会用到分析器,一个就是建索引的时候,我们都知道,Lucene是以倒排的方式建索引的。我们来看下倒排序的概念

倒排序索引

    在对文档进行预处理,建立一种便于检索的数据结构,以此来提供信息检索的速度,这种数据结构就是索引。目前广泛使用的一种索引方式是倒排序索引。

    倒排序索引的原理就如同查字典。要先查找目录,得到数据对应的页面,在直接翻到指定的页面。不是在文章中找词,而是从目录中找词所在的文章。这需要在索引库中生成一个词汇表(目录),在词汇表中的每一条记录都类似与“词---》所在文档的编号列表”的结构,记录了每一个出现过的单词,和单词出现的地方(哪些文档)。查询时先查询词汇表,得到文档的编号,再直接取出相应的文档。

     把数据转化成指定格式放到索引库中的操作叫做建立索引。建立索引时,在把数据存到索引库中,再更新词汇表。

     进行搜索时,先从检索词汇表开始,然后找到相对应的文档。如果查询中仅包含一个关键词,在在词汇表中找到该单词,并取出他对应的文档就可以了。如果查询中包含多个关键词,则需要将各个单词检索出的记录进行合并再取出相应的文档记录。

 

文本分析的过程简单的可以理解为把一系列字符串按某种方式分成一个个的词。

 

Lucene中,Document就是我们要建索引的文档,比如我有一个文本文件,里面内容是“Beijing is the Capital of China”,我们就把它当成一个Documnet,先把Document传给分词组件(Tokenizer),分词组件会把这个文档里面的域值Field分成一个个的单词,去掉标点符号,去除停词(一些没有实际意义的词,如the,a等等),这样处理之后,得到的就是词汇单元(Token)了,比如”Beijing”,”Capitial”,”China”等等就是词汇单元了。然后词汇单元又会经过一系列处理,如转换成小写,还会把单词还原成原型,也就是把过去时,复数等等转换成相应的原来的形式,如把cars转换成car。这样得到的就是词(Term)了,最后得到的”beijing”,”capitial”,”china”就是词了,然后把这些词传递给索引组件,建立索引。

 

先看几个名词

 

 

1、分析器

   Analysis(分析)是从要索引的文本中提取term(索引项)的过程。Lucene中,分析是由实现Analyzer抽象类的分析器来实现;

  Lucene自带有如下分析器:

  WhitespaceAnalyzer:仅仅是去除空格,对字符没有lowcase化,不支持中文;

  SimpleAnalyzer:功能强于WhitespaceAnalyzer,将除去letter之外的符号全部过滤掉,并且将所有的字符lowcase化,不支持中文;

  StopAnalyzer:StopAnalyzer的功能超越了SimpleAnalyzer,在SimpleAnalyzer的基础上增加了去除StopWords的功能,不支持中文;

  StandardAnalyzer:英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分;


 

2、Token

Token我们先可以这样理解,就是一个单词,又叫语汇单元Token是分析后的基本元素

    它有四个属性,也就是四个字段,

termText:代表的是文本值,也就是单词本身;

startOffset:就是这个单词起始点的偏移量,也就是语汇单元文本的起始字符在原始文本中的位置;

endOffse:就是这个单词终点的偏移量,终点偏移量是语汇单元文本终止字符的下一个位置;

type:就是指这个语汇单元的类型,这里的类型可以是文本,数字,主机名,缩写等等。大家可以看到这个类型可以是自定义的,在构造函数中传进去,也可以用它内置的,是一个枚举。也就是TokenTypes 枚举,它里面有如下几个枚举成员:

 

3、TokenStream

TokenStream叫语汇单元流,可能理解为一个字符串,就是若干个Token语汇单元组成的。真正的是从别处传过来一个Document,暂且理解为一个字符串,经过一系列操作后,变成一个个Token,然后把这些Token组合成一个TokenStream。

 

再接着我们就要看TokenStream的子类了,这里先介绍一下,TokenStream有两种类型的子类

     Tokenizer(分词组件)

Tokenizer是真正进行分词的,是Analyzer的第一步

Tokenizer类继承于TokenStream类,它的作用主要是把一个字符串分隔成一个个的词汇单元,不同的子类实现不同的切分方式。有按空格的,有按非英文字符的。把切分出来的词Token组合成TokenStream。

Tokenizer拆分成一个个的语汇单元,并记录每个语汇单元的偏移量,里面最重要的就是一个Next方法,这个方法就是遍历文本流中的每个字符,然后来判断这个字符是不是一个语汇单元的的分拆条件,比如如果我的条件是以空格来分词,那么当这个字符不是空格的话,我就接着遍历下一个字符,一直循环,如果到某一个字符,它恰好是空格,那么就符合我们分词的条件,我们就把前面所遍历的字符当作一个语汇单元,也就是一个词(Token)返回去,顺便也返回它的偏移量,

 

    TokenFilter(过滤器)

  就是完成一些其他操作的,比如去除停词,转换成小写。这两个子类也是抽象类,他们也作为父类,后面有很多继承他们的类。

  TokenFilter类也是继承于TokenSteam类,它的作用是对分出来的词进行一些处理,比如去掉停词,转换大小写。


 

分享到:
评论

相关推荐

    Lucene.Net.Analysis.Cn.dll

    Lucene.Net.Analysis.Cn.dll集成了诸如SmartChineseAnalyzer、SimpleChineseAnalyzer等分词器,它们能够根据词汇库和规则对中文文本进行有效的切分,从而为后续的索引和搜索提供基础。例如,SmartChineseAnalyzer是...

    lucene-analysis.jar

    《深入理解Lucene分析器库:lucene-analysis.jar解析》 在信息检索和搜索引擎领域,Apache Lucene是一个广泛使用的开源全文检索库。它的核心功能包括文档的索引、搜索以及相关的高级特性。其中,"lucene-analysis....

    lucene je-analysis jar包

    《深入理解Lucene与JE-Analysis:构建高效文本分析系统》 在信息技术领域,文本处理是数据挖掘和信息检索中的重要一环。Lucene和JE-Analysis是两个强大的开源工具,用于实现高效的全文检索和文本分析。本文将深入...

    Lucene.Net 中文文本分析器

    `Lucene.Net.Analysis.China.dll`这个库很可能包含了实现HMM中文分析器的类和方法,为开发者提供了开箱即用的中文分词功能。 `Lucene.Net.dll`是Lucene.Net的核心库,包含了搜索引擎的主要功能,如索引创建、查询...

    lucene.net.analysis.cn

    1. 分析器(Analyzer):分析器是Lucene.NET中处理文本的核心组件,负责将原始输入文本转换为一系列的Token(分词结果)。对于中文,`Lucene.Net.Analysis.Cn.Standard.CJKStandardAnalyzer`是常用的选择,它包含...

    je-analysis-1.5.3、lucene-core-2.4.1分词组件

    本文将深入探讨"je-analysis-1.5.3"和"lucene-core-2.4.1"这两个分词组件,以及它们在相关场景中的应用。 首先,让我们了解什么是分词。分词,即词语切分,是自然语言处理(NLP)中的基本任务之一,它的目标是将...

    lucene和je-analysis-1.5.3

    在全文检索中,分析器的作用是将输入的文本进行分词、去除停用词、词性标注等处理,以便更好地匹配用户查询。JE-Analysis提供了丰富的分词算法和配置选项,适应不同的应用场景,如新闻、微博、论坛等。 JE-Analysis...

    Lucene索引器实例

    **Lucene索引器实例详解** Lucene是一个高性能、全文本搜索库,由Apache...在实际项目中,可以根据需求选择合适的存储(如硬盘目录或分布式存储)、优化分析器配置、处理大量文档的批量索引以及实现复杂的查询逻辑。

    拼音分词 Pinyin4j+pinyinAnalyzer+lucene-analyzers

    pinyinAnalyzer是Lucene的一个分析器,它利用了Pinyin4j的功能,能够将输入的中文文本分词并转化为拼音形式,以便于Lucene这样的全文搜索引擎进行索引和查询。而lucene-analyzers则是Lucene的一系列分析器集合,包含...

    jieba-lucene-analiysis:jieba的lucene中文分析器和令牌生成器

    jieba-lucene-analysis是将jieba分词库与Apache Lucene搜索引擎库相结合的项目,旨在为Lucene提供更适应中文处理的分析器和令牌生成器。这个项目的主要目的是解决在Lucene中对中文文本进行索引和搜索时的效率和准确...

    lucene-4.8.1 + paoding-analysis-master

    在版本4.8.1中,Lucene已经相当成熟,支持多种文本分析器,包括对中文的支持。然而,Lucene本身并不包含专门针对中文的分词算法,这就需要我们引入第三方的分词工具,比如Paoding Analysis。 Paoding Analysis,又...

    Lucene.Net.Analysis.MMSeg:基于Chih-Hao Tsai的MMSeg算法(http

    基于芷浩仔的MMSeg算法( )实现的中文分词器,并实现lucene.net的分析器以方便在Lucene.Net中使用。本代码来源于王员外( )基于Java版的翻译,升级到了最新版本Lucene.Net(≥3.0.3),并包含简单示例和NuGet...

    Lucene.Net的DLL

    1. **Lucene.Net.Analysis.China.dll**:这是针对中文处理的分析器组件。在Lucene.Net中,分析器(Analyzer)是处理文本输入的关键部分,它负责将原始文本分解为搜索时使用的独立词项(Tokens)。对于中文来说,由于...

    适合lucene3.0用的paoding-analysis的jar包

    同时,为了满足中文分词的需求,Paoding-Analysis应运而生,它是一款专门针对中文的分析器,能够高效准确地进行中文分词,为Lucene的中文搜索提供了强大支持。 Paoding-Analysis是Java开发的开源项目,其核心功能是...

    MMAnalyzer 分词jar包(lucene-core-2.4.1.jar je-analysis-1.5.3.jar)

    在IT领域,文本处理是至关重要的任务之一,特别是在搜索引擎、信息检索、自然语言处理等应用场景。其中,分词是文本处理的基石,它是指将连续的文本字符串分割成具有独立语义的词汇单元,这对于理解和分析文本内容至...

    MMAnalyzer 分词必导入jar包(lucene-core-2.4.1.jar je-analysis-1.5.3.jar)

    本篇文章将深入探讨MMAnalyzer的使用以及与之相关的两个核心JAR包:`jeasy.analysis.MMAnalyzer`和`lucene-core-2.4.1.jar`。 首先,MMAnalyzer是JeasyAnalysis的一部分,JeasyAnalysis是一个轻量级的中文分析库,...

    Java_IK分析插件将Lucene IK分析器集成到Elasticsearch和OpenSearch中,支持自定义字.zip

    Java_IK分析插件是为Elasticsearch和OpenSearch设计的一款强大的中文分词插件,其核心是基于Apache Lucene的IK(Intelligent Chinese)分析器。IK分析器旨在提高中文文本在搜索引擎中的检索效果,它能有效地进行中文...

    Lucene学习源码.rar

    3. `org.apache.lucene.analysis.Analyzer`:查看分词器的实现,了解分词逻辑。 4. `org.apache.lucene.search.Query` 和 `org.apache.lucene.queryparser.classic.QueryParser`:理解查询的构建和解析过程。 5. `...

    jieba结巴分词 支持lucene5

    jieba的lucene分析器(Analyzer)扩展了Lucene的分析能力,它将jieba的分词结果转换为Lucene可理解的文档字段,这样在建立索引和执行查询时,中文文本可以被正确处理。这在构建基于Lucene的中文搜索引擎或者信息检索...

    elasticsearch-analysis-ik,ik分析插件将lucene ik analyzer集成到elasticsearch中,支持自定义字典。.zip

    本文将深入探讨如何将 Elasticsearch Analysis IK 插件应用于 Elasticsearch 中,以实现对中文文本的高效、精准分析。 **一、IK Analyzer 简介** IK Analyzer 是由国人开发的一款针对中文的 Lucene 分词器,其设计...

Global site tag (gtag.js) - Google Analytics