lucene 分词器的原理和学习

m635674608

浏览: 5055240 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎，爬虫

全文搜索引擎会用某种算法对要建索引的文档进行分析，从文档中提取出若干Token(词元)，这些算法称为Tokenizer(分词器)，这些Token会被进一步处理，比如转成小写等，这些处理算法被称为Token Filter(词元处理器), 被处理后的结果被称为Term(词)，文档中包含了几个这样的Term被称为Frequency(词频)。引擎会建立Term和原文档的Inverted Index(倒排索引)，这样就能根据Term很快到找到源文档了。文本被Tokenizer处理前可能要做一些预处理，比如去掉里面的HTML标记，这些处理的算法被称为Character Filter(字符过滤器)，这整个的分析算法被称为Analyzer(分析器)。

整个分析过程，如下图所示：

package org.lucene.test;
 
import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.core.SimpleAnalyzer;

import org.apache.lucene.analysis.core.StopAnalyzer;

import org.apache.lucene.analysis.core.WhitespaceAnalyzer;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

import org.junit.Test;

import org.lucene.Util.AnalyzerUtils;
 
public class TestAnalyzer {
 
   @Test

    public void test01() throws Exception {

        Analyzer a1 = new StandardAnalyzer();//标准分词器

        Analyzer a2 = new StopAnalyzer();//停用分词器

        Analyzer a3 = new SimpleAnalyzer();//简单分词器

        Analyzer a4 = new WhitespaceAnalyzer();//空格分词器

        String txt = "this is my house,I an come from yunnang zhaotong ,"+ "my qq is 6555@qq.com";

         AnalyzerUtils.displayToken(txt, a1);

         AnalyzerUtils.displayToken(txt, a2);

         AnalyzerUtils.displayToken(txt, a3);

         AnalyzerUtils.displayToken(txt, a4);

    }

   @Test

    public void test02() throws Exception {

        Analyzer a1 = new StandardAnalyzer();//标准分词器

        Analyzer a2 = new StopAnalyzer();//停用分词器

        Analyzer a3 = new SimpleAnalyzer();//简单分词器

        Analyzer a4 = new WhitespaceAnalyzer();//空格分词器

        String txt = "我来自遥远的哈尔滨，大东北帝国冰城皇家科技学院--黑龙江科技大学";  //可以发现对中文支持无效，不支持中文

         AnalyzerUtils.displayToken(txt, a1);

         AnalyzerUtils.displayToken(txt, a2);

         AnalyzerUtils.displayToken(txt, a3);

         AnalyzerUtils.displayToken(txt, a4);

    }
}

package org.lucene.Util;

import java.io.IOException;

import java.io.StringReader;
 
import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
 
public class AnalyzerUtils {

      public static void displayToken(String str,Analyzer a) throws Exception{

         TokenStream stream =     a.tokenStream("content", new StringReader(str));

         stream.reset();  //在4.0以后的版本必须先reset一次

      //创建一个属性，这个属性被添加到流中，随着这个TOkenStream增加，这个属性也增加 

         CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);

         while (stream.incrementToken()) {

             System.out.print(" [ "+cta+" ] ");

        }

         System.out.println();

      }
}

分享到：

Elasticsearch使用REST API实现全文检索 | Lucene分词器，使用中文分词器，扩展词库， ...

2015-11-10 12:03
浏览 1804
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene 分词器的原理和学习

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene 分词器的原理和学习

评论

发表评论

相关推荐

ElasticSearch Groovy脚本远程代码执行漏洞分析（CVE-2015-1427） （附exp）

postman进行http接口测试

selenium 使用经验总结

selenium chrome 浏览器闪退

selenium 浏览器版本

geckodriver 关闭日志

selenium与firefox版本不兼容

解决Selenium与firefox浏览器版本不兼容问题

剖析Elasticsearch集群系列之二：分布式的三个C、translog和Lucene段

分布式搜索elasticsearch 搜索结果排序不一致性问题

多个ElasticSearch Cluster的一致性问题

WEB渗透测试之三大漏扫神器

淘宝 OAuth2.0 的登录验证与授权

Jsoup中getElementsByClass中className有空格处理

HttpClient4 Post XML到一个服务器上

Android安装Fiddler证书抓取App的HTTPS流量

使用Charles进行https抓包

如何使用charles对Android Https进行抓包

Selenium WebDriver 中鼠标事件

获取真实IP的方法，以及伪造IP的例子代码

最近访客更多访客>>

ElasticSearch Groovy脚本远程代码执行漏洞分析（CVE-2015-1427）（附exp）