Lucene_demo02_分词
/**
* 英文的分词器 中文的分词器
*/
public class AnalyzerTest {
/**
* 英文分词:(Lucene自带包)
* @throws Exception
*/
@Test
public void testEN() throws Exception {
String text = "Creates a searcher searching the index in the named directory";
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
this.testAnalyzer(analyzer, text);
}
/**
* 中文分词:单字分词器(Lucene自带包)
* @throws Exception
*/
@Test
public void testCH1() throws Exception {
String text = "LBJ和韦德能带领热火在2013赛季拿到NBA总冠军吗?";
Analyzer analyzer = new ChineseAnalyzer();
this.testAnalyzer(analyzer, text);
}
/**
* 中文分词:二分法分词器(Lucene自带包)
* @throws Exception
*/
@Test
public void testCH2() throws Exception {
String text = "LBJ和韦德能带领热火在2013赛季拿到NBA总冠军吗";
Analyzer analyzer = new CJKAnalyzer(Version.LUCENE_30);
this.testAnalyzer(analyzer, text);
}
/**
* 中文分词:IK分词器(Lucene自带包)
* @throws Exception
*/
@Test
public void testCH3() throws Exception {
String text = "fasd";
Analyzer analyzer = new IKAnalyzer();
this.testAnalyzer(analyzer, text);
}
/**
* 输出分词后的结果
* @param analyzer
* @param text
* @throws Exception
*/
private void testAnalyzer(Analyzer analyzer, String text) throws Exception {
TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
tokenStream.addAttribute(TermAttribute.class);
while (tokenStream.incrementToken()) {
TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);
System.out.println(termAttribute.term());
}
}
}
分享到:
相关推荐
这个名为"Lucene-Demo.rar"的压缩包提供了一个基于Lucene的分词演示项目,可以帮助开发者快速理解和应用Lucene的分词功能。在这个压缩包中,有两个主要的文件:`lucene`目录和`Lucene-Demo`文件。 `lucene`目录很...
在vc6中新建一个Win32 Console Application项目,命名为“luceneDemo”。将提供的“luceneDemo”文件加入到项目中,这是DEMO的主要代码。这个DEMO将展示如何使用Clucene的基本操作,包括创建索引、搜索索引等关键...
Lucene.Net+盘古分词是一个常见的中文信息检索组合。但是随着盘古分词停止更新,与Lucene.Net3.0...为了使得大家少走弯路,本人利用Lucene.Net2.9+盘古分词2.3搭建了一个Demo,里面包含了两个模块的源码,方便大家研究。
"luceneDemo1"和"lucene"可能是两个不同的文件或文件夹,它们可能包含了运行Lucene的示例代码或者已经构建好的索引。"luceneDemo1"可能是一个包含Lucene应用示例的Java项目,包含了必要的类和方法,展示了如何使用...
本篇文章将深入探讨Lucene的几个常见示例,包括`LuceneDemo`、`LuceneZJ`、`Lucene_HelloWorld`,帮助初学者快速理解Lucene的基本操作。 1. **Lucene_HelloWorld** 这个示例是入门Lucene的首选,它展示了如何创建...
Lucene.Net+盘古分词是一个常见的中文信息检索组合。但是随着盘古分词停止更新,与Lucene...为了使得大家少走弯路,本人利用Lucene.Net2.9+盘古分词2.3搭建了一个Demo,里面包含了两个模块的源码,方便大家研究。 以上。
**标题:“简单的lucene demo”** Lucene是一个强大的全文搜索引擎库,由Apache软件基金会开发并维护,它在Java编程语言中实现,广泛应用于各种搜索应用的构建。这个“简单的lucene demo”旨在向我们展示如何利用...
**Lucene 3.3.0 学习Demo** Lucene是一个开源的全文搜索引擎库,由Apache软件基金会开发。在3.3.0版本中,Lucene提供了强大的文本搜索功能,包括分词、索引创建、查询解析和结果排序等。这个"Lucene3.3.0学习Demo...
《LuceneDemo(完整代码):入门到精通的探索》 Lucene,作为Apache软件基金会的一个开源项目,是Java环境中最流行的全文检索库。它提供了一个高性能、可扩展的信息检索服务,广泛应用于搜索引擎开发和大数据分析中...
**Lucene初探:一个初级的LuceneDemo** 在IT领域,搜索引擎技术是不可或缺的一部分,尤其是在大数据时代,高效的信息检索显得尤为重要。Apache Lucene就是这样一款强大的开源全文搜索引擎库,它为开发者提供了构建...
在"LuceneDemo"这个项目中,你可以期待看到一个简单的Java程序,它将演示上述过程,可能包括创建一个或多个包含文本数据的Document,使用默认的StandardAnalyzer建立索引,然后执行一个基本的文本查询,展示搜索结果...
在本文中,我们将深入探讨如何使用Lucene.NET和盘古分词来实现一个站内搜索功能的演示。Lucene.NET是Apache Lucene的.NET版本,它是一个高性能、全文本搜索库,提供了强大的索引和搜索功能。而盘古分词是针对中文...
在这个“ssh集成Lucene4.7demo”项目中,开发者将SSH框架与Lucene 4.7版本的全文搜索引擎进行了整合,同时还引入了IKAnalyzer作为中文分词器,以支持对中文文本的处理。这个示例项目不仅包含了基本的整合工作,还...
本篇文章将围绕“lucene3.5全文检索案例lucene+demo”,详细讲解Lucene 3.5的核心概念、关键功能以及如何通过实例进行操作。 一、Lucene 3.5核心概念 1. 文档(Document):Lucene中的最小处理单元,相当于数据库...
3. **分词器(Tokenizers)**: Lucene 使用分词器将文档内容分解成可搜索的单元——词语(tokens)。分词器的选择会影响搜索结果的质量。 4. **分析器(Analyzers)**: 分析器负责处理分词过程,包括词汇分析...
这个“Lucene入门demo”将帮助我们理解如何使用 Lucene 进行基本的索引和搜索操作。 **一、Lucene 的核心概念** 1. **索引(Indexing)**: 在 Lucene 中,索引是文档内容的预处理结果,类似于数据库中的索引。通过...
在【描述】中提到的"lucene demo and paoding good shuang",可以理解为这个项目不仅展示了Lucene的基本用法,还特别强调了使用Paoding分词器的良好效果。Paoding对于中文的分词和索引有出色的表现,能够提高中文...
3. 分词器(Analyzer):分词器负责将文档字段的文本进行分词处理,生成一系列的关键词,这是Lucene索引的基础。不同的语言和应用场景需要选择合适的分词器。 4. 索引(Index):索引是Lucene的核心,类似于关系...
**Lucene.Net 搜索Demo详解** Lucene.Net是一款开源全文搜索引擎库,它是Apache Lucene项目在.NET Framework上的实现。这个“lucene.net demo”旨在帮助开发者了解如何利用Lucene.Net来构建桌面搜索功能,让我们...
**Lucene 概述** Lucene 是一个高性能、全文本搜索库...实际的 "luceneDemo" 可能包含更丰富的功能,例如支持多字段查询、高亮显示搜索结果、分页显示等。学习和理解 Lucene,可以帮助开发者构建强大的全文检索系统。