环境说明 lucene版本3.1.0
分词工具英文版的是用标准版的,即StandardAnalyzer
中文分词是用SmartChineseAnalyzer,lucene包中有
使用的junit4.0测试的
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;
import org.junit.Test;
public class Analyzertest {
//Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_31);
Analyzer analyzer = new SmartChineseAnalyzer(Version.LUCENE_31);
//String text = "我是中国人";
String text = "IndexWriter javadoc a apach2.0.txt";
@Test
public void test ()
{
try {
analyzer(analyzer,text);
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
public void analyzer(Analyzer al, String text) throws Exception
{
TokenStream tokeStream = al.tokenStream("content", new StringReader(text));
//TermAttribute 已过时,文档中推荐使用CharTermAttribute
tokeStream.addAttribute(CharTermAttribute.class);
while(tokeStream.incrementToken())
{
CharTermAttribute ta = tokeStream.getAttribute(CharTermAttribute.class);
System.out.println(ta.toString());
//System.out.println(tokeStream.toString());
}
}
}
分享到:
相关推荐
**Lucene.NET 中文分词技术详解** Lucene.NET 是一个高性能、全文检索库,它是Apache Lucene项目在.NET平台上的实现。作为一个开源的搜索引擎框架,Lucene.NET为开发者提供了强大的文本搜索功能。而在处理中文文档...
lucene 3.1.0 api 手册, 将lucene 网站上的html文件做成chm, 查看方便
案例描述中的"demo"是一个展示Lucene基本功能的实例,它可能包含创建索引、搜索、高亮显示匹配结果等关键步骤。开发者通过编写自己的代码来实现这些功能,展示了如何将Lucene的API与实际业务需求相结合。"效果还可以...
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...
《深入理解Lucene 6.6:拼音与IK中文分词技术详解》 在信息检索领域,Lucene作为一款强大的全文搜索引擎库,被广泛应用。在处理中文文本时,分词是至关重要的一步,它决定了搜索的精度和效果。本文将详细讲解如何在...
**标题:“如何使用Lucene的中文分词搜索”** 在信息检索和文本处理领域,Apache Lucene是一个强大的全文搜索引擎库,它提供了高级的索引和搜索功能。在处理中文文本时,由于中文句子是由词语组成的,而非单个字符...
2012版本的IKAnalyzer不仅继承了前代的优秀特性,还引入了一系列创新功能,如简单的分词歧义排除算法,使分词过程更加智能化,朝着模拟语义分析的方向迈进。 ##### 结构设计与技术特性 - **正向迭代最细粒度切分...
在导入这个Demo项目后,开发者可以查看和学习如何实例化分词器、创建索引以及执行搜索。分词器的配置是灵活的,可以根据需求选择不同的分词策略,比如标准分词器(StandardAnalyzer)适用于大多数英文文本,而中文...
作为一款开源项目,Lucene为开发者提供了丰富的API,使得构建搜索引擎变得简单而高效。然而,随着时间的推移,Lucene已经发展到更高的版本,如现在的Lucene 8.x,但在一些特定的场景或对老版本有依赖的项目中,...
使用visual studio 开发的lucene.net和盘古分词实现全文检索。并按照lucene的得分算法进行多条件检索并按照得分算法计算匹配度排序。 可以输入一句话进行检索。 lucene.net的版本为2.9.2 盘古分词的版本为2.3.1 并...
### Lucene与中文分词技术的研究及应用 #### Lucene简介与原理 Lucene是一款高性能、全功能的文本搜索引擎库,由Java语言编写而成。它为开发者提供了构建全文搜索引擎的能力,而无需关注底层搜索机制的具体实现...
这段代码中,Analyzer实例化了IKAnalyzer,保证了中文文本在被添加到索引时能够正确分词。 3. 搜索:在查询阶段,同样需要使用Analyzer处理用户输入的查询字符串,使其与索引中的分词结果进行匹配。例如: ```...
总结来说,这个Lucene.NET中文分词器的出现,不仅解决了.NET开发者在处理中文文本时的痛点,也提供了一个实践和研究中文分词技术的实例。通过对最大向前匹配算法的运用,开发者可以在自己的项目中实现高效且相对准确...
【标题】"Lucene.net 盘古分词C#" 涉及到的是在.NET环境中使用Lucene库进行全文检索,并结合盘古分词工具进行中文分词处理。Lucene是一个开源的全文检索库,提供了高效的索引和搜索功能。在.NET平台上,Lucene.net是...
### 基于Lucene的中文分词方法设计与实现 #### 一、引言 随着信息技术的迅猛发展,互联网上的信息量呈爆炸性增长,有效地检索和利用这些信息成为了一个亟待解决的问题。尤其在中国,由于中文语言的特殊性(如没有...
你把数据扔给Lucene.Net,【Lucene.Net只针对文本信息建立索引,所以他只接收文本信息,如果不是文本信息,则要转换为文本信息】它会将文本内容分词后保存在索引库中,当用户输入关键字提交查询时,Lucene.Net从索引...
Lucene 与中文分词的结合
lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词