`
qzxfl008
  • 浏览: 78510 次
  • 性别: Icon_minigender_1
  • 来自: 浙江
社区版块
存档分类
最新评论

lucene3.1.0 简单分词实例

阅读更多
环境说明  lucene版本3.1.0
分词工具英文版的是用标准版的,即StandardAnalyzer
中文分词是用SmartChineseAnalyzer,lucene包中有
使用的junit4.0测试的

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;
import org.junit.Test;

public class Analyzertest {

	//Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_31);
	Analyzer analyzer = new SmartChineseAnalyzer(Version.LUCENE_31);
	
	//String text = "我是中国人";
	String text = "IndexWriter javadoc a apach2.0.txt";
	
	@Test
	public void test ()
	{
		try {
			analyzer(analyzer,text);
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	public void analyzer(Analyzer al, String text) throws Exception
	{
		TokenStream tokeStream = al.tokenStream("content", new StringReader(text));
         //TermAttribute 已过时,文档中推荐使用CharTermAttribute
		tokeStream.addAttribute(CharTermAttribute.class);
		while(tokeStream.incrementToken())
		{
   
			CharTermAttribute ta = tokeStream.getAttribute(CharTermAttribute.class);
			System.out.println(ta.toString());
             //System.out.println(tokeStream.toString());
		}
	}
}

分享到:
评论
2 楼 qzxfl008 2011-05-02  
king_c 写道
junit4

什么意思啊
1 楼 king_c 2011-05-02  
junit4

相关推荐

    lucene.NET 中文分词

    **Lucene.NET 中文分词技术详解** Lucene.NET 是一个高性能、全文检索库,它是Apache Lucene项目在.NET平台上的实现。作为一个开源的搜索引擎框架,Lucene.NET为开发者提供了强大的文本搜索功能。而在处理中文文档...

    lucene 3.1.0 api 手册

    lucene 3.1.0 api 手册, 将lucene 网站上的html文件做成chm, 查看方便

    lucene-3.1.0案例

    案例描述中的"demo"是一个展示Lucene基本功能的实例,它可能包含创建索引、搜索、高亮显示匹配结果等关键步骤。开发者通过编写自己的代码来实现这些功能,展示了如何将Lucene的API与实际业务需求相结合。"效果还可以...

    Lucene中文分词器包

    来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...

    lucene6.6+拼音分词+ik中文分词包

    《深入理解Lucene 6.6:拼音与IK中文分词技术详解》 在信息检索领域,Lucene作为一款强大的全文搜索引擎库,被广泛应用。在处理中文文本时,分词是至关重要的一步,它决定了搜索的精度和效果。本文将详细讲解如何在...

    如何使用Lucene的中文分词搜索

    **标题:“如何使用Lucene的中文分词搜索”** 在信息检索和文本处理领域,Apache Lucene是一个强大的全文搜索引擎库,它提供了高级的索引和搜索功能。在处理中文文本时,由于中文句子是由词语组成的,而非单个字符...

    Lucene4.0 IK分词器使用pdf

    2012版本的IKAnalyzer不仅继承了前代的优秀特性,还引入了一系列创新功能,如简单的分词歧义排除算法,使分词过程更加智能化,朝着模拟语义分析的方向迈进。 ##### 结构设计与技术特性 - **正向迭代最细粒度切分...

    Lucene-Demo.rar Lucene分词的demo

    在导入这个Demo项目后,开发者可以查看和学习如何实例化分词器、创建索引以及执行搜索。分词器的配置是灵活的,可以根据需求选择不同的分词策略,比如标准分词器(StandardAnalyzer)适用于大多数英文文本,而中文...

    lucene2.0与其分词工具包

    作为一款开源项目,Lucene为开发者提供了丰富的API,使得构建搜索引擎变得简单而高效。然而,随着时间的推移,Lucene已经发展到更高的版本,如现在的Lucene 8.x,但在一些特定的场景或对老版本有依赖的项目中,...

    lucene.net+盘古分词多条件全文检索并匹配度排序

    使用visual studio 开发的lucene.net和盘古分词实现全文检索。并按照lucene的得分算法进行多条件检索并按照得分算法计算匹配度排序。 可以输入一句话进行检索。 lucene.net的版本为2.9.2 盘古分词的版本为2.3.1 并...

    Lucene与中文分词技术的研究及应用

    ### Lucene与中文分词技术的研究及应用 #### Lucene简介与原理 Lucene是一款高性能、全功能的文本搜索引擎库,由Java语言编写而成。它为开发者提供了构建全文搜索引擎的能力,而无需关注底层搜索机制的具体实现...

    lucene3.5中文分词案例

    这段代码中,Analyzer实例化了IKAnalyzer,保证了中文文本在被添加到索引时能够正确分词。 3. 搜索:在查询阶段,同样需要使用Analyzer处理用户输入的查询字符串,使其与索引中的分词结果进行匹配。例如: ```...

    lucene.net中文分词器

    总结来说,这个Lucene.NET中文分词器的出现,不仅解决了.NET开发者在处理中文文本时的痛点,也提供了一个实践和研究中文分词技术的实例。通过对最大向前匹配算法的运用,开发者可以在自己的项目中实现高效且相对准确...

    Lucene.net 盘古分词C#

    【标题】"Lucene.net 盘古分词C#" 涉及到的是在.NET环境中使用Lucene库进行全文检索,并结合盘古分词工具进行中文分词处理。Lucene是一个开源的全文检索库,提供了高效的索引和搜索功能。在.NET平台上,Lucene.net是...

    基于Lucene的中文分词方法设计与实现

    ### 基于Lucene的中文分词方法设计与实现 #### 一、引言 随着信息技术的迅猛发展,互联网上的信息量呈爆炸性增长,有效地检索和利用这些信息成为了一个亟待解决的问题。尤其在中国,由于中文语言的特殊性(如没有...

    lucene.net +盘古分词器 实例

    你把数据扔给Lucene.Net,【Lucene.Net只针对文本信息建立索引,所以他只接收文本信息,如果不是文本信息,则要转换为文本信息】它会将文本内容分词后保存在索引库中,当用户输入关键字提交查询时,Lucene.Net从索引...

    lucene +中文分词

    Lucene 与中文分词的结合

    lucene3.5 IKAnalyzer3.2.5 实例中文分词通过

    lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词

Global site tag (gtag.js) - Google Analytics