lucene3.1.0 简单分词实例 - 迟到的炮灰 - ITeye博客

`

qzxfl008

浏览: 80149 次
性别:
来自: 浙江

最近访客更多访客>>

sgq0085

malie0

mazhongxing_jay

chenjun296

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

qzxfl008： happysoul 写道 /** * 获取当前时间的后一天 ...
计算下一天
happysoul： /** * 获取当前时间的后一天 * @param da ...
计算下一天
ailongni：或许 jsoup 更好用些
html解析页面中的A标签
qzxfl008： king_c 写道junit4 什么意思啊
lucene3.1.0 简单分词实例
king_c： junit4
lucene3.1.0 简单分词实例

lucene3.1.0 简单分词实例

博客分类：

lucene学习笔记

lucene Apache junit

阅读更多

环境说明 lucene版本3.1.0
分词工具英文版的是用标准版的，即StandardAnalyzer
中文分词是用SmartChineseAnalyzer，lucene包中有
使用的junit4.0测试的

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.util.Version;
import org.junit.Test;

public class Analyzertest {

	//Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_31);
	Analyzer analyzer = new SmartChineseAnalyzer(Version.LUCENE_31);
	
	//String text = "我是中国人";
	String text = "IndexWriter javadoc a apach2.0.txt";
	
	@Test
	public void test ()
	{
		try {
			analyzer(analyzer,text);
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
	public void analyzer(Analyzer al, String text) throws Exception
	{
		TokenStream tokeStream = al.tokenStream("content", new StringReader(text));
         //TermAttribute 已过时，文档中推荐使用CharTermAttribute
		tokeStream.addAttribute(CharTermAttribute.class);
		while(tokeStream.incrementToken())
		{
   
			CharTermAttribute ta = tokeStream.getAttribute(CharTermAttribute.class);
			System.out.println(ta.toString());
             //System.out.println(tokeStream.toString());
		}
	}
}

分享到：

free_soft_licenses 备用 | 建立索引，搜索关键字

2011-05-01 21:21
浏览 2941
评论(2)
分类:互联网
查看更多

评论

2 楼 qzxfl008 2011-05-02

king_c 写道

junit4

什么意思啊

1 楼 king_c 2011-05-02

junit4

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

lucene.NET 中文分词: **Lucene.NET 中文分词技术详解** Lucene.NET 是一个高性能、全文检索库，它是Apache Lucene项目在.NET平台上的实现。作为一个开源的搜索引擎框架，Lucene.NET为开发者提供了强大的文本搜索功能。而在处理中文文档...

lucene 3.1.0 api 手册: lucene 3.1.0 api 手册，将lucene 网站上的html文件做成chm，查看方便

lucene-3.1.0案例: 案例描述中的"demo"是一个展示Lucene基本功能的实例，它可能包含创建索引、搜索、高亮显示匹配结果等关键步骤。开发者通过编写自己的代码来实现这些功能，展示了如何将Lucene的API与实际业务需求相结合。"效果还可以...

Lucene中文分词器包: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP） 2. 对数量词、地名、路名的...

lucene2.0与其分词工具包: 作为一款开源项目，Lucene为开发者提供了丰富的API，使得构建搜索引擎变得简单而高效。然而，随着时间的推移，Lucene已经发展到更高的版本，如现在的Lucene 8.x，但在一些特定的场景或对老版本有依赖的项目中，...

lucene6.6+拼音分词+ik中文分词包: 《深入理解Lucene 6.6：拼音与IK中文分词技术详解》在信息检索领域，Lucene作为一款强大的全文搜索引擎库，被广泛应用。在处理中文文本时，分词是至关重要的一步，它决定了搜索的精度和效果。本文将详细讲解如何在...

如何使用Lucene的中文分词搜索: **标题：“如何使用Lucene的中文分词搜索”** 在信息检索和文本处理领域，Apache Lucene是一个强大的全文搜索引擎库，它提供了高级的索引和搜索功能。在处理中文文本时，由于中文句子是由词语组成的，而非单个字符...

Lucene4.0 IK分词器使用pdf: 2012版本的IKAnalyzer不仅继承了前代的优秀特性，还引入了一系列创新功能，如简单的分词歧义排除算法，使分词过程更加智能化，朝着模拟语义分析的方向迈进。 ##### 结构设计与技术特性 - **正向迭代最细粒度切分...

Lucene-Demo.rar Lucene分词的demo: 在导入这个Demo项目后，开发者可以查看和学习如何实例化分词器、创建索引以及执行搜索。分词器的配置是灵活的，可以根据需求选择不同的分词策略，比如标准分词器（StandardAnalyzer）适用于大多数英文文本，而中文...

Lucene.net 盘古分词C#: 【标题】"Lucene.net 盘古分词C#" 涉及到的是在.NET环境中使用Lucene库进行全文检索，并结合盘古分词工具进行中文分词处理。Lucene是一个开源的全文检索库，提供了高效的索引和搜索功能。在.NET平台上，Lucene.net是...

lucene.net+盘古分词多条件全文检索并匹配度排序: 使用visual studio 开发的lucene.net和盘古分词实现全文检索。并按照lucene的得分算法进行多条件检索并按照得分算法计算匹配度排序。可以输入一句话进行检索。 lucene.net的版本为2.9.2 盘古分词的版本为2.3.1 并...

Lucene与中文分词技术的研究及应用: ### Lucene与中文分词技术的研究及应用 #### Lucene简介与原理 Lucene是一款高性能、全功能的文本搜索引擎库，由Java语言编写而成。它为开发者提供了构建全文搜索引擎的能力，而无需关注底层搜索机制的具体实现...

lucene3.5中文分词案例: 这段代码中，Analyzer实例化了IKAnalyzer，保证了中文文本在被添加到索引时能够正确分词。 3. 搜索：在查询阶段，同样需要使用Analyzer处理用户输入的查询字符串，使其与索引中的分词结果进行匹配。例如： ```...

lucene.net中文分词器: 总结来说，这个Lucene.NET中文分词器的出现，不仅解决了.NET开发者在处理中文文本时的痛点，也提供了一个实践和研究中文分词技术的实例。通过对最大向前匹配算法的运用，开发者可以在自己的项目中实现高效且相对准确...

Lucene 简单入门程序实例: 标题与描述：“Lucene简单入门程序实例”这一标题与描述明确指出文章将引导读者通过一个实际的示例来了解和掌握Lucene的基本操作。Lucene是一个高性能、全功能的文本搜索引擎库，它允许用户对文档进行索引和搜索。本...

基于Lucene的中文分词方法设计与实现: ### 基于Lucene的中文分词方法设计与实现 #### 一、引言随着信息技术的迅猛发展，互联网上的信息量呈爆炸性增长，有效地检索和利用这些信息成为了一个亟待解决的问题。尤其在中国，由于中文语言的特殊性（如没有...

lucene.net +盘古分词器实例: 你把数据扔给Lucene.Net，【Lucene.Net只针对文本信息建立索引，所以他只接收文本信息，如果不是文本信息，则要转换为文本信息】它会将文本内容分词后保存在索引库中，当用户输入关键字提交查询时，Lucene.Net从索引...

lucene +中文分词: Lucene 与中文分词的结合

lucene3.5 IKAnalyzer3.2.5 实例中文分词通过: lucene3.5 IKAnalyzer3.2.5 实例中文分词通过，目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含：示例代码，以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文分词

Global site tag (gtag.js) - Google Analytics