lucene 分词器 - 点点滴滴的积累 - ITeye博客

`

kankan1218

浏览: 277755 次
性别:
来自: 大连

最近访客更多访客>>

jialong520

Ahkam

leimingchao

xx5333

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

fei33423：其实查看源代码你可以发现 update其实是调用了execut ...
JdbcTemplate 中execute和update的区别：
CoderDream：不错，感谢分享！
为绿色版NOTEPAD++添加右键菜单
t382159355：谢谢分享..感激不尽.
java中this用法
風一樣的男子： kankan1218 写道風一樣的男子写道出乎意料？？菜B ...
结果出乎大部分人的意料
feipigzi：引用java教程中的一段话：我们可以这样理解子类创建的对象：1 ...
结果出乎大部分人的意料

lucene 分词器

博客分类：

lucene

阅读更多

lucene的英文分词器主要用到StandardAnalyzer，中文的主要是极易分词MMAnalyzer（需要单独引jar包je-analysis-1.5.3.jar）。

英文分词的过程：1,关键词切分->2,去除停用词（is of）->3,形态还原（ing,ed,复数等）->4,转化为小写

中文分词：：1,关键词切分->2,去除停用词（的着）


import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.SimpleAnalyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

public class AnalyzerTest {


	static String  enText = "The PGP signatures can be verified using PGP or GPG. ";
	static String  chText = "世界发达国家居民消费1000度的电能的费用占全国月平均工资的6.79%";
	static Analyzer en1 = new StandardAnalyzer();
	static Analyzer en2 = new SimpleAnalyzer();
	static Analyzer ch1 = new MMAnalyzer();
	
	
	
	/**
	 * @param args
	 */
	public static void main(String[] args) throws Exception{
		// TODO Auto-generated method stub
		new AnalyzerTest().analyze(chText, ch1);
		
	}
	
	
	public void analyze(String text,Analyzer analyzer) throws Exception{
		TokenStream tokenStream = analyzer.tokenStream(null, new StringReader(text));
		for (Token token = new Token();(token = tokenStream.next(token))!= null;){
			System.out.println(token);
		}
	}
	
}

分享到：

Highlighter高亮 | lucene 创建索引和搜索

2010-10-18 21:54
浏览 2900
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Lucene分词器资源包: **Lucene分词器资源包详解** Lucene是一款开源的全文搜索引擎库，广泛应用于Java开发中，用于构建高效、可扩展的信息检索应用。这个压缩包提供了Lucene分词时所必需的jar包，使得开发者能够方便地在项目中集成...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-21.Lucene分词器2 共9页.pptx: 共6页19.Lucene过滤共4页20.Lucene分词器1 共3页21.Lucene分词器2 共9页22.Lucene分词器3 共4页23.Lucene项目实战1 共6页24.Lucene项目实战2 共6页25.Lucene项目实战3 共6页26.Lucene项目实战4 共6页27.Lucene项目...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-20.Lucene分词器1 共3页.pptx: 共6页19.Lucene过滤共4页20.Lucene分词器1 共3页21.Lucene分词器2 共9页22.Lucene分词器3 共4页23.Lucene项目实战1 共6页24.Lucene项目实战2 共6页25.Lucene项目实战3 共6页26.Lucene项目实战4 共6页27.Lucene项目...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-22.Lucene分词器3 共4页.pptx: 在这个系列中，我们特别关注了Lucene的分词器，尤其是第三部分——"Lucene分词器3"。 Lucene作为一款强大的全文搜索引擎库，其核心功能之一就是对输入的文本进行有效的分词处理，以便于后续的索引和搜索操作。分词...

Lucene中文分词器包: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP） 2. 对数量词、地名、路名的...

lucene分词测试代码: 用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器，其使用“正向全切分算法”，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I...

Lucene-Demo.rar Lucene分词的demo: `lucene`目录很可能包含了Lucene的库文件，这些文件包含了Lucene的核心组件，如索引和搜索模块，以及各种分词器。在Java项目中，开发者通常会将这些库文件作为依赖引入，以便使用Lucene提供的API进行文本处理。 `...

Lucene中文分词器组件: 2. **配置与初始化**：根据项目需求，配置分词器的参数，如自定义词典、分词模式等，然后在Lucene的Analyzer中实例化该分词器。 3. **索引建立**：在创建索引时，使用配置好的分词器对中文文本进行分词，生成分词后...

lucene中文分词器（paoding解牛）: 《Lucene中文分词器——Paoding解牛详解》在中文信息检索领域，分词是至关重要的一环，它能够将连续的汉字序列切割成具有独立意义的词语，为后续的索引和查询提供基础。Lucene作为Java最著名的全文搜索引擎库，其...

lucene3.0 分词器: lucene3.0 中文分词器，庖丁解牛

分词器LUcene: 《深入理解Lucene分词器：歧义处理与数量词合并》在信息检索和自然语言处理领域，分词是至关重要的第一步。Lucene，作为Java最著名的全文搜索引擎库，其强大的分词能力使得它在各种信息检索系统中广泛应用。本文将...

lucene.NET 中文分词: 2. **配置分词器**：在Lucene.NET的索引创建阶段，需要配置Analyzer类，指定使用特定的分词器。例如，使用IK Analyzer可以创建`IKAnalyzer analyzer = new IKAnalyzer();`。 3. **字段分析**：在创建Document对象时...

Lucene4.0 IK分词器使用pdf: ### Lucene4.0 IK分词器使用概览 #### IKAnalyzer：中文分词利器 IKAnalyzer是一款基于Java开发的开源中文分词工具包，自2006年首次发布以来，历经多个版本的迭代，已成为业界广泛认可的中文分词解决方案。其最初...

Lucene5学习之自定义同义词分词器简单示例: 总之，自定义Lucene分词器，尤其是添加同义词处理，是一项增强搜索质量和用户体验的关键技术。通过这个简单的示例，我们可以了解如何结合源码和工具来实现这一目标。在阅读给定的博文链接（已提供但不可访问）时，你...

高版本Lucene的IK分词器: maven库中现有的ik分词器只支持低版本的Lucene，想要支持高版本的Lucene，需要重写老版本ik分词器里的部分代码. 下载代码片段后导入项目，在创建分词器的时候把new IKAnalyzer替换为 new IKAnalyzer5x即可。

lucene分词包: lucene自带的中文分词器，将jar放入编译路径即可使用

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-02.Lucene系统架构共16页.pptx: 共6页19.Lucene过滤共4页20.Lucene分词器1 共3页21.Lucene分词器2 共9页22.Lucene分词器3 共4页23.Lucene项目实战1 共6页24.Lucene项目实战2 共6页25.Lucene项目实战3 共6页26.Lucene项目实战4 共6页27.Lucene项目...

lucene+中文IK分词器例子: **Lucene+中文IK分词器实例解析** Lucene是一个高性能、全文检索库，由Apache软件基金会开发。它提供了一个简单但功能强大的API，用于在各种应用中实现全文索引和搜索。在处理中文文本时，由于中文词汇的复杂性和无...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-05.Lucene索引深入优化共10页.pptx: 共6页19.Lucene过滤共4页20.Lucene分词器1 共3页21.Lucene分词器2 共9页22.Lucene分词器3 共4页23.Lucene项目实战1 共6页24.Lucene项目实战2 共6页25.Lucene项目实战3 共6页26.Lucene项目实战4 共6页27.Lucene项目...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-30.Lucene项目实战8 共5页.pptx: 共6页19.Lucene过滤共4页20.Lucene分词器1 共3页21.Lucene分词器2 共9页22.Lucene分词器3 共4页23.Lucene项目实战1 共6页24.Lucene项目实战2 共6页25.Lucene项目实战3 共6页26.Lucene项目实战4 共6页27.Lucene项目...

Global site tag (gtag.js) - Google Analytics