查看Lucene分词器分词后的结果 - JBPM&LUCENE - ITeye博客

`

stta04

浏览: 115426 次
性别:
来自: 广州

最近访客更多访客>>

mk_ily

fengyanglu

ywk

772191140

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

lostmemorise：控制台输出怎么办，遗留系统怎么办。
Eclipse里做JBPM工作流gpd.xml中文乱码问题解决
magic_yao：我的html文件和jsp文件不知怎么也被设置默认在外部打开了！ ...
Eclipse设定文件的默认打开方式
fang428：怎么没有生成flv文件呢？而且图片也没有？亟待答复
视频上传过程中自动转换为flv格式并截图生成缩略图（Java调用命令实现）
dayone：我修改配置以后，之前做好的gpd.xml不报错了，但是打开后还 ...
Eclipse里做JBPM工作流gpd.xml中文乱码问题解决
wujiazhao88：没用的，完全RP问题而已
No result defined for action

查看Lucene分词器分词后的结果

阅读更多

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.WhitespaceAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

/**
* 输出分词器分词的结果
* @author USER
*
*/
public class LookAnalyzerResult {

/**
* 测试主程序入口
* @param args
* @throws Exception
*/
public static void main(String[] args) throws Exception{
Analyzer analyzer1 = new StandardAnalyzer();
Analyzer analyzer2 = new WhitespaceAnalyzer();
String indexString1 = "中国建设银行深发银行广东发展银行";

String indexString2 = "这是一届创造奇迹、超越梦想的奥运会.......";

/**
* 中国建设银行深发银行广东发展银行
中国建设银行深发银行广东发展银行
*/
showAnalyzerResult(analyzer1,indexString1);
showAnalyzerResult(analyzer2,indexString1);

/**
* 这是一届创造奇迹超越梦想的奥运会
这是一届创造奇迹、超越梦想的奥运会.......
*/
showAnalyzerResult(analyzer1,indexString2);
showAnalyzerResult(analyzer2,indexString2);
}

/**
* 查看分词后的结果
* @param analyzer
* @param s
* @throws Exception
*/
public static void showAnalyzerResult(Analyzer analyzer, String s) throws Exception {

StringReader reader = new StringReader(s);
TokenStream ts = analyzer.tokenStream(s, reader);

Token t = ts.next();
while (t != null) {
System.out.print(t.termText()+" ");
t = ts.next();
}
System.out.println();
}
}

分享到：

Acegi-security-samples-tutorial-1.0.7.zi ... | 查询字符串的解析—QueryParser类

2008-09-24 18:57
浏览 3659
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Lucene中文分词器组件: 3. **索引建立**：在创建索引时，使用配置好的分词器对中文文本进行分词，生成分词后的关键词列表，进而建立倒排索引。 4. **查询处理**：在查询阶段，同样使用相同的分词器对用户输入的查询语句进行分词，然后进行...

Lucene中文分词器包: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP） 2. 对数量词、地名、路名的...

Lucene-Demo.rar Lucene分词的demo: 在导入这个Demo项目后，开发者可以查看和学习如何实例化分词器、创建索引以及执行搜索。分词器的配置是灵活的，可以根据需求选择不同的分词策略，比如标准分词器（StandardAnalyzer）适用于大多数英文文本，而中文...

lucene分词测试代码: 用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器，其使用“正向全切分算法”，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I...

Lucene分词器资源包: **Lucene分词器资源包详解** Lucene是一款开源的全文搜索引擎库，广泛应用于Java开发中，用于构建高效、可扩展的信息检索应用。这个压缩包提供了Lucene分词时所必需的jar包，使得开发者能够方便地在项目中集成...

lucene中文分词器（paoding解牛）: 《Lucene中文分词器——Paoding解牛详解》在中文信息检索领域，分词是至关重要的一环，它能够将连续的汉字序列切割成具有独立意义的词语，为后续的索引和查询提供基础。Lucene作为Java最著名的全文搜索引擎库，其...

lucene.NET 中文分词: 4. **建立索引**：使用analyzer进行索引构建，确保分词后的结果被正确地存储和索引。 ### 3. 高亮显示在Lucene.NET中，高亮显示搜索结果是一项常用功能，它可以帮助用户快速定位搜索关键词。高亮通常通过...

lucene3.0 分词器: lucene3.0 中文分词器，庖丁解牛

Lucene4.0 IK分词器使用pdf: ### Lucene4.0 IK分词器使用概览 #### IKAnalyzer：中文分词利器 IKAnalyzer是一款基于Java开发的开源中文分词工具包，自2006年首次发布以来，历经多个版本的迭代，已成为业界广泛认可的中文分词解决方案。其最初...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-21.Lucene分词器2 共9页.pptx: 共6页19.Lucene过滤共4页20.Lucene分词器1 共3页21.Lucene分词器2 共9页22.Lucene分词器3 共4页23.Lucene项目实战1 共6页24.Lucene项目实战2 共6页25.Lucene项目实战3 共6页26.Lucene项目实战4 共6页27.Lucene项目...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-20.Lucene分词器1 共3页.pptx: 共6页19.Lucene过滤共4页20.Lucene分词器1 共3页21.Lucene分词器2 共9页22.Lucene分词器3 共4页23.Lucene项目实战1 共6页24.Lucene项目实战2 共6页25.Lucene项目实战3 共6页26.Lucene项目实战4 共6页27.Lucene项目...

lucene+中文IK分词器例子: 接着，使用Lucene的`IndexWriter`将分词后的文档写入索引。 4. **查询索引** 当用户输入关键词时，使用同样的IK分词器实例进行查询分析。创建一个`IndexSearcher`对象，执行查询操作。Lucene的`QueryParser`类可以...

高版本Lucene的IK分词器: maven库中现有的ik分词器只支持低版本的Lucene，想要支持高版本的Lucene，需要重写老版本ik分词器里的部分代码. 下载代码片段后导入项目，在创建分词器的时候把new IKAnalyzer替换为 new IKAnalyzer5x即可。

lucene6.6+拼音分词+ik中文分词包: 然而，对于中文文本，Lucene默认的分词器并不理想，因此我们需要引入专门针对中文的分词工具。 IK Analyzer（IK中文分词器）是为了解决这个问题而诞生的。它是开源的Java实现的中文分词组件，特别适合用于Java开发...

lucene.net中文分词器: 《Lucene.NET中文分词器：深入解析与实践》 Lucene.NET是一个开源全文检索库，它是Apache Lucene项目在.NET平台上的实现。作为一个强大的信息检索工具，Lucene.NET广泛应用于搜索引擎开发、文档检索系统等领域。...

简单的LUCENE分词: 在JAVA下，用lucene的内置分词功能对XML文件进行分词，并取消无用词

lucene3庖丁解牛中文分词器: 《深入剖析：Lucene3与庖丁解牛中文分词器》在信息技术飞速发展的今天，全文检索和搜索引擎已经成为日常开发中不可或缺的部分。Lucene作为一款强大的全文检索库，被广泛应用于各种信息检索系统中。然而，对于中文...

lucene分词包: lucene自带的中文分词器，将jar放入编译路径即可使用

Lucene与中文分词技术的研究及应用: 为了增强Lucene在中文环境下的表现，需要对Lucene的默认分析器进行扩展，引入中文分词器。常见的中文分词器有： - **Jieba分词**：一款流行的开源中文分词工具，支持精确模式和搜索引擎模式。 - **IK分词**：针对...

Global site tag (gtag.js) - Google Analytics