lucene2.9的发布,增加了中文分词这个强大的功能.
以下就是这三个类的用法ChineseAnalyzer,CJKAnalyzer,SmartChineseAnalyzer
这三个类的结果如下:
Example phrase: "我是中国人"
ChineseAnalyzer: 我-是-中-国-人
CJKAnalyzer: 我是-是中-中国-国人
SmartChineseAnalyzer: 我-是-中国-人
呵呵,看到这是不是很棒呢?今天自己写了一个中文分词的测试法,是关于SmartChineseAnalyzer的用法
要用到此方法,要导入包,当然我以为只要下载了lucene-core-2.9.1.jar 就会有的,但是我错了.
所以我特意的提下,不想有的朋友也因为这个浪费不少时间
要用到lucene-analyzers-2.9.1.jar 和 lucene-smartcn-2.9.1.jar 这二个包在contrib\analyzers文件
夹下
代码如下:
public static void main(String[] args) {
String str = "市委座谈会要求加强改进农村党建工作";
String st =null;
StringBuffer sb = new StringBuffer();
StringReader reader = new StringReader(str);
Analyzer analyzer = new SmartChineseAnalyzer();
TokenStream ts = analyzer.tokenStream("", reader);
Token t = null;
try {
while ((t = ts.next()) != null) {
st=t.termText();
if(st.length()>=2){
System.out.println("##"+st);//判断等于二个字的,如果是一个字就不要了
}
sb.append(st);
}
System.out.println(sb);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
刚开始学习lucene 有志合道者,可以好好交流下.呵呵,共同学习
原文链接:
http://liuzhimeng.com/
分享到:
相关推荐
- **Analyzer**:分词器,StandardAnalyzer处理英文和中文,SmartChineseAnalyzer适用于智能中文分词,也可以使用第三方分词器。 - **MaxFieldLength**:控制域的最大长度,UNLIMITED表示无限制,LIMITED则有限制...
总的来说,Lucene.NET在中文分词和高亮显示方面的应用需要结合合适的分词器,并进行适当的配置和优化。开发者可以根据实际需求选择适合的分词器,并通过集成和调优提高系统的搜索效率和用户体验。
lucene 2.9 API , lucene API,lucene 学习资料,lucene2.9 CHM
在2.9版本中,Lucene 提供了更加优化的性能和丰富的功能,尤其对于中文分词处理有了显著提升,这使得它在中文信息检索领域具有广泛的应用。下面将深入探讨 Lucene 2.9 版本中的核心知识点。 1. **分词引擎**:...
本文将深入探讨Lucene 2.9版本的API,解析其核心组件和主要功能。 ### 一、Lucene 2.9的核心组件 1. **索引(Indexing)**: Lucene首先通过`IndexWriter`类将文档转化为倒排索引。倒排索引是一种数据结构,可以...
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...
3. Analyzer:分词器,如StandardAnalyzer和SmartChineseAnalyzer,决定如何分词。 4. Document:由一组Field组成,代表一个完整的索引单元。 5. Field:定义域的属性,包括名称、值以及存储和索引策略。 六、搜索...
本文将详细讲解如何在Lucene 6.6版本中结合拼音分词和IK中文分词,以及如何利用自定义词典和停用词表提升分词效率。 首先,我们来了解核心组件——Lucene 6.6。这个版本的Lucene引入了多项改进,包括更快的搜索速度...
**标题:“如何使用Lucene的中文分词搜索”** 在信息检索和文本处理领域,Apache Lucene是一个强大的全文搜索引擎库,它提供了高级的索引和搜索功能。在处理中文文本时,由于中文句子是由词语组成的,而非单个字符...
《深入理解Lucene 2.9 API:全方位剖析与应用》 ...通过深入了解其内部机制和API用法,开发者可以更好地利用Lucene来提升应用程序的搜索体验。对于所有涉及到文本检索的项目,Lucene都是一个值得信赖的选择。
### 基于Lucene的中文分词方法设计与实现 #### 一、引言 随着信息技术的迅猛发展,互联网上的信息量呈爆炸性增长,有效地检索和利用这些信息成为了一个亟待解决的问题。尤其在中国,由于中文语言的特殊性(如没有...
lucene_2.9_api
- **THULAC**:清华大学开发的一个中文分词和词性标注工具包。 在实际应用中,可以通过以下步骤实现中文分词器与Lucene的集成: 1. **选择合适的中文分词器**:根据应用场景和需求选择合适的分词器。 2. **配置...
《Lucene中文分词技术详解》 在信息检索和自然语言处理领域,中文分词是至关重要的一步。Lucene,作为一个强大的全文搜索引擎库,对于处理中文文档,分词的准确性和效率直接影响到搜索效果。本文将围绕“lucene中文...
总的来说,选择和使用合适的Lucene中文分词器组件是实现高效、准确的中文搜索的关键。开发者需要根据项目需求、资源限制以及对分词效果的要求,综合评估后选择最适合的分词工具。同时,持续关注分词器的更新和改进,...
2. 中文分词算法:Lucene 3.5默认使用了IK Analyzer(智能中文分析器),这是一种基于词典的分词方法,通过构建词典并结合正向最大匹配和逆向最大匹配算法,能够有效地对中文文本进行分词。此外,还有如HanLP、jieba...
然而,在处理中文文本时,由于中文特有的分词问题,直接使用Lucene.NET可能会遇到效率和准确性的挑战。本文将详细介绍一个基于Lucene.NET 2.0的中文分词器,以及它的核心——最大向前匹配算法。 中文分词是中文自然...
Lucene 与中文分词的结合