`
henryyang
  • 浏览: 111697 次
  • 性别: Icon_minigender_1
  • 来自: 珠海
文章分类
社区版块
存档分类
最新评论

lucene2.9 中文分词学习和SmartChineseAnalyzer的用法

阅读更多

       lucene2.9的发布,增加了中文分词这个强大的功能.
  以下就是这三个类的用法ChineseAnalyzer,CJKAnalyzer,SmartChineseAnalyzer
这三个类的结果如下:
Example phrase: "我是中国人"
ChineseAnalyzer: 我-是-中-国-人
CJKAnalyzer: 我是-是中-中国-国人
SmartChineseAnalyzer: 我-是-中国-人

呵呵,看到这是不是很棒呢?今天自己写了一个中文分词的测试法,是关于SmartChineseAnalyzer的用法

要用到此方法,要导入包,当然我以为只要下载了lucene-core-2.9.1.jar 就会有的,但是我错了.

所以我特意的提下,不想有的朋友也因为这个浪费不少时间

要用到lucene-analyzers-2.9.1.jar 和  lucene-smartcn-2.9.1.jar 这二个包在contrib\analyzers文件

夹下

代码如下:

public static void main(String[] args) {

        String str = "javaEye怎么变性成了itEye呢,原来是java被收购了,javaEye见风使舵摇身一变粉墨登场了!";
        String st =null;
        StringBuffer sb = new StringBuffer();
        
        StringReader reader = new StringReader(str);

        Analyzer analyzer = new SmartChineseAnalyzer();
        TokenStream ts = analyzer.tokenStream("", reader);
        Token t = null;

        try {
            while ((t = ts.next()) != null) {
    
            st=t.termText();
            if(st.length()>=2){
                System.out.println("##"+st);//判断等于二个字的,如果是一个字就不要了
            }
            
            sb.append(st);
            
            }
            System.out.println(sb);
            
        
        
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }

    }
刚开始学习lucene 有志合道者,可以好好交流下.呵呵,共同学习

分享到:
评论

相关推荐

    lucene2.9开发指南

    - **Analyzer**:分词器,StandardAnalyzer处理英文和中文,SmartChineseAnalyzer适用于智能中文分词,也可以使用第三方分词器。 - **MaxFieldLength**:控制域的最大长度,UNLIMITED表示无限制,LIMITED则有限制...

    lucene.NET 中文分词

    总的来说,Lucene.NET在中文分词和高亮显示方面的应用需要结合合适的分词器,并进行适当的配置和优化。开发者可以根据实际需求选择适合的分词器,并通过集成和调优提高系统的搜索效率和用户体验。

    Lucene 2.9 API CHM 官方API学习资料电子书

    lucene 2.9 API , lucene API,lucene 学习资料,lucene2.9 CHM

    lucene 2.9

    在2.9版本中,Lucene 提供了更加优化的性能和丰富的功能,尤其对于中文分词处理有了显著提升,这使得它在中文信息检索领域具有广泛的应用。下面将深入探讨 Lucene 2.9 版本中的核心知识点。 1. **分词引擎**:...

    Lucene2.9英文API

    本文将深入探讨Lucene 2.9版本的API,解析其核心组件和主要功能。 ### 一、Lucene 2.9的核心组件 1. **索引(Indexing)**: Lucene首先通过`IndexWriter`类将文档转化为倒排索引。倒排索引是一种数据结构,可以...

    Lucene中文分词器包

    来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...

    本人的Lucene2.9学习笔记

    3. Analyzer:分词器,如StandardAnalyzer和SmartChineseAnalyzer,决定如何分词。 4. Document:由一组Field组成,代表一个完整的索引单元。 5. Field:定义域的属性,包括名称、值以及存储和索引策略。 六、搜索...

    lucene6.6+拼音分词+ik中文分词包

    本文将详细讲解如何在Lucene 6.6版本中结合拼音分词和IK中文分词,以及如何利用自定义词典和停用词表提升分词效率。 首先,我们来了解核心组件——Lucene 6.6。这个版本的Lucene引入了多项改进,包括更快的搜索速度...

    如何使用Lucene的中文分词搜索

    **标题:“如何使用Lucene的中文分词搜索”** 在信息检索和文本处理领域,Apache Lucene是一个强大的全文搜索引擎库,它提供了高级的索引和搜索功能。在处理中文文本时,由于中文句子是由词语组成的,而非单个字符...

    lucene 2.9 api

    《深入理解Lucene 2.9 API:全方位剖析与应用》 ...通过深入了解其内部机制和API用法,开发者可以更好地利用Lucene来提升应用程序的搜索体验。对于所有涉及到文本检索的项目,Lucene都是一个值得信赖的选择。

    基于Lucene的中文分词方法设计与实现

    ### 基于Lucene的中文分词方法设计与实现 #### 一、引言 随着信息技术的迅猛发展,互联网上的信息量呈爆炸性增长,有效地检索和利用这些信息成为了一个亟待解决的问题。尤其在中国,由于中文语言的特殊性(如没有...

    lucene 2.9api

    lucene_2.9_api

    Lucene与中文分词技术的研究及应用

    - **THULAC**:清华大学开发的一个中文分词和词性标注工具包。 在实际应用中,可以通过以下步骤实现中文分词器与Lucene的集成: 1. **选择合适的中文分词器**:根据应用场景和需求选择合适的分词器。 2. **配置...

    lucene中文分词

    《Lucene中文分词技术详解》 在信息检索和自然语言处理领域,中文分词是至关重要的一步。Lucene,作为一个强大的全文搜索引擎库,对于处理中文文档,分词的准确性和效率直接影响到搜索效果。本文将围绕“lucene中文...

    Lucene中文分词器组件

    总的来说,选择和使用合适的Lucene中文分词器组件是实现高效、准确的中文搜索的关键。开发者需要根据项目需求、资源限制以及对分词效果的要求,综合评估后选择最适合的分词工具。同时,持续关注分词器的更新和改进,...

    lucene3.5中文分词案例

    2. 中文分词算法:Lucene 3.5默认使用了IK Analyzer(智能中文分析器),这是一种基于词典的分词方法,通过构建词典并结合正向最大匹配和逆向最大匹配算法,能够有效地对中文文本进行分词。此外,还有如HanLP、jieba...

    lucene.net中文分词器

    然而,在处理中文文本时,由于中文特有的分词问题,直接使用Lucene.NET可能会遇到效率和准确性的挑战。本文将详细介绍一个基于Lucene.NET 2.0的中文分词器,以及它的核心——最大向前匹配算法。 中文分词是中文自然...

    lucene +中文分词

    Lucene 与中文分词的结合

Global site tag (gtag.js) - Google Analytics