`
wangking717
  • 浏览: 262590 次
  • 性别: Icon_minigender_2
  • 来自: 成都
社区版块
存档分类
最新评论

IKAnalyzer分词测试DEMO,非Lucene,Solr整合。

 
阅读更多

最近项目里要用到分词,将一个文章标题进行分词,存为TAG。然后利用这个TAG来寻找相关度的文章。想法挺不错的。那么开始动手吧。

 

使用版本3.2.8 地址 http://code.google.com/p/ik-analyzer/downloads/list

 

将IKAnalyzer3.2.8.jar放置在WEB-INF/lib下,配置文件IKAnalyzer.cfg.xml和ext_stopword.dic方在classpath下。

 

写个测试类试试呗。

 

 

package com.cartoon.util;

import java.io.IOException;
import java.io.StringReader;

import org.wltea.analyzer.IKSegmentation;
import org.wltea.analyzer.Lexeme;

public class Test {

	public static void main(String[] args) throws IOException {

		String str = "火影忍者漫画";
		StringReader reader = new StringReader(str);
		IKSegmentation ik = new IKSegmentation(reader, true);// 当为true时,分词器进行最大词长切分
		Lexeme lexeme = null;
		while ((lexeme = ik.next()) != null){
			System.out.println(lexeme.getLexemeText());
		}

	}

}

 

打印结果:火影忍者                       漫画


看来词库还挺丰富的,速度非常快。以后分词就用IK了,简单好用。

就讲到这里了,顺便AD下,大家多多支持本人新站:礼品网
分享到:
评论

相关推荐

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    ikanalyzer 是一个专门为Java开发的中文分词器,它基于 Lucene 库,适用于各种文本处理和搜索引擎场景。在 Solr 环境中,ikanalyzer 的作用是为中文文档提供精确的分词服务,从而提升搜索质量和效率。Solr8.4.0 是 ...

    IKAnalyzer 中文分词demo

    7. **与其他框架的集成**:IKAnalyzer可以方便地与Lucene、Solr、Elasticsearch等全文检索框架集成,为这些系统提供强大的中文分词能力。 通过这个"IKAnalyzer中文分词demo",开发者不仅可以了解IKAnalyzer的基本...

    IKAnalyzer中文分词器支持Lucene6.0以上

    提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。

    ikanalyzer中文分词支持lucene7.1.0

    ikanalyzer中文分词支持lucene7.1.0是一个针对Lucene搜索引擎的中文分词扩展,由林良益先生开发,旨在提供高效、精准的中文词汇拆解功能。Lucene是一个开源全文检索库,它提供了索引和搜索文本的强大工具。然而,...

    ik-analyzer-solr7.zip

    在描述中提到的"ik-analyzer-solr7.zip"是一个专门为Apache Solr 7.x版本定制的IKAnalyzer分词器插件。Solr是Apache软件基金会的一个项目,它是一款强大的全文搜索服务器,提供了诸如索引、搜索、高亮显示、拼写检查...

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    IKAnalyzer 支持高版本最新Lucene 5.x、6.x、7.x

    - IKAnalyzer支持Lucene的高版本,意味着用户在使用新版本的Lucene时,可以无缝集成IKAnalyzer,从而实现高效的中文分词,提升搜索质量。 3. **Lucene 5.x、6.x、7.x的关键特性**: - Lucene 5.x引入了新的Doc...

    IKanalyzer 分词小测试例子

    这个"IKanalyzer 分词小测试例子"旨在帮助开发者了解并熟悉如何在实际项目中集成和使用IKAnalyzer。 ### 1. IKAnalyzer的特性 - **高性能**:IKAnalyzer采用了高效的字典匹配算法,能够快速地对中文文本进行分词。...

    IK 分词器 IK Analyzer 2012FF_hf1 Solr4

    "IKAnalyzer中文分词器V2012_FF使用手册.pdf"是分词器的使用指南,提供了详细的配置和使用方法,包括如何集成到Solr中,如何定制词典,以及如何调整分词器参数以达到最佳效果。 "LICENSE.txt"和"NOTICE.txt"是开源...

    ikanalyzer分词器

    ikanalyzer分词器是一款在Java环境下广泛使用的中文分词工具,尤其在搜索引擎和文本分析领域中扮演着重要角色。它的核心是ikanalyzer.jar类库,这个库包含了分词算法和其他必要的支持类,使得开发者能够轻松地集成到...

    IKAnalyzer分词器源码针对lucene6.4.0进行的修改

    由于IKAnalyzer分词器只维护到2012年,仅最高支持lucene4.0,后续高版本中要调用它时,由于各版本源码差异,需对四个类进行修改,本项目中对IKAnalyzer、IKTokenizer、IKQueryExpressionParser、SWMCQueryBuilder...

    solr配置ikanalyzer分词文件以使用说明

    在这个说明中,我们将详细讲解如何在Solr 6.0中配置ikanalyzer分词文件,以实现对中文文本的有效处理。 1. **ikanalyzer简介** ikanalyzer是一款专门为Java语言设计的开源中文分词库,它基于Apache Lucene项目,...

    IKAnalyzer2012FF_u1 ik solr分词器

    3. **Solr分词器**:Solr是Apache Lucene项目的一个子项目,是一个高性能的企业级搜索服务器。在Solr中,分词器是搜索引擎索引和查询过程中的关键组件。IK Analyzer与Solr结合使用,可以对输入的中文文本进行精确、...

    IKAnalyzer-5.0.jar及solr-analyzer-extra-5.3.jar

    标题中的"IKAnalyzer-5.0.jar"和"solr-analyzer-extra-5.3.jar"是两个在中文搜索引擎系统Solr中常见的组件,主要用于处理中文分词问题。这两个组件在构建高性能的中文搜索解决方案中扮演着至关重要的角色。 首先,...

    IK分词器_ikanalyzer-solr5

    总的来说,IK分词器ikanalyzer-solr5是为Solr 5版本量身定制的中文分词解决方案,它提供了高效的分词性能和灵活的定制能力,对于处理中文文本搜索有着显著的优势。在实际应用中,我们可以通过合理的配置和优化,...

    ik-analyzer中文分词器for solr7

    标题中的"ik-analyzer中文分词器for solr7"指的是IK Analyzer,一个专为Java开发的中文分词工具,适用于Solr搜索引擎。IK Analyzer是基于Lucene库的,它旨在提供一个简单、高效且灵活的中文分词解决方案。在Solr7这...

    IKAnalyzer分词器源码+可直接使用jar包

    Solr是一款基于Lucene的全文检索服务器,IKAnalyzer与Solr的集成使我们能够在索引和搜索时使用IKAnalyzer进行中文分词。在Solr的schema.xml配置文件中,我们可以指定字段类型的Analyzer为IKAnalyzer,这样Solr就会在...

    分词器 ikanalyzer-solr6.5

    ikanalyzer-solr6.5 是一个专门为Solr 6.5版本设计的中文分词器,它基于ikanalyzer,并且进行了优化以更好地适应Solr的索引和搜索需求。ikanalyzer是一个开源的、基于Java实现的中文分词库,主要用于解决中文文本...

    IKAnalyzer中文分词支持lucene6.5.0版本

    由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本

    lucene 所有jar包 包含IKAnalyzer分词器

    《Lucene分词技术与IKAnalyzer详解》 在信息技术领域,搜索引擎是不可或缺的一部分,而Lucene作为Apache软件基金会的一个开放源代码项目,是Java语言开发的全文检索引擎库,为构建高效、可扩展的信息检索应用提供了...

Global site tag (gtag.js) - Google Analytics