`
小网客
  • 浏览: 1243707 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

IKAnalyzer和Ansj切词Demo

 
阅读更多

IKAnalyzer

        IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。切词Demo代码如下:

public static void ikSeg() throws Throwable {
	String content = "Java编程思想(第4版)";
	IKSegmentation ikSeg = new IKSegmentation(new StringReader(content), true);

	Lexeme l = null;
	while ((l = ikSeg.next()) != null) {
		String word = l.getLexemeText();
		int wordType = l.getLexemeType();
		System.out.println(wordType + "->" + word);
	}
}

 

 Ansj:

        Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.切词Demo代码如下:

public static void ansjSeg() throws Throwable {
	String content = "Java编程思想(第4版)";
	Analysis udf = new ToAnalysis(new StringReader(content));
	Term term = null;
	while ((term = udf.next()) != null) {
		TermNature[] termNatures = term.getTermNatures().termNatures;
		String wordType = termNatures[0].nature.natureStr;
		String word = term.getName();
		System.out.println(wordType + "->" + word);

	}

}

 

0
7
分享到:
评论

相关推荐

    IKAnalyzer 中文分词demo

    标题 "IKAnalyzer中文分词demo" 指...通过这个"IKAnalyzer中文分词demo",开发者不仅可以了解IKAnalyzer的基本使用方法,还能深入学习其内部工作原理,掌握如何在实际项目中有效利用分词工具提升文本处理的效率和质量。

    IKAnalyzer3.2.5Stable.jar

    标签中的"IKAnalyzer3.2.5S"、"IKAnalyzer"和"IKA"都是对标题的关键词提炼,"S"可能是 Stable 的缩写,而"IKA"是 IKAnalyzer 的简称,方便用户搜索和记忆。 在压缩包子文件的文件名称列表中,除了主程序文件"IK...

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    IKAnalyzer2012完整分发包

    1. 《IKAnalyzer中文分词器V2012使用手册》(即本文档) 2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE.TXT ; NOTICE.TXT (apache...

    IKAnalyzer6.5.0.jar

    4. **项目构建相关文件**:`.classpath` 和 `.project` 是Eclipse IDE的项目配置文件,它们包含了项目的依赖信息和构建设置,帮助开发者在IDE环境中正确导入和管理IKAnalyzer6.5.0.jar。 5. **库文件夹**:`libs` ...

    IKAnalyzer 支持高版本最新Lucene 5.x、6.x、7.x

    IKAnalyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索和搜索引擎提供高效、快速的分词服务。这款工具广泛应用于Lucene、Elasticsearch、Solr等全文检索框架,以提高中文处理的性能。在给定的标题和描述...

    IKAnalyzer配置文件、扩展词典和停用词词典.zip

    这个压缩包文件包含的是IKAnalyzer的配置文件、扩展词典和停用词词典,这些组件对于优化IKAnalyzer的性能和精确度至关重要。 1. **IKAnalyzer.cfg.xml**:这是IKAnalyzer的核心配置文件,用于设定分词器的行为和...

    IKAnalyzer2012_u6

    这些文件有助于开发者快速理解和部署IKAnalyzer,例如,词典文件(dict)用于定义和更新分词规则,配置文件(如ikAnalyzer.cfg.xml)用于设置分词器的行为,而示例代码可以帮助初学者了解如何在实际项目中集成和使用...

    IKAnalyzer2012FF_hf1.zip

    总的来说,IKAnalyzer2012FF_hf1.zip在FastDFS集群中的应用,主要是为了提高中文文本处理的能力,特别是对于文件名或文件内容的搜索和分析。同时,这个压缩包可能包含了集成所需的配置文件和测试资源,帮助用户顺利...

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    ikanalyzer 是一个专门为Java开发的中文分词器,它基于 Lucene 库,适用于各种文本处理和搜索引擎场景。在 Solr 环境中,ikanalyzer 的作用是为中文文档提供精确的分词服务,从而提升搜索质量和效率。Solr8.4.0 是 ...

    IK Analyzer 2012FF_hf1.7z

    "2012FF_hf1.7z" 是IK Analyzer的一个特定版本,可能包含了优化和改进,适应了2012年及之后的技术需求。 在Solr中,分词器扮演着至关重要的角色。它们负责将输入的中文文本分解成一系列的词汇单元,这些单元通常被...

    Ikanalyzer分词器动态自定义词库的方法.doc

    IKAnalyzer的动态自定义词库的方法提供了极大的灵活性和可扩展性,使得开发者可以根据不同的应用场景和需求,灵活地配置分词器的词库。这种方法可以应用于自然语言处理、文本挖掘、信息检索、机器学习等领域。 知识...

    IKAnalyzer-5.0.jar及solr-analyzer-extra-5.3.jar

    标题中的"IKAnalyzer-5.0.jar"和"solr-analyzer-extra-5.3.jar"是两个在中文搜索引擎系统Solr中常见的组件,主要用于处理中文分词问题。这两个组件在构建高性能的中文搜索解决方案中扮演着至关重要的角色。 首先,...

    IK Analyzer 中文分词器下载

    自那时起,IK Analyzer已经发展成为一个广泛使用的中文分词工具,被许多企业和个人开发者应用于搜索引擎、内容管理系统、日志分析等领域。 中文分词是自然语言处理中的关键步骤,因为中文句子不像英文那样有明显的...

    IKAnalyzer2012_u6中文分词器以及手册正式版.zip

    IKAnalyzer2012_u6中文分词器以及手册正式版 Mode LastWriteTime Length Name ---- ------------- ------ ---- d----- 2017/10/29 1:41 doc -a---- 2017/10/29 1:41 414 IKAnalyzer.cfg.xml -a---- 2017/10/29 1...

    IKAnalyzer2012_u6中文分词器jar包

    IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包

    IKAnalyzer中文分词计算句子相似度

    IKAnalyzer_Demo可能是一个包含示例代码的压缩包,用于演示如何使用IKAnalyzer进行中文分词以及计算句子相似度。在实践中,开发者通常会先配置IKAnalyzer,加载词典,然后对输入的句子进行分词,接着选择一种相似度...

    IKanalyzer约2000个常用停止词库

    使用IKAnalyzer和停用词库进行中文信息处理的具体步骤通常包括以下几步: 1. **安装与配置**:首先,需要将IKAnalyzer库和停用词文件集成到项目中。这可能涉及添加相关依赖库,以及在 IKAnalyzer 的配置文件(如`ik...

    ikanalyzer-solr5

    ikanalyzer 提供了一些高级特性,如智能切词、动态加载字典、模糊匹配等。这些特性可以帮助提高中文分词的准确性,尤其是在处理新词汇或网络热词时。同时,ikanalyzer 还支持自定义词典,用户可以根据实际应用需求,...

Global site tag (gtag.js) - Google Analytics