IKAnalyzer和Ansj切词Demo - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1247107 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

IKAnalyzer和Ansj切词Demo

博客分类：

Spider
Java

阅读更多

IKAnalyzer

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。切词Demo代码如下：

public static void ikSeg() throws Throwable {
	String content = "Java编程思想(第4版)";
	IKSegmentation ikSeg = new IKSegmentation(new StringReader(content), true);

	Lexeme l = null;
	while ((l = ikSeg.next()) != null) {
		String word = l.getLexemeText();
		int wordType = l.getLexemeType();
		System.out.println(wordType + "->" + word);
	}
}

Ansj：

Ansj中文分词这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.切词Demo代码如下：

public static void ansjSeg() throws Throwable {
	String content = "Java编程思想(第4版)";
	Analysis udf = new ToAnalysis(new StringReader(content));
	Term term = null;
	while ((term = udf.next()) != null) {
		TermNature[] termNatures = term.getTermNatures().termNatures;
		String wordType = termNatures[0].nature.natureStr;
		String word = term.getName();
		System.out.println(wordType + "->" + word);

	}

}

0
顶

7
踩

分享到：

Zookeeper应用范围 | Zookeeper分布式部署(单机伪部署)

2013-03-28 17:50
浏览 2621
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

IKAnalyzer 中文分词demo: 标题 "IKAnalyzer中文分词demo" 指...通过这个"IKAnalyzer中文分词demo"，开发者不仅可以了解IKAnalyzer的基本使用方法，还能深入学习其内部工作原理，掌握如何在实际项目中有效利用分词工具提升文本处理的效率和质量。

IKAnalyzer3.2.5Stable.jar: 标签中的"IKAnalyzer3.2.5S"、"IKAnalyzer"和"IKA"都是对标题的关键词提炼，"S"可能是 Stable 的缩写，而"IKA"是 IKAnalyzer 的简称，方便用户搜索和记忆。在压缩包子文件的文件名称列表中，除了主程序文件"IK...

IKAnalyzer 中文分词完整java项目demo: IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。这个是一个完整的java项目demo。直接可以用，不用再去google下载了。添加了几个自定义词汇，测试好用。运行ika.java里的main方法即可

IKAnalyzer2012完整分发包: 1. 《IKAnalyzer中文分词器V2012使用手册》（即本文档） 2. IKAnalyzer2012.jar（主jar包） 3. IKAnalyzer.cfg.xml（分词器扩展配置文件） 4. stopword.dic（停止词典） 5. LICENSE.TXT ; NOTICE.TXT （apache...

IKAnalyzer6.5.0.jar: 4. **项目构建相关文件**：`.classpath` 和 `.project` 是Eclipse IDE的项目配置文件，它们包含了项目的依赖信息和构建设置，帮助开发者在IDE环境中正确导入和管理IKAnalyzer6.5.0.jar。 5. **库文件夹**：`libs` ...

IKAnalyzer 支持高版本最新Lucene 5.x、6.x、7.x: IKAnalyzer 是一个开源的、基于Java实现的中文分词器，专为全文检索和搜索引擎提供高效、快速的分词服务。这款工具广泛应用于Lucene、Elasticsearch、Solr等全文检索框架，以提高中文处理的性能。在给定的标题和描述...

IKAnalyzer配置文件、扩展词典和停用词词典.zip: 这个压缩包文件包含的是IKAnalyzer的配置文件、扩展词典和停用词词典，这些组件对于优化IKAnalyzer的性能和精确度至关重要。 1. **IKAnalyzer.cfg.xml**：这是IKAnalyzer的核心配置文件，用于设定分词器的行为和...

IKAnalyzer2012_u6: 这些文件有助于开发者快速理解和部署IKAnalyzer，例如，词典文件（dict）用于定义和更新分词规则，配置文件（如ikAnalyzer.cfg.xml）用于设置分词器的行为，而示例代码可以帮助初学者了解如何在实际项目中集成和使用...

IKAnalyzer2012FF_hf1.zip: 总的来说，IKAnalyzer2012FF_hf1.zip在FastDFS集群中的应用，主要是为了提高中文文本处理的能力，特别是对于文件名或文件内容的搜索和分析。同时，这个压缩包可能包含了集成所需的配置文件和测试资源，帮助用户顺利...

ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_: ikanalyzer 是一个专门为Java开发的中文分词器，它基于 Lucene 库，适用于各种文本处理和搜索引擎场景。在 Solr 环境中，ikanalyzer 的作用是为中文文档提供精确的分词服务，从而提升搜索质量和效率。Solr8.4.0 是 ...

IK Analyzer 2012FF_hf1.7z: "2012FF_hf1.7z" 是IK Analyzer的一个特定版本，可能包含了优化和改进，适应了2012年及之后的技术需求。在Solr中，分词器扮演着至关重要的角色。它们负责将输入的中文文本分解成一系列的词汇单元，这些单元通常被...

Ikanalyzer分词器动态自定义词库的方法.doc: IKAnalyzer的动态自定义词库的方法提供了极大的灵活性和可扩展性，使得开发者可以根据不同的应用场景和需求，灵活地配置分词器的词库。这种方法可以应用于自然语言处理、文本挖掘、信息检索、机器学习等领域。知识...

IKAnalyzer-5.0.jar及solr-analyzer-extra-5.3.jar: 标题中的"IKAnalyzer-5.0.jar"和"solr-analyzer-extra-5.3.jar"是两个在中文搜索引擎系统Solr中常见的组件，主要用于处理中文分词问题。这两个组件在构建高性能的中文搜索解决方案中扮演着至关重要的角色。首先，...

IK Analyzer 中文分词器下载: 自那时起，IK Analyzer已经发展成为一个广泛使用的中文分词工具，被许多企业和个人开发者应用于搜索引擎、内容管理系统、日志分析等领域。中文分词是自然语言处理中的关键步骤，因为中文句子不像英文那样有明显的...

IKAnalyzer2012_u6中文分词器以及手册正式版.zip: IKAnalyzer2012_u6中文分词器以及手册正式版 Mode LastWriteTime Length Name ---- ------------- ------ ---- d----- 2017/10/29 1:41 doc -a---- 2017/10/29 1:41 414 IKAnalyzer.cfg.xml -a---- 2017/10/29 1...

IKAnalyzer2012_u6中文分词器jar包: IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包

使用IK Analyzer实现中文分词之Java实现（包含所有工具包）: 1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar（主jar包） 3、IKAnalyzer.cfg.xml（分词器扩展配置文件） 4、stopword.dic（停止词典） 5、IkSegmentation.java（样例类）

ikanalyzer-solr5: ikanalyzer 提供了一些高级特性，如智能切词、动态加载字典、模糊匹配等。这些特性可以帮助提高中文分词的准确性，尤其是在处理新词汇或网络热词时。同时，ikanalyzer 还支持自定义词典，用户可以根据实际应用需求，...

IKanalyzer 分词小测试例子: 这个"IKanalyzer 分词小测试例子"旨在帮助开发者了解并熟悉如何在实际项目中集成和使用IKAnalyzer。 ### 1. IKAnalyzer的特性 - **高性能**：IKAnalyzer采用了高效的字典匹配算法，能够快速地对中文文本进行分词。...

Global site tag (gtag.js) - Google Analytics