`
jaychang
  • 浏览: 734716 次
  • 性别: Icon_minigender_1
  • 来自: 嘉兴
社区版块
存档分类
最新评论

IKAnalyzer中文分词一

 
阅读更多

使用的版本是IKAnalyzer2012FF_u1,该版本与Lucene 4.x是适配的

public static void test1() throws IOException {
		String keyWord = "IKAnalyzer的分词效果到底怎么样呢,我们来看一下吧如果您不能或不想为自己的网站所链接的网页"
				+ "内容提供担保(例如,不可信赖的用户评论或留言板条目),则应该对这些链接使用nofollow。这可以阻止垃圾"
				+ "内容发布者定位您的网站,并且有助于防止您的网站无意中将PageRank传送给网络上的“恶邻”。尤其是,如果垃圾"
				+ "评论发布者发现不受信赖的链接在服务中没有被跟踪,就可能决定不定位相应的内容管理系统或博客服务。如果您希望"
				+ "认可并奖励可靠的内容提供者,那么,对于始终如一地提供高质量内容的成员或用户所发布的链接,您可以决定自动删除"
				+ "或手动删除其中的nofollow属性。付费链接:网站在Google搜索结果中的排名部分取决于对链接到该网站的其他网站"
				+ "的分析。为了防止付费链接影响搜索结果并对用户产生不利影响,我们建议网站管理员对此类链接使用nofollow。"
				+ "搜索引擎指南要求按照在线和离线客户所希望的付费关系公布方式,以机器可读取的方式公布付费链接(例如,整页的"
				+ "报纸广告可能采用“广告”标题)";
		// 创建IKAnalyzer中文分词对象
		// IKAnalyzer analyzer = new IKAnalyzer();
		// 使用智能分词
		// analyzer.setUseSmart(true);
		// 打印分词结果
		IKSegmenter ikseg = new IKSegmenter(new StringReader(keyWord), true);
		Lexeme lex = null;
		while (null != (lex = ikseg.next())) {
			System.out.print(lex.getLexemeText() + "|");

		}
		System.out.println();
	}

	public static void main(String[] args) throws IOException {
		test1();
	}

 

IKAnalyzer.cfg.xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">ext.dic;</entry>
	<!--用户可以在这里配置自己的扩展停止词字典 -->
	<entry key="ext_stopwords">stopword.dic;</entry>
</properties>

 

ext.dic(UTF8 无BOM格式编码)

内容提供者
高质量内容
Google搜索
内容管理系统

 stopword.dic

还没用上

 

遇到的问题,当修改ext.dic,每次运行貌似还是原先的结果,一定要把

IKAnalyzer.cfg.xml 配置文件里的ext.dic;改成/ext.dic 运行一遍,再改回来ext.dic就行了,很奇怪的一个问题。。。

 

 

不用ext.dic的结果

ikanalyzer|分词|效果|到底|怎么样|呢|我们|来看|一下|吧|如果您|不能|或|不|想为|自己|网站|所|链接|网页|内容|提供|担保|例如|不可|信赖|用户|评论|或|留言板|条目|则|应该|对|这些|链接|使用|nofollow|这|可以|阻止|垃圾|内容|发布者|定位|您|网站|并且|有助于|防止|您|网站|无意|中将|pagerank|传|送给|网络|上|恶|邻|尤其是|如果|垃圾|评论|发布者|发现|不受|信赖|链|接在|服务|中|没有|被|跟踪|就可能|决定|不定|位|相应|内容管理|系统|或|博客|服务|如果您|希望|认可|并|奖励|可靠|内容|提供者|那么|对于|始终如一|地|提供|高质量|内容|成员|或|用户|所|发布|链接|您|可以|决定|自动|删除|或|手动|删除|其中|nofollow|属性|付费|链接|网|站在|google|搜索|结果|中|排名|部分|取决于|对|链|接到|该|网站|其他|网站|分析|为了|防止|付费|链接|影响|搜索|结果|并|对|用户|产生|不利|影响|我们|建议|网站|管理员|对|此类|链接|使用|nofollow|搜索引擎|指南|要求|按照|在线|和|离线|客户|所|希望|付费|关系|公布|方式|以|机器|可|读取|方式|公布|付费|链接|例如|整页|报纸广告|可能|采用|广告|标题|

 

使用ext.dic的结果

ikanalyzer|分词|效果|到底|怎么样|呢|我们|来看|一下|吧|如果您|不能|或|不|想为|自己|网站|所|链接|网页|内容|提供|担保|例如|不可|信赖|用户|评论|或|留言板|条目|则|应该|对|这些|链接|使用|nofollow|这|可以|阻止|垃圾|内容|发布者|定位|您|网站|并且|有助于|防止|您|网站|无意|中将|pagerank|传|送给|网络|上|恶|邻|尤其是|如果|垃圾|评论|发布者|发现|不受|信赖|链|接在|服务|中|没有|被|跟踪|就可能|决定|不定|位|相应|内容管理系统|或|博客|服务|如果您|希望|认可|并|奖励|可靠|内容提供者|那么|对于|始终如一|地|提供|高质量内容|成员|或|用户|所|发布|链接|您|可以|决定|自动|删除|或|手动|删除|其中|nofollow|属性|付费|链接|网|站在|google搜索|结果|中|排名|部分|取决于|对|链|接到|该|网站|其他|网站|分析|为了|防止|付费|链接|影响|搜索|结果|并|对|用户|产生|不利|影响|我们|建议|网站|管理员|对|此类|链接|使用|nofollow|搜索引擎|指南|要求|按照|在线|和|离线|客户|所|希望|付费|关系|公布|方式|以|机器|可|读取|方式|公布|付费|链接|例如|整页|报纸广告|可能|采用|广告|标题|

分享到:
评论

相关推荐

    IKAnalyzer中文分词计算句子相似度

    **IKAnalyzer中文分词** IKAnalyzer是一款开源的、基于Java实现的中文分词工具,它在中文信息处理领域有着广泛的应用。该工具最初由尹军平(IkGuo)开发,设计目标是提供一个轻量级、高效能的中文分词引擎,用于...

    IKAnalyzer中文分词器

    IKAnalyzer是一款专为中文处理设计的开源分词器,它主要应用于搜索引擎、信息检索系统、文本挖掘等领域。这款工具能够高效地对中文文本进行分词,使得计算机可以更好地理解和处理中文信息。IKAnalyzer的名字来源于...

    IK Analyzer 中文分词器下载

    IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索或信息提取等任务设计。它由尹力(Wu Li)在2006年发起,最初是为了改善Lucene的中文处理能力。自那时起,IK Analyzer已经发展成为一个广泛使用的...

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    IKAnalyzer中文分词.rar

    IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...

    IKAnalyzer中文分词器 java

    - **IKAnalyzer中文分词器V2012使用手册.pdf**:这是一份详细的操作指南,提供了如何使用IKAnalyzer的步骤、配置说明和常见问题解答,对于初学者来说非常有用。 - **IK Analyzer 2012FF_hf1_source.rar**:这是IK...

    IKAnalyzer中文分词器v2012使用手册.pdf

    文档内容详细地介绍了IKAnalyzer中文分词器的每一个版本的特性和升级细节,对分词效果进行了示范,并提供了详尽的使用说明,对于希望在Java环境下进行中文文本分词的开发者来说,是一个不可或缺的参考资料。...

    IK Analyzer中文分词器

    **IK Analyzer中文分词器详解** IK Analyzer是一个在IT领域广泛应用的开源项目,它专注于Java平台上的中文分词处理。中文分词是自然语言处理(NLP)中的基础任务,对于信息检索、文本挖掘、机器翻译等领域至关重要...

    IKAnalyzer 中文分词demo

    标题 "IKAnalyzer中文分词demo" 指的是一个基于IKAnalyzer的中文分词演示项目。IKAnalyzer是一款开源的、适用于Java平台的全文检索引擎工具,主要功能是对中文文本进行有效的分词处理,广泛应用于搜索引擎、信息检索...

    使用IK Analyzer实现中文分词之Java实现

    IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析...

    IKAnalyzer中文分词器V3.2使用

    **IKAnalyzer中文分词器V3.2使用详解** IKAnalyzer是一款开源的、适用于Java环境的中文分词器,主要用于解决在信息检索、文本挖掘等领域中遇到的中文处理问题。这款分词器的设计目标是提高分词的准确率,并且具有...

    Java IKAnalyzer 中文分词器

    IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml

    IKAnalyzer中文分词器V2012使用手册_20190806.pdf

    IKAnalyzer2012展示了对于不同文本原文的处理能力,支持最细粒度切分和智能切分两种模式,例如对于文本原文1的处理结果,智能分词会将文本切分为具有实际语义的词组,而最细粒度分词则会提供每个汉字作为一个单独的...

    IKAnalyzer中文分词包

    总结来说,IKAnalyzer中文分词包是面向中文处理的一个强大工具,它提供了高效的分词性能和高度的定制化能力,适用于多种应用场景。对于需要处理中文信息的开发者而言,理解和掌握IKAnalyzer的使用能够极大地提升项目...

    IKAnalyzer中文分词器支持Lucene6.0以上

    提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。

    ikanalyzer中文分词支持lucene7.1.0

    ikanalyzer中文分词支持lucene7.1.0是一个针对Lucene搜索引擎的中文分词扩展,由林良益先生开发,旨在提供高效、精准的中文词汇拆解功能。Lucene是一个开源全文检索库,它提供了索引和搜索文本的强大工具。然而,...

    IKAnalyzer中文分词器V3.1.1使用手册

    ### IKAnalyzer中文分词器V3.1.1使用手册 #### 1. IKAnalyzer 3.1.1 介绍 IKAnalyzer是一个基于Java语言开发的开源轻量级中文分词工具包。自2006年12月发布1.0版本以来,IKAnalyzer已经经历了多个版本的迭代,不断...

    IKAnalyzer中文分词器文档和Jar包

    在本压缩包中,"IKAnalyzer中文分词器V3.2.0使用手册.pdf"是一个详细的指南,涵盖了IKAnalyzer 3.2.0版本的安装、配置、使用方法以及常见问题解答。这个手册将引导开发者如何将IKAnalyzer集成到Lucene项目中,如何...

    IKAnalyzer中文分词器V3.2.0

    总之,IKAnalyzer中文分词器V3.2.0是一个强大的工具,能够有效地处理中文文本的分词问题,适用于多种IT应用场景。开发者可以根据实际需求,灵活运用其提供的功能,提升系统在处理中文数据时的效率和准确性。

Global site tag (gtag.js) - Google Analytics