关键字:中文分词、IKAnalyzer
最近有个需求,需要对爬到的网页内容进行分词,以前没做过这个,随便找了找中文分词工具,貌似IKAnalyzer评价不错,因此就下来试试,在这里记录一下使用方法,备查。
关于IKAnalyzer的介绍,网上很多,搜一下就知道了。下载地址见文章最后面。
下载解压之后主要使用和依赖以下文件:
IKAnalyzer2012_u6.jar — IKAnalyzer核心jar包
IKAnalyzer.cfg.xml — 配置文件,可以在这里配置停词表和扩展词库
stopword.dic — 停词表
lucene-core-3.6.0.jar — lucene jar包,注意:只能使用这个3.6版本,高版本有问题
IKAnalyzer中文分词器V2012_U5使用手册.pdf — 使用手册
新建Java项目,将IKAnalyzer2012_u6.jar和lucene-core-3.6.0.jar添加到Build Path,将stopword.dic和IKAnalyzer.cfg.xml添加到项目根目录。
看一下IKAnalyzer.cfg.xml的内容:
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment> <!–用户可以在这里配置自己的扩展字典 –> <entry key="ext_dict"></entry> <!–用户可以在这里配置自己的扩展停止词字典–> <entry key="ext_stopwords">stopword.dic;</entry> </properties>
使用示例代码:
package com.lxw1234.wordsplit; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea.analyzer.lucene.IKAnalyzer; /** * * @author lxw的大数据田地 -- lxw1234.com * */ public class Test { public static void main(String[] args) throws Exception { String text = "lxw的大数据田地 -- lxw1234.com 专注Hadoop、Spark、Hive等大数据技术博客。 北京优衣库"; Analyzer analyzer = new IKAnalyzer(false); StringReader reader = new StringReader(text); TokenStream ts = analyzer.tokenStream("", reader); CharTermAttribute term=ts.getAttribute(CharTermAttribute.class); while(ts.incrementToken()){ System.out.print(term.toString()+"|"); } analyzer.close(); reader.close(); } }
执行结果为:
lxw|的|大数|数据|田地|lxw1234.com|lxw|1234|com|专注|hadoop|spark|hive|等|大数|数据|技术|博客|北京|优|衣|库|
分词分的很细。
看这个构造函数:Analyzer analyzer = new IKAnalyzer(false);
IKAnalyzer支持两种分词模式:最细粒度和智能分词模式,如果构造函数参数为false,那么使用最细粒度分词。
改成智能分词模式之后的结果:
Analyzer analyzer = new IKAnalyzer(true);
lxw|的|大|数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大|数据|技术|博客|北京|优|衣|库|
结果还是不太理想,“大数据”和“优衣库”都被分开了,原因是IKAnalyzer自带的词库里面没有这两个词。
需要配置扩展词库。
在项目根目录新建文件MyDic.dic,里面内容为:
大数据
优衣库
每行一个词,特别注意:MyDic.dic的文件编码必须为UTF-8。
编辑IKAnalyzer.cfg.xml配置文件,添加扩展词库:
<!–用户可以在这里配置自己的扩展字典 –>
<entry key="ext_dict">MyDic.dic;</entry>
再运行:
lxw|的|大数据|田地|lxw1234.com|专注|hadoop|spark|hive|等|大数据|技术|博客|北京|优衣库|
这下基本是我们想要的结果了。
参考更多大数据Hadoop、Spark、Hive相关:lxw的大数据田地
下载地址:https://code.google.com/p/ik-analyzer/downloads/list
这个地址估计大家不方便,上传了一份到网盘:
http://lxw1234.com/archives/2015/07/422.htm
相关推荐
IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析...
ik-analyzer是一款在Java环境下广泛使用的开源中文分词器,专为满足Java开发者在信息检索、文本分析等领域的需求而设计。这个资源是ik-analyzer的8.5.0版本,包含了一个名为"ik-analyzer-8.5.0-jar"的JAR文件,它是...
Ik Analyzer是一款针对Java平台设计的、专门用于中文分词的开源工具,它在Solr中扮演着至关重要的角色。 标题提到的"ik-analyzer 7.5.0"是Ik Analyzer的一个特定版本,这个版本包含了对Solr的支持,并且提供了类...
IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...
- **IKAnalyzer中文分词器V2012使用手册.pdf**:这是一份详细的操作指南,提供了如何使用IKAnalyzer的步骤、配置说明和常见问题解答,对于初学者来说非常有用。 - **IK Analyzer 2012FF_hf1_source.rar**:这是IK...
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、...
IKAnalyzer是Java开发的一款广泛应用的中文分词器,它的全称是"Intelligent Chinese Analyzer"。这个开源项目致力于提供一个高效、易用且扩展性良好的中文处理工具,它在分词领域表现出色,广泛应用于搜索引擎、信息...
标题中的“基于IKAnalyzer.NET的分词工具(包含dll)”指的是一个专为.NET平台设计的中文分词组件,该组件使用了IKAnalyzer.NET库,它是一个开源的、基于Java Lucene的中文分词器,已被移植到.NET环境中。IKAnalyzer...
IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml
IK分词器是Java实现的开源中文分词组件,尤其在Solr和Elasticsearch等全文检索系统中广泛使用。 分词器是自然语言处理中的重要工具,它将文本拆分成一系列独立的词语,为后续的文本分析和信息检索提供基础。IK分词...
- **运行分词**:通过Analyzer接口,创建IKAnalyzer实例,对输入的中文文本进行分词处理。 3. **优化与改进**: - **新词发现**:ik-analyzer-7.4.0版本增强了新词识别能力,能较好地处理网络热词和专业术语。 -...
Lucene是一个高性能、全文本搜索库,而IKAnalyzer是一个专门针对中文分词的开源分析器,它们的结合能够有效地帮助我们处理中文文本的搜索需求。 首先,我们需要了解Lucene的基本概念。Lucene提供了完整的搜索索引...
ik-analyzer是一款开源的Java语言中文分词器,它最初是基于Lucene项目发展起来的,致力于提高中文文本处理的效率和准确性。7.6.0版本是ik-analyzer的一个重要里程碑,它包含了多项优化和改进,提高了对现代汉语词汇...
**IKAnalyzer中文分词** IKAnalyzer是一款开源的、基于Java实现的中文分词工具,它在中文信息处理领域有着广泛的应用。该工具最初由尹军平(IkGuo)开发,设计目标是提供一个轻量级、高效能的中文分词引擎,用于...
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文...
IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合词典分词和文法分析...
IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索或信息提取等任务设计。它由尹力(Wu Li)在2006年发起,最初是为了改善Lucene的中文处理能力。自那时起,IK Analyzer已经发展成为一个广泛使用的...
IKAnalyzer是一款专为中文处理设计的开源分词器,它主要应用于搜索引擎、信息检索系统、文本挖掘等领域。这款工具能够高效地对中文文本进行分词,使得计算机可以更好地理解和处理中文信息。IKAnalyzer的名字来源于...
它由Java编写,能够对中文进行精准、快速的分词处理。IK分词器支持自定义扩展词库,可以根据实际需求添加行业术语或者个性化的词汇,使得分词结果更加符合应用场景。此外,IK还支持多种分词模式,如精确模式、全模式...
IKAnalyzer是一款广泛应用于Java平台的开源分词工具,专门针对中文文本进行高效的分词处理。它的全称为"Intelligent Chinese Analyzer for Lucene",旨在提高Lucene等搜索引擎在中文环境下的搜索性能。Lucene是...