`
txdnet
  • 浏览: 10798 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

使用IKAnalyzer3.2.3分词器提取标题关键词

阅读更多

由于C2C的商城要实现一个简单的商品关键词搜索,建立关键词和商品的映射表需要先对商品标题自动提取关键词,

故用了lucene Analyzer\IKAnalyzer3.2.3做测试,对标题进行关键词切分.

感觉还是IKAnalyzer的分词比较贴切些。

直接附上jsp测试代码:

<%@page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8" buffer="2kb" session="false" autoFlush="true"%>
<%@page import="java.io.*,
        org.apache.lucene.analysis.*,
        org.apache.lucene.analysis.TokenStream,
        org.apache.lucene.analysis.tokenattributes.TermAttribute,
        org.wltea.analyzer.lucene.IKAnalyzer,
        org.apache.lucene.util.*
"%>
<%
IKAnalyzer ka = new  IKAnalyzer(true);
String s = "发布IKAnalyzer中文分词器 - Java、咖啡与茶";
Reader r = new StringReader(s);
TokenStream ts = (TokenStream)ka.tokenStream("title", r);
ts.addAttribute(TermAttribute.class);
        while (ts.incrementToken()) {
               TermAttribute ta =ts.getAttribute(TermAttribute.class);
               out.print(ta.term());
               out.print(" | ");
        } 

%>

 

IKAnalyzer.cfg.xml放在 WEB-INF/classes/下,自定义的字典文件也在这个目录下

测试效果如:


当然要用在商城里,我还需要扩展一个商品品牌相关的字典

在此十分感谢作者提供了这么好的一个插件.

  • 大小: 4.7 KB
分享到:
评论

相关推荐

    IKAnalyzer中文分词器

    IKAnalyzer是一款专为中文处理设计的开源分词器,它主要应用于搜索引擎、信息检索系统、文本挖掘等领域。这款工具能够高效地对中文文本进行分词,使得计算机可以更好地理解和处理中文信息。IKAnalyzer的名字来源于...

    IKAnalyzer中文分词器v2012使用手册.pdf

    标题:"IKAnalyzer中文分词器v2012使用手册" 所述的知识点包括: IKAnalyzer是一款开源的基于Java语言开发的轻量级中文分词工具包,最早版本于2006年12月发布。作为一个文本分析组件,它最初是作为开源项目Lucene的...

    中文分词检索IKAnalyzer3.2.3Stable+hibernate-search3.4.0.Final

    - **IKAnalyzer**:这是一款针对中文处理的高效、灵活的分词器,主要用于对文本进行精确的中文分词,支持自定义词典及停用词,广泛应用于搜索引擎、内容管理系统等。 - **Lucene**:作为一款高性能全文检索引擎库,...

    IKAnalyzer中文分词器V3.2使用

    **IKAnalyzer中文分词器V3.2使用详解** IKAnalyzer是一款开源的、适用于Java环境的中文分词器,主要用于解决在信息检索、文本挖掘等领域中遇到的中文处理问题。这款分词器的设计目标是提高分词的准确率,并且具有...

    IKAnalyzer中文分词计算句子相似度

    IKAnalyzer_Demo可能是一个包含示例代码的压缩包,用于演示如何使用IKAnalyzer进行中文分词以及计算句子相似度。在实践中,开发者通常会先配置IKAnalyzer,加载词典,然后对输入的句子进行分词,接着选择一种相似度...

    IKAnalyzer中文分词器V2012使用手册_20190806.pdf

    在使用指南方面,提供了IKAnalyzer的下载地址,同时介绍了IK分词器与Lucene和Solr的版本兼容情况。例如,IK分词器版本3.1.3GA及先前版本兼容Lucene 2.9.1及之前版本,而3.1.5GA及之后的版本则兼容Solr 1.3和1.4。IK...

    IK Analyzer中文分词器

    **IK Analyzer中文分词器详解** IK Analyzer是一个在IT领域广泛应用的开源项目,它专注于Java平台上的中文分词处理。中文分词是自然语言处理(NLP)中的基础任务,对于信息检索、文本挖掘、机器翻译等领域至关重要...

    Java IKAnalyzer 中文分词器

    IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml

    IKAnalyzer中文分词器 java

    - **IKAnalyzer中文分词器V2012使用手册.pdf**:这是一份详细的操作指南,提供了如何使用IKAnalyzer的步骤、配置说明和常见问题解答,对于初学者来说非常有用。 - **IK Analyzer 2012FF_hf1_source.rar**:这是IK...

    IK Analyzer 中文分词器下载

    IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索或信息提取等任务设计。它由尹力(Wu Li)在2006年发起,最初是为了改善Lucene的中文处理能力。自那时起,IK Analyzer已经发展成为一个广泛使用的...

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    使用IK Analyzer实现中文分词之Java实现

    IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版... 在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。

    IKAnalyzer分词器

    标题中的"IKAnalyzer分词器"指的是IKAnalyzer这个软件工具,它是一个基于Java的全文检索分析引擎。它的主要任务是对中文文本进行分词,即将连续的汉字序列切分成一个个有意义的词汇,这是中文信息处理中的关键步骤。...

    ikanalyzer中文分词支持lucene7.1.0

    ikanalyzer中文分词支持lucene7.1.0是一个针对Lucene搜索引擎的中文分词扩展,由林良益先生开发,旨在提供高效、精准的中文词汇拆解功能。Lucene是一个开源全文检索库,它提供了索引和搜索文本的强大工具。然而,...

    java单独整合ikanalyzer中文分词器提取关键字及动态拓展词库并兼容lucene高版本

    Java整合IKAnalyzer中文分词器的关键在于理解和应用其在处理中文文本时的特性和优势。IKAnalyzer是一款开源的、基于Java实现的中文分词工具,它最初是为Lucene搜索引擎设计的,但随着时间的发展,已经逐渐成为一个...

    IKAnalyzer中文分词器支持Lucene6.0以上

    提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。

    IKAnalyzer中文分词器文档和Jar包

    在本压缩包中,"IKAnalyzer中文分词器V3.2.0使用手册.pdf"是一个详细的指南,涵盖了IKAnalyzer 3.2.0版本的安装、配置、使用方法以及常见问题解答。这个手册将引导开发者如何将IKAnalyzer集成到Lucene项目中,如何...

    IKAnalyzer中文分词.rar

    IK Analyzer是什么呢,就是我们需要的这个工具,是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的...如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的分词器:IK-analyzer。

    IKAnalyzer IK分词器

    文件目录: doc IKAnalyzer2012FF_u1.jar IKAnalyzer.cfg.xml IKAnalyzer中文分词器V2012_FF使用手册.pdf LICENSE.txt NOTICE.txt

Global site tag (gtag.js) - Google Analytics