`
zqb666kkk
  • 浏览: 732518 次
  • 性别: Icon_minigender_1
  • 来自: 宁波
社区版块
存档分类
最新评论

解决IkAnalyzer分词后文章字符全角变半角,字母大写变小写问题

阅读更多
工作中利用ik对 文章里的字符做分词 然后返回分词后的字符 进行关键字替换
最后处理后的字符 发下文章里的全角都被ik改成了半角,英文字母如果是大写的也被ik改成了小写 ,这是ik分词内部类规则的一个特性一般用来做搜索的时候用的,这个没错,但是在我的需求里用不到这个特性所以我必须把它去掉

打开ik的源码包org.wltea.analyzer.core.CharacterUtil类里
有个方法 叫regularize 该方法的作用是进行字符规格化(全角转半角,大写转小写处理)
显然把这个方法注释就好了 ,并且去掉相关引用地方的该方法调用
这样ik分词出来的字符就保留原先的完整性了
0
0
分享到:
评论

相关推荐

    ikanalyzer分词器

    ikanalyzer分词器是一款在Java环境下广泛使用的中文分词工具,尤其在搜索引擎和文本分析领域中扮演着重要角色。它的核心是ikanalyzer.jar类库,这个库包含了分词算法和其他必要的支持类,使得开发者能够轻松地集成到...

    IKAnalyzer分词器应用于文章匹配算法

    利用IKAnalyzer分词器来做文章的匹配算法。主要思想是先用IKAnalyzer分词器分析2篇文章,然后把2篇文章的关键字进行比较,如果相同的个数在所有关键字的总数大于某个预设的值,就认为2篇文章是相同的。

    IKAnalyzer分词器

    2. `IKAnalyzer中文分词器V2012_U5使用手册.pdf`: 这是IKAnalyzer的使用手册,提供了详细的文档说明,包括安装、配置、使用方法以及常见问题解答等内容,对于学习和使用IKAnalyzer非常有帮助。 3. `IKAnalyzer.cfg....

    IKAnalyzer中文分词计算句子相似度

    **IKAnalyzer中文分词** IKAnalyzer是一款开源的、基于Java实现的中文分词工具,它在中文信息处理领域有着广泛的应用。该工具最初由尹军平(IkGuo)开发,设计目标是提供一个轻量级、高效能的中文分词引擎,用于...

    IKanalyzer 分词小测试例子

    **IKanalyzer分词器详解** IKAnalyzer是一款开源的、基于Java实现的中文分词工具,主要用于对中文文本进行分词处理。它以其高效、灵活的特性,在许多Java开发的搜索引擎和自然语言处理项目中得到广泛应用。这个"IK...

    IkAnalyzer分词工具

    IkAnalyzer3.2的jar包 IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合...

    solr配置ikanalyzer分词文件以使用说明

    在这个说明中,我们将详细讲解如何在Solr 6.0中配置ikanalyzer分词文件,以实现对中文文本的有效处理。 1. **ikanalyzer简介** ikanalyzer是一款专门为Java语言设计的开源中文分词库,它基于Apache Lucene项目,...

    IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载

    IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载 Solr中使用IK-Analyzer实现中文分词器的配置详情 : http://blog.csdn.net/hello_world_qwp/article/details/78890904

    IKAnalyzer分词器源码+可直接使用jar包

    **IKAnalyzer分词器**是Java开发的一款高性能的中文分词工具,主要应用于搜索引擎和文本分析领域。它的设计目标是提供一个轻量级、高效能的解决方案,支持自定义词典,可以方便地集成到各种系统中。在本资源中,我们...

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    IKAnalyzer分词工具

    IKAnalyzer是一款广泛应用于Java平台的开源分词工具,专门针对中文文本进行高效的分词处理。它的全称为"Intelligent Chinese Analyzer for Lucene",旨在提高Lucene等搜索引擎在中文环境下的搜索性能。Lucene是...

    IKAnalyzer分词

    IKAnalyzer分词,IKAnalyzer分词

    IK Analyzer 分词

    在启动时,IK Analyzer 会加载词典文件,通常是 `dict` 目录下的 `ikanalyzer.dict` 文件,这个文件包含了各种常用词汇及其属性信息。 2. **分词算法**:在处理输入文本时,IK Analyzer 会使用正向和逆向最大匹配...

    IKAnalyzer中文分词器

    IKAnalyzer是一款专为中文处理设计的开源分词器,它主要应用于搜索引擎、信息检索系统、文本挖掘等领域。这款工具能够高效地对中文文本进行分词,使得计算机可以更好地理解和处理中文信息。IKAnalyzer的名字来源于...

    使用IK Analyzer实现中文分词之Java实现

    从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。 从 3.0 版本开始,IK 发展为面向 Java 的公用分词...

    IK Analyzer中文分词器

    **IK Analyzer中文分词器详解** IK Analyzer是一个在IT领域广泛应用的开源项目,它专注于Java平台上的中文分词处理。中文分词是自然语言处理(NLP)中的基础任务,对于信息检索、文本挖掘、机器翻译等领域至关重要...

    IKAnalyzer 分词源码

    **IKAnalyzer分词源码详解** IKAnalyzer是一款广泛使用的开源中文分词器,它主要针对Java平台设计,具有良好的性能和扩展性。该分词器适用于各种文本处理场景,如搜索引擎构建、信息检索、文本挖掘等。其核心在于...

    IKAnalyzer分词器 下载IKAnalyzer2012FF_u1.jar

    IKAnalyzer分词器版本 2012 兼容Lucene3.3以上版本 对solr1.4提供接口实现 使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IK...

    IKAnalyzer 中文分词demo

    标题 "IKAnalyzer中文分词demo" 指的是一个基于IKAnalyzer的中文分词演示项目。IKAnalyzer是一款开源的、适用于Java平台的全文检索引擎工具,主要功能是对中文文本进行有效的分词处理,广泛应用于搜索引擎、信息检索...

    IKAnalyzer中文分词器V3.2使用

    IKAnalyzer是一款开源的、适用于Java环境的中文分词器,主要用于解决在信息检索、文本挖掘等领域中遇到的中文处理问题。这款分词器的设计目标是提高分词的准确率,并且具有良好的可扩展性,能够方便地与其他Java应用...

Global site tag (gtag.js) - Google Analytics