`
xwater
  • 浏览: 4179 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

jcseg中文分词器去除不想要的分词

阅读更多
今天观察我的网站省淘网时,发现好多相关搜索结果,都是关键词“的”的命中。
一开始想自己把字符串里的“的”replace掉得了,但是一想,jcseg应该有这个功能吧。
翻阅了说明文档后,最终发现,默认的配置文件没有开启自动过滤停止词(其实就是去掉不想要的分词)

具体设置:

默认的配置文件在jcseg-core-1.9.1.jar包里:jcseg.properties

#是否自动过滤停止词(0 关闭, 1 开启)
jcseg.clearstopword=1

这个配置默认是0,改成1,重启后就开始了。

具体的停止词,在词库文件:lib/lexicon/lex-stopword.lex

自己想要的可以加,我加了一些符号。
分享到:
评论

相关推荐

    基于Java的jcseg中文分词器编辑版设计源码 - jcseg_edit

    本源码提供了一个基于Java的jcseg中文分词器编辑版的设计。项目包含194个文件,其中包括135个Java文件、29个Lex文件、7个XML文件,以及用于版本控制和文档的文件。此外,还有6个Markdown文档、3个Properties文件、3...

    Jcseg中文分词器 v2.6.3.zip

    《Jcseg中文分词器 v2.6.3.zip》是一个包含源代码和相关文档的压缩包,专为处理中文文本分词而设计。在本文中,我们将深入探讨Jcseg分词器的主要功能、原理以及其在IT领域的应用。 Jcseg(Java Chinese Segmenter)...

    jcseg 中文分词插件

    总的来说,jcseg中文分词插件是Elasticsearch生态系统中不可或缺的一部分,它提升了中文文本处理的能力,使得基于Elasticsearch的应用在处理中文数据时更加智能和高效。正确地安装和配置jcseg插件,对于提升中文搜索...

    Jcseg汉语分词工具

    汉语分词是中文信息处理的基础步骤,它将连续的汉字序列切分成有意义的词语,以便进一步进行文本分析和理解。Jcseg的核心算法采用了基于字典匹配和统计学习的方法,结合了多种分词策略,如最大匹配法、正向最大匹配...

    Jcseg中文分词器 v2.6.2

    为您提供Jcseg中文分词器下载,Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http...

    Jcseg支持lucene3的分词器

    在网上找了好半天也没找到jcseg分词器对lucene 3的支持,自己参考这对lucene4的支持写的,希望对大家有用。

    Jcseg+Java中文分词器

    Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的...

    基于 Java 的中文分词器分词效果评估对比项目

    基于 Java 的中文分词器分词效果评估对比项目。它主要实现了以下功能: 分词效果评估:用户可以通过程序对比不同分词器的分词结果,以及计算分词速度、行数完美率、行数错误率、字数完美率、字数错误率等指标。 ...

    jcseg java中文分词

    Friso是一个采用C语言开发的中文分词器,其核心就是实现了mmseg算法。Friso的优势在于它的模块化设计,这使得它能够轻松地与其他软件集成,如MySQL数据库系统和PHP脚本语言环境。通过植入这些系统,Friso可以提供...

    支持solr5.x和lucene5.x的jcseg分词器,亲测可用!

    基于狮子的心的jcseg分词器,并优化部分功能,完美支持solr5.x和lucene5.x,本人是solr5.3,亲测可用。jcseg.properties使用原生的即可。本人还有pinyin拼音分词器资源,可以查看我的资源里。

    Jcseg中文分词器-其他

    Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的...

    jcseg分词工具.zip

    【jcseg分词工具】是一个基于Java开发的高效、轻量级的中文分词组件,主要为了解决在处理中文文本时的分词问题。在自然语言处理领域,分词是预处理的第一步,它将连续的汉字序列切割成具有语义的词汇单元,为后续的...

    elasticsearch-ik中文分词器7.6.2.zip

    **Elasticsearch 7.6.2 中文分词器详解** Elasticsearch 是一个流行的开源全文搜索引擎,它提供了一种高效、灵活的方式来存储、搜索和分析大量数据。在处理中文文档时,为了实现准确的搜索和匹配,我们需要使用特定...

    IK智能分词器下载8.12.2版本

    IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载8.12.2版本IK智能分词器下载...

    中文分词器jcseg支持人名识别mmseg四种过滤算法分词准确率达到了97%以上。支持自定义词库。在lexicon文件夹下可以随便添加删除更改词库和词库内容并且对词库进行了分类.zip

    中文分词器jcseg支持人名识别mmseg四种过滤算法分词准确率达到了97%以上。支持自定义词库。在lexicon文件夹下可以随便添加删除更改词库和词库内容并且对词库进行了分类.zip,太多无法一一验证是否可用,程序如果跑不...

    IK中文分词器原理

    ### IK中文分词器原理详解 #### 一、概述 IK中文分词器是一种广泛应用于中文文本处理领域的高效工具,其核心功能在于能够精准地识别并切割中文文本中的词汇单元,进而为后续的信息检索、自然语言处理等工作提供基础...

    solr 5.x 和 6.x 最新中文分词器

    在Solr 5.x和6.x版本中,中文分词器扮演着至关重要的角色,它负责将中文文本拆分成有意义的词汇,便于索引和查询。下面将详细介绍Solr中的中文分词器及其相关知识。 一、Solr中文分词器概述 在处理中文文档时,由于...

    jcseg分词需要的jar

    jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组件,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。jcseg目前最高版本jcseg目前最高版本jcseg目前...

    elasticsearch的ik中文分词器

    **Elasticsearch与IK中文分词器** Elasticsearch(ES)是一款强大的开源搜索引擎,它基于Lucene构建,提供实时、分布式、可扩展的搜索和分析能力。在处理中文文档时,由于中文句子中词语之间没有明显的分隔符,因此...

    Lucene中文分词器组件

    为了在Lucene中处理中文文本,我们需要引入专门的中文分词器组件。本文将深入探讨Lucene中文分词器组件的相关知识点。 首先,我们要明白中文分词的重要性。由于中文是以词为基本单位,不像英文那样有明显的空格分隔...

Global site tag (gtag.js) - Google Analytics