`
itace
  • 浏览: 180979 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

mmseg4j分词

 
阅读更多

 

    mmseg4j分词,所需jar:mmseg4j-analysis-1.9.1.jar,mmseg4j-core-1.9.1.jar。

public class Demo {

	public static void main(String[] args) throws IOException {
		
		String txt  = "十动然拒思密达";
		File file = new File("E:/temp/dic_mmseg");
		//目录下的文件必须是words开头的dic文件,且第一行跳过,写注释
		Dictionary dic = Dictionary.getInstance(file);
		Seg seg = null; 
//		seg = new SimpleSeg(dic); 
		seg = new ComplexSeg(dic); 
//		seg = new MaxWordSeg(dic);
		MMSeg mmSeg = new MMSeg(new StringReader(txt), seg); 
		Word word = null;
		while((word = mmSeg.next())!=null) {			
				if(word != null) {
					System.out.print(word + "|");
			} 
		}
		
	}
}

 

    词典words.dic内容:

#词典
十动然拒
思密达

 

分享到:
评论

相关推荐

    mmseg4j分词器jar包

    **mmseg4j分词器** 是一个专为Java平台设计的中文分词库,它在中文信息处理领域中扮演着重要的角色。该库的主要功能是将连续的汉字序列分割成具有语义意义的词语,这是自然语言处理(NLP)中的基础任务,对搜索引擎...

    mmseg4j分词器

    在com.chenlb.mmseg4j.analysis包里扩展lucene analyzer。 MMSegAnalyzer默认使用max-word方式分词(还有:ComplexAnalyzer, SimplexAnalyzer, MaxWordAnalyzer)。

    跟益达学Solr5之使用MMSeg4J分词器

    《Solr5与MMSeg4J分词器深度解析》 在中文信息检索和文本分析领域,分词是至关重要的第一步。Solr,作为一款强大的开源全文搜索引擎,提供了多种分词器供用户选择,其中之一就是MMSeg4J。本篇文章将带你深入学习...

    mmseg4j分词器,内含词库

    **mmseg4j分词器详解** mmseg4j是一个基于Java实现的中文分词工具,它在中文信息处理领域有着广泛的应用。该工具的主要功能是将连续的汉字序列分割成具有语义的词语,这一过程称为分词。在中文自然语言处理(NLP)...

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    "兼容solr4.10.3的mmseg4j-1.9.1分词器" 这个标题表明我们正在讨论的是一个针对Solr 4.10.3版本优化的mmseg4j分词器,版本号为1.9.1。mmseg4j是一款广泛使用的Java实现的中文分词库,它提供了高效且精准的中文分词...

    mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

    《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...

    mmseg4j-solr-2.4.0.jar

    而mmseg4j-solr-2.4.0.jar是mmseg4j分词库的Solr插件版本,专为Solr设计,使得开发者可以方便地将mmseg4j的分词功能集成到Solr中,以提升搜索性能和精确度。 在Solr 6.3版本下,要使用mmseg4j-solr-2.4.0.jar,首先...

    mmseg4j-1.9.1 分词器 包含修复bug的mmseg4j-analysis-1.9.1.jar

    **mmseg4j分词器详解** mmseg4j是一个基于Java实现的中文分词库,它主要用于将中文文本拆分成一系列的词语,是信息检索、自然语言处理、搜索引擎等领域的基础工具。在1.9.1版本中,开发者对原有的功能进行了优化,...

    solr mmseg4j 中文分词器

    mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

    MMseg4j中文分词词库

    文件名"dic"很可能代表“dictionary”(词典),这是MMseg4j分词器需要的核心组件。词典文件通常包含了词的列表,每个词后面可能跟着对应的词频或其他属性,用于优化分词算法。在实际使用时,用户可以根据需要选择...

    solr6配置mmseg4j

    4. **配置schema.xml**:在Solr的schema.xml文件中,为需要进行分词的字段指定mmseg4j分词器。例如: ``` <fieldType name="text_mmseg" class="solr.TextField" positionIncrementGap="100"> ...

    mmseg4j完美适配solr5.2.1

    在实际应用中,我们需要在Solr的配置文件中指定使用mmseg4j分词器。这通常涉及修改`schema.xml`文件,定义一个新的字段类型,并指定分词器为`mmseg4j`。例如: ```xml <fieldType name="text_mmseg" class="solr....

    mmseg4j.jar

    《mmseg4j在中文分词中的应用与详解》 mmseg4j是Java实现的中文分词库,广泛应用于搜索引擎、文本分析等领域。在Java社区中,它因其高效、灵活的特点而备受青睐。本篇文章将围绕mmseg4j的核心组件、功能特性以及在...

    mmseg4j-solr-mmseg4j-solr-2.2.0.zip

    1. **安装与配置**:将mmseg4j-solr-2.2.0的jar包添加到Solr的lib目录下,然后在Solr的schema.xml中配置分词器,指定使用mmseg4j-solr的分词算法。 2. **定制词典**:mmseg4j-solr允许用户自定义词典,以适应特定...

    mmseg4j\mmseg4j-1.8.5.zip

    《mmseg4j:中文分词利器》 mmseg4j是一个专为Java设计的高效中文分词库,它的核心是基于"最小编辑距离"算法的分词方法,旨在提高中文文本处理的效率和准确性。在Java开发环境中,面对海量中文文本的处理,mmseg4j...

    mmseg4j1.9.1.zip 中文分词器

    **中文分词器mmseg4j详解** 在自然语言处理(NLP)领域,中文分词是基础且关键的一环。中文不同于英文,其词汇之间没有明显的边界,因此需要通过分词来识别句子中的词语。`mmseg4j`便是一款专为Java平台设计的高效...

    mmseg4j 2.3 jar包

    mmseg4j采用了多级分词策略,主要包括四种分词模式:精确模式、全模式、简模式和搜索引擎模式。这些模式可根据实际应用场景灵活选择,以平衡分词速度和准确性。 **3. Lucene集成** Lucene是Apache开源项目的一款高...

    mmseg4j最新jar完美整合solr-5.3.0

    mmseg4j-solr模块是专为Solr设计的,它可以无缝对接Solr的索引构建和查询过程,而mmseg4j-core则包含了mmseg4j的主要分词算法,如最大匹配法、最少切分法等。 在整合mmseg4j到Solr-5.3.0之前,需要确保Solr服务器...

Global site tag (gtag.js) - Google Analytics