`

Java JE MMAnalyzer

 
阅读更多

需要引入je-analysis-1.4.0.jar包

package com.test;

import java.io.IOException;
import java.io.StringReader;

import jeasy.analysis.MMAnalyzer;

public class testJE {

	public static void main(String[] args){
		
		String test = "帕森斯命中三分球,随后德拉季奇和斯科拉也跟进得分,火箭以19-13领先进入暂停。" +
				"其中包括巴丁格的空接暴扣,但是首节结束时火箭还是以26-30落后爵士队。火箭的坎比9分6个篮板球,帕森斯8分,爵士的哈沃德12分。";
		
		StringReader sr = new StringReader("斯科");
		
		//不是只分成长度<=2的词,而是当两个词已经匹配时,就不再尝试第三个是否能组成新词,优点类似最小向前匹配
		MMAnalyzer mm = new MMAnalyzer(2);
		mm.addWord("暴扣");
		mm.addDictionary(sr);
		try {
			System.out.println(mm.segment(test, "|"));
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}



帕森斯|命中|三分球|随后|德拉季奇|斯科拉|跟进|得分|火箭|19-13|领先|进入|暂停|其中|包括|巴丁格|空接暴扣|但是|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板球|帕森斯|8分|爵士|哈沃德|12分|
mm.addWord("暴扣")帕森斯|命中|三分球|随后|德拉季奇|斯科拉|跟进|得分|火箭|19-13|领先|进入|暂停|其中|包括|巴丁格|空接|暴扣|但是|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板球|帕森斯|8分|爵士|哈沃德|12分|
MMAnalyzer(2)帕森斯|命中|三分|球|随后|德拉季奇|斯科拉|跟进|得分|火箭|19-13|领先|进入|暂停|包括|巴丁格|空接|暴扣|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板|球|帕森斯|8分|爵士|哈沃德|12分|
mm.addDictionary(sr)帕森斯|命中|三分|球|随后|德拉季奇|斯科|拉也|跟进|得分|火箭|19-13|领先|进入|暂停|包括|巴丁格|空接|暴扣|首|节结|束|时|火箭|还是|26-30|落后|爵士|队|火箭|坎|比|9分|6个|篮板|球|帕森斯|8分|爵士|哈沃德|12分|
 
分享到:
评论

相关推荐

    MMAnalyzer 相关jar包,java中文分词

    "MMAnalyzer"是一个专门针对Java开发的中文分词工具,它的出现解决了开发者在处理中文文本时遇到的难题。 MMAnalyzer是由Jeasy项目提供的一个组件,Jeasy是一个全面的Java开发框架,涵盖了多个子模块,包括数据分析...

    MMAnalyzer 分词jar包(lucene-core-2.4.1.jar je-analysis-1.5.3.jar)

    总的来说,MMAnalyzer是Java环境下基于Lucene的高效中文分词工具,它提供了简单易用的API,使得开发人员能够快速集成到自己的项目中,实现中文文本的高效处理。然而,随着技术的发展,更现代的分词库和更高级的分词...

    MMAnalyzer 分词必导入jar包(lucene-core-2.4.1.jar je-analysis-1.5.3.jar)

    MMAnalyzer是一个专门用于中文分词的工具,它基于Java实现,为开发者提供了便捷的分词服务。本篇文章将深入探讨MMAnalyzer的使用以及与之相关的两个核心JAR包:`jeasy.analysis.MMAnalyzer`和`lucene-core-2.4.1.jar...

    mmanalyzer

    **mmanalyzer** 是一个专为Java环境设计的分词工具,它提供了高效且便捷的文本处理能力,尤其适用于自然语言处理(NLP)任务。这个压缩包包含了mmanalyzer的核心组件及其必要的依赖包,使得用户可以直接将其导入到...

    MMAnalyzer分词jar包

    在Java环境中使用MMAnalyzer时,有两个重要的依赖库需要导入,这两个库在你提供的压缩包文件中已经包含:`je-analysis-1.5.3.jar`和`lucene-core-2.4.1.jar`。 `je-analysis-1.5.3.jar`是MMAnalyzer的主要库文件,...

    MMAnalyzer涉及的jar包 (2).zip

    在实际应用中,MMAnalyzer可以与Java项目无缝集成,通过调用其提供的API进行分词和索引操作。开发者可以根据需求调整分词策略,比如启用或禁用某些分词模式,以达到最佳的处理效果。 总结来说,MMAnalyzer是一个...

    Lucene中文分词组件 JE-Analysis 1.4.0

    import java.io.IOException; import jeasy.analysis.MMAnalyzer; public class Segment { public static void main(String[] args) { String text = "据路透社报道,印度尼西亚社会事务部一官员星期二(29日)...

    Lucene中文分词组件 JE-Analysis 1.5.1

    MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new MMAnalyzer(2); //字符串切分,常用于客户的关键字输入 ...

    luncene.rar

    网上MMAnalyzer资源太少了,大多数初学者都会少导入JAR包,并且网上只有 je-analysis-MMAnalyzer的例子,而没有依赖包lucene-core-2.4.1.jar je-analysis-1.5.3.jar以及 luncene-heghlighter-2.4.1.jar

    贝叶斯算法(文本分类算法)java源码借鉴.pdf

    在Java中实现贝叶斯算法,通常会涉及到以下几个关键步骤和组件: 1. **中文分词**:在处理中文文本时,首先需要对文本进行分词。`ChineseSpliter` 类使用了 `jeasy.analysis.MMAnalyzer` 进行中文分词。`MMAnalyzer...

    lucene-core-2.9.4.jar.zip

    标题中的"lucene-core-2.9.4.jar.zip"是一个包含Lucene核心库2.9.4版本的压缩文件,它在Java开发环境中扮演着关键角色,尤其是对于那些需要进行文本分析和索引的项目。描述中提到的问题,即初学者在使用MMAnalyzer时...

    lucene-suggest-4.9.0.jar

    lucene-suggest-4.9.0.jarl

    TFIDFjava代码

    这里使用了`MMAnalyzer`类进行中文分词,`MMAnalyzer`是jieba分词库中的一个实现,可以有效地对中文文本进行切分。分词结果存储在一个字符串数组中。 #### 2.4 计算TF-IDF 完成了文档内容的读取和分词后,接下来...

    TF*IDFjava实现

    ### TF-IDF Java 实现详解 #### 一、引言 TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用于信息检索与文本挖掘中的权重计算方法。它通过统计单词在文档中出现的频率以及在整个语料库中的逆文档...

    基于正向最大匹配和朴素贝叶斯算法的文本分类源码

    在提供的资源中,"je-analysis-1.5.3.jar"可能包含了FMM分词算法的实现,它是一个常用的Java中文分词库。 朴素贝叶斯算法则是一种基于概率的分类模型,其核心思想是假设特征之间相互独立,并且每个特征对分类结果的...

    lucene 分组统计

    这里定义了一个自定义的分析器 `MMAnalyzer`,它可以用来处理中文分词。 ##### 2. 创建索引 ```java IndexWriter writer = new IndexWriter(directory, newIndexWriterConfig(perFieldAnalyzer).setOpenMode(Open...

    Window下Solr1.4安装部署

    &lt;Environment name="solr/home" type="java.lang.String" value="D:\solr-tomcat\solr" override="true"/&gt; ``` - **注意事项**:`docBase`可以直接指向Solr目录。 ##### 6. 测试部署结果 - **访问地址**:通过...

Global site tag (gtag.js) - Google Analytics