先上代码:
输出:休斯敦 | 火箭 | 客场 | 挑战 | 森林 | 狼 | 本 | 赛季 | 两队 | 交手 | 两次 | 火箭 | 主 | 客场 | 两战 | 全胜 |
首先应该下载一个 mmanalyzer, 对应的lucene版本应该是1.9到2.4之间,即既不能用老版本也不能用新的版本。 真搞不懂lucene怎么维护的这些…… 反正1.4 不适合,3.0 不适合。
如果用不合适的版本会出现error:
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.StopFilter.<init>(Lorg/apache/lucene/analysis/TokenStream;Ljava/util/Set;Z)V
at jeasy.analysis.MMAnalyzer.tokenStream(Unknown Source:28)
at jeasy.analysis.lIlllIIIIIllIlII.segment(Unknown Source:209)
at Test.main(Test.java:20)
分享到:
相关推荐
总的来说,MMAnalyzer是Java环境下基于Lucene的高效中文分词工具,它提供了简单易用的API,使得开发人员能够快速集成到自己的项目中,实现中文文本的高效处理。然而,随着技术的发展,更现代的分词库和更高级的分词...
`je-analysis-1.5.3.jar`是MMAnalyzer的主要库文件,包含了MMAnalyzer分词器的实现和相关的辅助类。这个库提供了分词接口,开发者可以通过调用这些接口来对输入的中文文本进行分词操作。它还包含了各种分词模型,...
MMAnalyzer是一个专门用于中文分词的工具,它基于Java实现,为开发者提供了便捷的分词服务。本篇文章将深入探讨MMAnalyzer的使用以及与之相关的两个核心JAR包:`jeasy.analysis.MMAnalyzer`和`lucene-core-2.4.1.jar...
//采用正向最大匹配的中文分词算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new ...
MMAnalyzer的主要功能是进行中文分词,即把连续的汉字序列切分成具有语义的独立单元,这是中文信息处理的基础步骤。其设计理念是兼顾准确性和效率,使得在处理大量文本数据时仍能保持较高的性能。 在提供的压缩包...
分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平 运行环境: Lucene 1.9+ 内存消耗: 30M+ 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07...
MMAnalyzer是Lucene中的一种分词器,它主要用于中文文本的处理。由于中文的特殊性,分词是中文信息处理的一大挑战。MMAnalyzer采用的是基于词语的分词方法,它在处理中文文本时,会将句子切分成一个个独立的词语,这...
这里定义了一个自定义的分析器 `MMAnalyzer`,它可以用来处理中文分词。 ##### 2. 创建索引 ```java IndexWriter writer = new IndexWriter(directory, newIndexWriterConfig(perFieldAnalyzer).setOpenMode(Open...
在这个过程中,Lucene 对文本进行分词、标准化处理,并将其存储为倒排索引形式,以便于后续的搜索操作。例如,在提供的代码片段中,`FileIndexer` 类展示了如何使用 Lucene 创建索引。它首先读取文件内容,然后创建 ...
1. 分词:Lucene使用分析器(Analyzer)将原始文本分解为有意义的单元,如单词或短语。在示例中,使用了`MMAnalyzer`,它可能是自定义或特定语言的分析器。分析器可以处理诸如词汇规范化(lowercasing)、去除停用词...
在提供的资源中,"je-analysis-1.5.3.jar"可能包含了FMM分词算法的实现,它是一个常用的Java中文分词库。 朴素贝叶斯算法则是一种基于概率的分类模型,其核心思想是假设特征之间相互独立,并且每个特征对分类结果的...
配置中文分词 - **Jar包放置**:将`je-analysis.jar`放置到`d:\tomcat5\webapps\solr\WEB-INF\lib`目录下。 - **Schema.xml修改**: - 在`D:\solr-tomcat\solr\conf\schema.xml`中添加以下内容: ```xml ...