`
winzenghua
  • 浏览: 1370304 次
  • 性别: Icon_minigender_2
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

lucene MMAnalyzer 实现中文分词

阅读更多

先上代码:

输出:休斯敦 | 火箭 | 客场 | 挑战 | 森林 | 狼 | 本 | 赛季 | 两队 | 交手 | 两次 | 火箭 | 主 | 客场 | 两战 | 全胜 |

首先应该下载一个 mmanalyzer, 对应的lucene版本应该是1.9到2.4之间,即既不能用老版本也不能用新的版本。 真搞不懂lucene怎么维护的这些…… 反正1.4 不适合,3.0 不适合。

如果用不合适的版本会出现error:

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.StopFilter.<init>(Lorg/apache/lucene/analysis/TokenStream;Ljava/util/Set;Z)V
at jeasy.analysis.MMAnalyzer.tokenStream(Unknown Source:28)
at jeasy.analysis.lIlllIIIIIllIlII.segment(Unknown Source:209)
at Test.main(Test.java:20)

分享到:
评论
1 楼 lsw521314 2012-07-13  
麻烦把包贴出来,谢谢了

相关推荐

    MMAnalyzer 分词jar包(lucene-core-2.4.1.jar je-analysis-1.5.3.jar)

    总的来说,MMAnalyzer是Java环境下基于Lucene的高效中文分词工具,它提供了简单易用的API,使得开发人员能够快速集成到自己的项目中,实现中文文本的高效处理。然而,随着技术的发展,更现代的分词库和更高级的分词...

    MMAnalyzer分词jar包

    `je-analysis-1.5.3.jar`是MMAnalyzer的主要库文件,包含了MMAnalyzer分词器的实现和相关的辅助类。这个库提供了分词接口,开发者可以通过调用这些接口来对输入的中文文本进行分词操作。它还包含了各种分词模型,...

    MMAnalyzer 分词必导入jar包(lucene-core-2.4.1.jar je-analysis-1.5.3.jar)

    MMAnalyzer是一个专门用于中文分词的工具,它基于Java实现,为开发者提供了便捷的分词服务。本篇文章将深入探讨MMAnalyzer的使用以及与之相关的两个核心JAR包:`jeasy.analysis.MMAnalyzer`和`lucene-core-2.4.1.jar...

    Lucene中文分词组件 JE-Analysis 1.5.1

    //采用正向最大匹配的中文分词算法,相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来 MMAnalyzer analyzer = new ...

    MMAnalyzer涉及的jar包 (2).zip

    MMAnalyzer的主要功能是进行中文分词,即把连续的汉字序列切分成具有语义的独立单元,这是中文信息处理的基础步骤。其设计理念是兼顾准确性和效率,使得在处理大量文本数据时仍能保持较高的性能。 在提供的压缩包...

    Lucene中文分词组件 JE-Analysis 1.4.0

    分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平 运行环境: Lucene 1.9+ 内存消耗: 30M+ 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07...

    lucene-core-2.9.4.jar.zip

    MMAnalyzer是Lucene中的一种分词器,它主要用于中文文本的处理。由于中文的特殊性,分词是中文信息处理的一大挑战。MMAnalyzer采用的是基于词语的分词方法,它在处理中文文本时,会将句子切分成一个个独立的词语,这...

    lucene 分组统计

    这里定义了一个自定义的分析器 `MMAnalyzer`,它可以用来处理中文分词。 ##### 2. 创建索引 ```java IndexWriter writer = new IndexWriter(directory, newIndexWriterConfig(perFieldAnalyzer).setOpenMode(Open...

    lucene-初级学习资料.ppt

    在这个过程中,Lucene 对文本进行分词、标准化处理,并将其存储为倒排索引形式,以便于后续的搜索操作。例如,在提供的代码片段中,`FileIndexer` 类展示了如何使用 Lucene 创建索引。它首先读取文件内容,然后创建 ...

    Lucene学习总结

    1. 分词:Lucene使用分析器(Analyzer)将原始文本分解为有意义的单元,如单词或短语。在示例中,使用了`MMAnalyzer`,它可能是自定义或特定语言的分析器。分析器可以处理诸如词汇规范化(lowercasing)、去除停用词...

    基于正向最大匹配和朴素贝叶斯算法的文本分类源码

    在提供的资源中,"je-analysis-1.5.3.jar"可能包含了FMM分词算法的实现,它是一个常用的Java中文分词库。 朴素贝叶斯算法则是一种基于概率的分类模型,其核心思想是假设特征之间相互独立,并且每个特征对分类结果的...

    Window下Solr1.4安装部署

    配置中文分词 - **Jar包放置**:将`je-analysis.jar`放置到`d:\tomcat5\webapps\solr\WEB-INF\lib`目录下。 - **Schema.xml修改**: - 在`D:\solr-tomcat\solr\conf\schema.xml`中添加以下内容: ```xml ...

Global site tag (gtag.js) - Google Analytics