lucene MMAnalyzer 实现中文分词 - JAVA for GIS - ITeye博客

`

winzenghua

浏览: 1430240 次
性别:
来自: 广州

最近访客更多访客>>

atianchen

u012363178

wangyy

u654f

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (1825)

社区版块

存档分类

最新评论

yaya_wiscom：简直是居家旅行、朋友聚会之必备良药，那么请问哪里才能下载到呢？ ...
上周末把Css中文手册 + 2天驾驭div+css(全新发布2.0.1版本).pdf看完了.强烈推荐2天驾驭div+css(全新发布2.0.1版本).pdf
lsw521314：麻烦把包贴出来，谢谢了
lucene MMAnalyzer 实现中文分词
lsw521314：亲，能不能把包传上来啊？谢了
Lucene2.2 + MMAnalyzer 1.5 实现中文分词并排序
wuhen1230：博客没有分类，看着太累了。希望博主可怜一下我们受伤的眼睛。
Clozure CL中使用 hunchentoot 及中文编码的小技巧
凤凰山：这种简历就是糊弄下人，根本就是认真想去应聘的人搞的，疯子什么时 ...
强！赶紧拜读一下月薪要求15000的农民工简历吧……

lucene MMAnalyzer 实现中文分词

lucene Apache thread

阅读更多

先上代码：

import java.io.IOException; import jeasy.analysis.MMAnalyzer; /** * 此次测试使用的是Lucene2.2 * @author 李晗 * */ public class Test { public static void main(String[] args) { String text = "休斯敦火箭在客场挑战森林狼本赛季两队交手两次火箭在主客场两战全胜"; MMAnalyzer analyzer = new MMAnalyzer(); try { System.out.println(analyzer.segment(text, " | ")); } catch (IOException e) { e.printStackTrace(); } } }

输出：休斯敦 | 火箭 | 客场 | 挑战 | 森林 | 狼 | 本 | 赛季 | 两队 | 交手 | 两次 | 火箭 | 主 | 客场 | 两战 | 全胜 |

首先应该下载一个 mmanalyzer, 对应的lucene版本应该是1.9到2.4之间，即既不能用老版本也不能用新的版本。真搞不懂lucene怎么维护的这些…… 反正1.4 不适合，3.0 不适合。

如果用不合适的版本会出现error：

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.StopFilter.<init>(Lorg/apache/lucene/analysis/TokenStream;Ljava/util/Set;Z)V
at jeasy.analysis.MMAnalyzer.tokenStream(Unknown Source:28)
at jeasy.analysis.lIlllIIIIIllIlII.segment(Unknown Source:209)
at Test.main(Test.java:20)

分享到：

Lucene2.2 + MMAnalyzer 1.5 实现中文分 ... | Lucene中一些英文分析器 Analyzer

2010-03-07 10:30
浏览 2011
评论(1)
查看更多

评论

1 楼 lsw521314 2012-07-13

麻烦把包贴出来，谢谢了

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

MMAnalyzer 分词jar包（lucene-core-2.4.1.jar je-analysis-1.5.3.jar）: 总的来说，MMAnalyzer是Java环境下基于Lucene的高效中文分词工具，它提供了简单易用的API，使得开发人员能够快速集成到自己的项目中，实现中文文本的高效处理。然而，随着技术的发展，更现代的分词库和更高级的分词...

MMAnalyzer分词jar包: `je-analysis-1.5.3.jar`是MMAnalyzer的主要库文件，包含了MMAnalyzer分词器的实现和相关的辅助类。这个库提供了分词接口，开发者可以通过调用这些接口来对输入的中文文本进行分词操作。它还包含了各种分词模型，...

MMAnalyzer 分词必导入jar包（lucene-core-2.4.1.jar je-analysis-1.5.3.jar）: MMAnalyzer是一个专门用于中文分词的工具，它基于Java实现，为开发者提供了便捷的分词服务。本篇文章将深入探讨MMAnalyzer的使用以及与之相关的两个核心JAR包：`jeasy.analysis.MMAnalyzer`和`lucene-core-2.4.1.jar...

Lucene中文分词组件 JE-Analysis 1.5.1: //采用正向最大匹配的中文分词算法，相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度：当字数等于或超过该参数，且能成词，该词就被切分出来 MMAnalyzer analyzer = new ...

MMAnalyzer涉及的jar包 (2).zip: MMAnalyzer的主要功能是进行中文分词，即把连续的汉字序列切分成具有语义的独立单元，这是中文信息处理的基础步骤。其设计理念是兼顾准确性和效率，使得在处理大量文本数据时仍能保持较高的性能。在提供的压缩包...

Lucene中文分词组件 JE-Analysis 1.4.0: 分词效率：第一次分词需要1－2秒（读取词典），之后速度基本与Lucene自带分词持平运行环境： Lucene 1.9+ 内存消耗： 30M+ 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07...

lucene-core-2.9.4.jar.zip: MMAnalyzer是Lucene中的一种分词器，它主要用于中文文本的处理。由于中文的特殊性，分词是中文信息处理的一大挑战。MMAnalyzer采用的是基于词语的分词方法，它在处理中文文本时，会将句子切分成一个个独立的词语，这...

lucene 分组统计: 这里定义了一个自定义的分析器 `MMAnalyzer`，它可以用来处理中文分词。 ##### 2. 创建索引 ```java IndexWriter writer = new IndexWriter(directory, newIndexWriterConfig(perFieldAnalyzer).setOpenMode(Open...

lucene-初级学习资料.ppt: 在这个过程中，Lucene 对文本进行分词、标准化处理，并将其存储为倒排索引形式，以便于后续的搜索操作。例如，在提供的代码片段中，`FileIndexer` 类展示了如何使用 Lucene 创建索引。它首先读取文件内容，然后创建 ...

Lucene学习总结: 1. 分词：Lucene使用分析器（Analyzer）将原始文本分解为有意义的单元，如单词或短语。在示例中，使用了`MMAnalyzer`，它可能是自定义或特定语言的分析器。分析器可以处理诸如词汇规范化（lowercasing）、去除停用词...

基于正向最大匹配和朴素贝叶斯算法的文本分类源码: 在提供的资源中，"je-analysis-1.5.3.jar"可能包含了FMM分词算法的实现，它是一个常用的Java中文分词库。朴素贝叶斯算法则是一种基于概率的分类模型，其核心思想是假设特征之间相互独立，并且每个特征对分类结果的...

Window下Solr1.4安装部署: 配置中文分词 - **Jar包放置**：将`je-analysis.jar`放置到`d:\tomcat5\webapps\solr\WEB-INF\lib`目录下。 - **Schema.xml修改**： - 在`D:\solr-tomcat\solr\conf\schema.xml`中添加以下内容： ```xml ...

Global site tag (gtag.js) - Google Analytics