lucene MMAnalyzer 实现中文分词 - 技术代码资料库 - ITeye博客

`

ihuashao

浏览: 4783238 次
性别:
来自: 济南

最近访客更多访客>>

morelily

cyj1988jyc

u012363178

bcrun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wahahachuang8： GoEasy 实时推送支持IE6-IE11及大多数主流浏览器的 ...
服务器推送技术
pdztop： inffas32.asm(594) inffas32.asm( ...
zlib 在 Visual Studio 2005 下编译失败的解决办法
myangle89：这个方法有效果，但还是绕了一大圈。另外：如果每次这样使用，会造 ...
利用 Spring 与 Log4J 巧妙地进行动态日志配置切换并立即生效
lsw521314：亲，请把用到的包贴出来好么？这版本问题搞得我头大······· ...
lucene MMAnalyzer 实现中文分词
guji528：多命令执行：cmd /k reg delete "H ...
REG Command in Windows XP - Windows XP REG命令的作用和用法

lucene MMAnalyzer 实现中文分词

lucene Apache thread

阅读更多

先上代码：

import java.io.IOException; import jeasy.analysis.MMAnalyzer; /** * 此次测试使用的是Lucene2.2 * @author 李晗 * */ public class Test { public static void main(String[] args) { String text = "休斯敦火箭在客场挑战森林狼本赛季两队交手两次火箭在主客场两战全胜"; MMAnalyzer analyzer = new MMAnalyzer(); try { System.out.println(analyzer.segment(text, " | ")); } catch (IOException e) { e.printStackTrace(); } } }

输出：休斯敦 | 火箭 | 客场 | 挑战 | 森林 | 狼 | 本 | 赛季 | 两队 | 交手 | 两次 | 火箭 | 主 | 客场 | 两战 | 全胜 |

首先应该下载一个 mmanalyzer, 对应的lucene版本应该是1.9到2.4之间，即既不能用老版本也不能用新的版本。真搞不懂lucene怎么维护的这些…… 反正1.4 不适合，3.0 不适合。

如果用不合适的版本会出现error：

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.StopFilter.<init>(Lorg/apache/lucene/analysis/TokenStream;Ljava/util/Set;Z)V
at jeasy.analysis.MMAnalyzer.tokenStream(Unknown Source:28)
at jeasy.analysis.lIlllIIIIIllIlII.segment(Unknown Source:209)
at Test.main(Test.java:20)

分享到：

心灵的呼唤 - Cuchulainn | PHP 的字符集编码问题

2010-03-07 10:30
浏览 1408
评论(1)
查看更多

评论

1 楼 lsw521314 2012-07-13

亲，请把用到的包贴出来好么？这版本问题搞得我头大········，谢谢了

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

MMAnalyzer 分词jar包（lucene-core-2.4.1.jar je-analysis-1.5.3.jar）: 总的来说，MMAnalyzer是Java环境下基于Lucene的高效中文分词工具，它提供了简单易用的API，使得开发人员能够快速集成到自己的项目中，实现中文文本的高效处理。然而，随着技术的发展，更现代的分词库和更高级的分词...

MMAnalyzer分词jar包: `je-analysis-1.5.3.jar`是MMAnalyzer的主要库文件，包含了MMAnalyzer分词器的实现和相关的辅助类。这个库提供了分词接口，开发者可以通过调用这些接口来对输入的中文文本进行分词操作。它还包含了各种分词模型，...

MMAnalyzer 分词必导入jar包（lucene-core-2.4.1.jar je-analysis-1.5.3.jar）: MMAnalyzer是一个专门用于中文分词的工具，它基于Java实现，为开发者提供了便捷的分词服务。本篇文章将深入探讨MMAnalyzer的使用以及与之相关的两个核心JAR包：`jeasy.analysis.MMAnalyzer`和`lucene-core-2.4.1.jar...

Lucene中文分词组件 JE-Analysis 1.5.1: //采用正向最大匹配的中文分词算法，相当于分词粒度等于0 MMAnalyzer analyzer = new MMAnalyzer(); //参数为分词粒度：当字数等于或超过该参数，且能成词，该词就被切分出来 MMAnalyzer analyzer = new ...

MMAnalyzer涉及的jar包 (2).zip: MMAnalyzer的主要功能是进行中文分词，即把连续的汉字序列切分成具有语义的独立单元，这是中文信息处理的基础步骤。其设计理念是兼顾准确性和效率，使得在处理大量文本数据时仍能保持较高的性能。在提供的压缩包...

Lucene中文分词组件 JE-Analysis 1.4.0: 分词效率：第一次分词需要1－2秒（读取词典），之后速度基本与Lucene自带分词持平运行环境： Lucene 1.9+ 内存消耗： 30M+ 1.4.0 —— 2006-08-21 增加词典的动态扩展能力 1.3.3 —— 2006-07...

lucene-core-2.9.4.jar.zip: MMAnalyzer是Lucene中的一种分词器，它主要用于中文文本的处理。由于中文的特殊性，分词是中文信息处理的一大挑战。MMAnalyzer采用的是基于词语的分词方法，它在处理中文文本时，会将句子切分成一个个独立的词语，这...

lucene 分组统计: 这里定义了一个自定义的分析器 `MMAnalyzer`，它可以用来处理中文分词。 ##### 2. 创建索引 ```java IndexWriter writer = new IndexWriter(directory, newIndexWriterConfig(perFieldAnalyzer).setOpenMode(Open...

lucene-初级学习资料.ppt: 在这个过程中，Lucene 对文本进行分词、标准化处理，并将其存储为倒排索引形式，以便于后续的搜索操作。例如，在提供的代码片段中，`FileIndexer` 类展示了如何使用 Lucene 创建索引。它首先读取文件内容，然后创建 ...

Lucene学习总结: 1. 分词：Lucene使用分析器（Analyzer）将原始文本分解为有意义的单元，如单词或短语。在示例中，使用了`MMAnalyzer`，它可能是自定义或特定语言的分析器。分析器可以处理诸如词汇规范化（lowercasing）、去除停用词...

基于正向最大匹配和朴素贝叶斯算法的文本分类源码: 在提供的资源中，"je-analysis-1.5.3.jar"可能包含了FMM分词算法的实现，它是一个常用的Java中文分词库。朴素贝叶斯算法则是一种基于概率的分类模型，其核心思想是假设特征之间相互独立，并且每个特征对分类结果的...

Window下Solr1.4安装部署: 配置中文分词 - **Jar包放置**：将`je-analysis.jar`放置到`d:\tomcat5\webapps\solr\WEB-INF\lib`目录下。 - **Schema.xml修改**： - 在`D:\solr-tomcat\solr\conf\schema.xml`中添加以下内容： ```xml ...

Global site tag (gtag.js) - Google Analytics