openNLP（1）_分词

fuhao_987

浏览: 64973 次
性别:
来自: 北京

最近访客更多访客>>

april2015

dabingsou

heermu

活出精彩--耶

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Eclipse .net Apache HTML

前端时间看了一下openNLP，用了一下，把自己的体会写下来。。
首先，openNLP是关于自然语言处理的开源项目，可以用eclipse作为第三方插件，去它的官方网站http://incubator.apache.org/opennlp/index.html下载需要的包，或者直接去http://sourceforge.net/projects/opennlp/ 下载。导入三个包：maxent-3.0.0.jar，jwnl-1.3.3.jar，opennlp-tools-1.5.0.jar

下面说一下分词：
openNLP使用了不同的模型实现诸如分词，分句，标注。所以在使用之前需要下载对应的模型http://opennlp.sourceforge.net/models-1.5/
包括了六种语言。分词上我下的英文：en-token.bin加到项目中就可以了
分词的代码：
import java.io.*;
import opennlp.tools.tokenize.Tokenizer;
import opennlp.tools.tokenize.TokenizerME;
import opennlp.tools.tokenize.TokenizerModel;
/*
*输入：需要分词的字符串
*输出：字符串数组
*/
public String[] Token(String str){
try{
InputStream modelIn = new FileInputStream("en-token.bin");
TokenizerModel model = null;
try {
model = new TokenizerModel(modelIn);
}
catch (IOException e) {
e.printStackTrace();
}
finally {
if (modelIn != null) {
    try {
      modelIn.close();
    }
    catch (IOException e) {
    }
}
}
Tokenizer tokenizer = new TokenizerME(model);
String tokens[] = tokenizer.tokenize(str);
return tokens;
}
catch(FileNotFoundException e){return null;}
}
-----------------------------------------------------------------------------
了解的不深入，希望多多指教

0
顶

0
踩

分享到：

Penn Treebank Tags做点小翻译（上篇）

2011-01-22 22:57
浏览 6484
评论(3)
分类:编程语言
查看更多

3 楼 hr10108 2012-12-21

你好！我刚开始涉及OpenNLP，现在我想自己生成一个标记名字的modle，但生成一个new-bin之后却发现精确度太低了，是不是培养的数据太少了？（我培养了10万条，觉得应该够了啊！）
另外，我还试着培养一个有关商品的modle（如从亚马逊的商品介绍标题中提取关键字，主要为商品名）结果精确度更低，是不是这些title的词性排序太杂乱了，影响精度？

2 楼 fuhao_987 2011-03-24

stonechao 写道

你好，我也在用opennlp,想请教你一个问题，我现在有很多单词，不一定是原型，想把提取出它们的原形，能提供点建议么？

用词性标注？我翻译过openNLP词性标注参照的penn treebank tags。http://fuhao-987.iteye.com/blog/891698

1 楼 stonechao 2011-03-23

你好，我也在用opennlp,想请教你一个问题，我现在有很多单词，不一定是原型，想把提取出它们的原形，能提供点建议么？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

openNLP（1）_分词

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

openNLP（1）_分词

评论

发表评论

相关推荐

[转]文本分类入门（番外篇）特征选择与特征权重计算的区别

数据挖掘概念与技术_文本挖掘

利用k-menas来解释EM算法

统计自然语言处理基础_聚类

统计自然语言处理基础——学习摘要（1）

Penn Treebank Tags做点小翻译 （下篇）

Penn Treebank Tags做点小翻译 （上篇）

最近访客更多访客>>

Penn Treebank Tags做点小翻译（下篇）

Penn Treebank Tags做点小翻译（上篇）