paoding下载
http://code.google.com/p/paoding/
paoding分词的默认配置
paoding-analysis-default.properties
配置全局的规则,{字典目录,切词规则}
paoding分词的字典指定
paoding-dic-home.properties
paoding自己的字典文件paoding/dic
x-noise-*.dic是过滤字典,存放分词时过滤词和字;其他dic是定义一个完整的词。
paoding分词的切词策略
paoding-knives.properties
paoding/dic/.compiled目录是生成二进制字典的目录,每次字典,过滤字典添加新词的时候,需要删除,运行paoding分词的时候会重新生成新的字典。
net.paoding.analysis.dictionary包目录维护字典的类
net.paoding.analysis.knife包目录定义了一些分词策略
net.paoding.analysis.knife.FileDictionaries
程序分词时,主要加载的字典
/**
* 中文字典缓存根据地,为{@link CJKKnife}所用。<br>
* 从本对象可以获取中文需要的相关字典。包括词汇表、姓氏表、计量单位表、忽略的词或单字等。
* <p>
*
* @author Zhiliang Wang [qieqie.wang@gmail.com]
*
* @see CJKKnife
*
* @since 1.0
*/
public class FileDictionaries implements Dictionaries {
// -------------------------------------------------
protected Log log = LogFactory.getLog(this.getClass());
// -------------------------------------------------
/**
* 词汇表字典
*/
protected Dictionary vocabularyDictionary;
/**
* lantin+cjk的词典
*/
protected Dictionary combinatoricsDictionary;
/**
* 姓氏字典
*
*/
protected Dictionary confucianFamilyNamesDictionary;
/**
* 忽略的单字
*/
protected Dictionary noiseCharactorsDictionary;
/**
* 忽略的词语
*
*/
protected Dictionary noiseWordsDictionary;
/**
* 计量单位
*/
protected Dictionary unitsDictionary;
//分词
private String[] wordSegmentation(String text) {
//应该用一个全局变量,可以复用
Analyzer analyzer = new PaodingAnalyzer();
List<String> tags = new ArrayList<String>();
TokenStream tokenStream = analyzer.tokenStream("text",
new StringReader(text));
CharTermAttribute termAtt = (CharTermAttribute) tokenStream
.getAttribute(CharTermAttribute.class);
try {
while (tokenStream.incrementToken()) {
tags.add(termAtt.toString());
}
} catch (IOException e) {
e.printStackTrace();
}
String[] asdfasdf = new String[tags.size()];
tags.toArray(asdfasdf);
return asdfasdf;
}
分享到:
相关推荐
- `Paoding中文分词参考手册.htm`:这可能是庖丁分词的用户手册或开发者指南,包含了详细的操作步骤、使用示例以及API文档,帮助用户理解和使用该工具。 - `lucene-core-3.1.0.jar`:这是Apache Lucene的核心库,一...
使用庖丁分词jar包的步骤大致包括以下几点: 1. **下载与引入**:首先,从官方网站或可靠的源获取paoding-analysis-2.0.0.jar包,并将其添加到项目的类路径(classpath)中,这可以通过IDE的依赖管理功能或者手动...
庖丁分词.jar 庖丁分词.jar 庖丁分词.jar 庖丁分词.jar
5. 搜索优化:在搜索阶段,同样可以使用庖丁分词器对用户输入的查询进行预处理,提高搜索的精确度。 四、庖丁分词的高级特性 1. 自定义词典:除了预设的词典,还可以通过编程方式动态加载自定义词典,适应变化的...
2. **分词操作**:使用庖丁分词对文本进行分词处理。 3. **结果比对**:将分词结果与预设的正确答案进行对比。 4. **性能计算**:根据比对结果计算准确率、召回率和F1值。 5. **参数调优**:根据评估结果调整分词...
庖丁分词是一款知名的中文分词工具,专为Apache Lucene搜索引擎库设计和优化。Lucene是一个开源全文检索库,广泛应用于各种信息检索系统。在本压缩包中,你将找到针对Lucene 3.0版本优化的庖丁分词源代码。 1. **...
用户在使用"庖丁解牛"时,可以通过运行位于软件包中名为`analyzer.bat`的批处理程序,输入中文文本,并即时获得分词效果,这大大提升了分词工具的实用性。这种方式为开发人员提供了一个便捷的测试平台,使他们能够...
"庖丁分词归类"是一个基于Java的自然语言处理工具包,主要专注于文本分词和分类。在中文文本处理领域,分词是基础且关键的一环,它将连续的汉字序列切分成具有语义意义的词语,为后续的文本分析、信息提取、情感分析...
庖丁中文分词需要一套词典,这些词典需要统一存储在某个目录下,这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录,它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。...
在实际使用中,开发者可以通过调用庖丁解牛分词库提供的API,将待分词的文本输入,得到分词结果。同时,还可以根据需求自定义词典,优化分词效果。例如,对于特定领域或行业的文本,可以添加专业词汇到词典中,提高...
在提供的文件列表中,“庖丁解牛分词之自定义词库[自定义词典].htm”很可能是介绍如何创建和使用自定义词库的教程文档。通过阅读这个文件,开发者可以学习如何创建自己的词典文件,以及如何在庖丁解牛分词工具中进行...
在实际应用中,"庖丁解牛"分词器提供了多种使用方式,如命令行工具、Java API以及与各种NLP框架的整合。通过这些接口,开发者可以轻松地将分词功能融入到自己的应用中,例如搜索引擎、文本分析系统或者智能聊天...
支持lucne4.X的庖丁分词jar包,自己打的jar包,保准好用
总结来说,这个配置文档应该包含了如何在Tomcat上部署Solr,以及如何配置Solr以使用庖丁解牛分词器进行中文处理的详细步骤。这对于需要处理大量中文数据的搜索应用开发者来说,是一份非常实用的参考资料。通过阅读...
`pangu_xml`变量存储了DLL文件的完整路径,这是初始化庖丁分词器时所必需的参数。 接下来,通过`PanGu.Segment.Init(pangu_xml)`进行初始化操作,加载庖丁的配置文件和模型数据。一旦初始化完成,就可以创建一个`...
"庖丁解牛分词器"是一款著名的中文分词工具,源自开源社区,因其高效的性能和灵活的应用场景而广受欢迎。在深入理解其源码的过程中,我们可以了解到许多关于自然语言处理(NLP)和Java编程的知识点。 1. **中文分词...
由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...
庖丁分词 使用 paoding-analysis-2.0.4-beta.zip 版时异常 Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.TokenStream.incrementToken()Z 换用svn里源码版正常 ...
最新庖丁解牛分词法的使用demo,支持Lucene3.3、3.4等3.0以上版本,庖丁解牛的分词包为自己编译生成的,之前的2.0的版本不能支持Lucene3.0以上版本,所以需要从svn下载最新的庖丁解牛源码,生成jar文件(我同样已...
3. Snowball Analyzer:基于Lucene的分词器,支持多国语言,但对中文支持有限,需配合其他中文分词库使用。 4. PKUAnnotator:北京大学开发的中文分词系统,具有较高的准确率和召回率。 五、选择与优化 不同的分词...