`

paoding的分词使用

 
阅读更多

paoding下载

 

http://code.google.com/p/paoding/

 

 

 

paoding分词的默认配置

paoding-analysis-default.properties

配置全局的规则,{字典目录,切词规则}

 

paoding分词的字典指定

paoding-dic-home.properties

paoding自己的字典文件paoding/dic

x-noise-*.dic是过滤字典,存放分词时过滤词和字;其他dic是定义一个完整的词。

 

paoding分词的切词策略

paoding-knives.properties

 

 

paoding/dic/.compiled目录是生成二进制字典的目录,每次字典,过滤字典添加新词的时候,需要删除,运行paoding分词的时候会重新生成新的字典。

 

net.paoding.analysis.dictionary包目录维护字典的类

net.paoding.analysis.knife包目录定义了一些分词策略

 

 

net.paoding.analysis.knife.FileDictionaries

程序分词时,主要加载的字典

 

 

/**
 * 中文字典缓存根据地,为{@link CJKKnife}所用。<br>
 * 从本对象可以获取中文需要的相关字典。包括词汇表、姓氏表、计量单位表、忽略的词或单字等。
 * <p>
 * 
 * @author Zhiliang Wang [qieqie.wang@gmail.com]
 * 
 * @see CJKKnife
 * 
 * @since 1.0
 */
public class FileDictionaries implements Dictionaries {

	// -------------------------------------------------

	protected Log log = LogFactory.getLog(this.getClass());

	// -------------------------------------------------

	/**
	 * 词汇表字典
	 */
	protected Dictionary vocabularyDictionary;

	/**
	 * lantin+cjk的词典
	 */
	protected Dictionary combinatoricsDictionary;

	/**
	 * 姓氏字典
	 * 
	 */
	protected Dictionary confucianFamilyNamesDictionary;

	/**
	 * 忽略的单字
	 */
	protected Dictionary noiseCharactorsDictionary;

	/**
	 * 忽略的词语
	 * 
	 */
	protected Dictionary noiseWordsDictionary;

	/**
	 * 计量单位
	 */
	protected Dictionary unitsDictionary;
 

 

 

 

 

 

 

//分词
private String[] wordSegmentation(String text) {

                //应该用一个全局变量,可以复用

                Analyzer analyzer = new PaodingAnalyzer();

		List<String> tags = new ArrayList<String>();
                  
		TokenStream tokenStream = analyzer.tokenStream("text",
				new StringReader(text));
		CharTermAttribute termAtt = (CharTermAttribute) tokenStream
				.getAttribute(CharTermAttribute.class);
		try {
			while (tokenStream.incrementToken()) {
				tags.add(termAtt.toString());
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
		String[] asdfasdf = new String[tags.size()];
		tags.toArray(asdfasdf);
		return asdfasdf;
	}
 

 

 

 

 

分享到:
评论
1 楼 mr_von 2013-02-26  
非常感谢!

相关推荐

    庖丁分词jar包和dic目录

    - `Paoding中文分词参考手册.htm`:这可能是庖丁分词的用户手册或开发者指南,包含了详细的操作步骤、使用示例以及API文档,帮助用户理解和使用该工具。 - `lucene-core-3.1.0.jar`:这是Apache Lucene的核心库,一...

    庖丁分词jar包

    使用庖丁分词jar包的步骤大致包括以下几点: 1. **下载与引入**:首先,从官方网站或可靠的源获取paoding-analysis-2.0.0.jar包,并将其添加到项目的类路径(classpath)中,这可以通过IDE的依赖管理功能或者手动...

    庖丁分词.jar

    庖丁分词.jar 庖丁分词.jar 庖丁分词.jar 庖丁分词.jar

    lucene中文分词(庖丁解牛)庖丁分词

    5. 搜索优化:在搜索阶段,同样可以使用庖丁分词器对用户输入的查询进行预处理,提高搜索的精确度。 四、庖丁分词的高级特性 1. 自定义词典:除了预设的词典,还可以通过编程方式动态加载自定义词典,适应变化的...

    庖丁分词测试数据集 工具

    2. **分词操作**:使用庖丁分词对文本进行分词处理。 3. **结果比对**:将分词结果与预设的正确答案进行对比。 4. **性能计算**:根据比对结果计算准确率、召回率和F1值。 5. **参数调优**:根据评估结果调整分词...

    最新庖丁分词源代码(for lucene3.0)

    庖丁分词是一款知名的中文分词工具,专为Apache Lucene搜索引擎库设计和优化。Lucene是一个开源全文检索库,广泛应用于各种信息检索系统。在本压缩包中,你将找到针对Lucene 3.0版本优化的庖丁分词源代码。 1. **...

    庖丁解牛 中文分词工具

    用户在使用"庖丁解牛"时,可以通过运行位于软件包中名为`analyzer.bat`的批处理程序,输入中文文本,并即时获得分词效果,这大大提升了分词工具的实用性。这种方式为开发人员提供了一个便捷的测试平台,使他们能够...

    庖丁分词归类

    "庖丁分词归类"是一个基于Java的自然语言处理工具包,主要专注于文本分词和分类。在中文文本处理领域,分词是基础且关键的一环,它将连续的汉字序列切分成具有语义意义的词语,为后续的文本分析、信息提取、情感分析...

    庖丁分词工具

    庖丁中文分词需要一套词典,这些词典需要统一存储在某个目录下,这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录,它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。...

    庖丁解牛分词 java包

    在实际使用中,开发者可以通过调用庖丁解牛分词库提供的API,将待分词的文本输入,得到分词结果。同时,还可以根据需求自定义词典,优化分词效果。例如,对于特定领域或行业的文本,可以添加专业词汇到词典中,提高...

    庖丁解牛分词之自定义词库、庖丁解牛配置

    在提供的文件列表中,“庖丁解牛分词之自定义词库[自定义词典].htm”很可能是介绍如何创建和使用自定义词库的教程文档。通过阅读这个文件,开发者可以学习如何创建自己的词典文件,以及如何在庖丁解牛分词工具中进行...

    庖丁解牛,一种中文分词器

    在实际应用中,"庖丁解牛"分词器提供了多种使用方式,如命令行工具、Java API以及与各种NLP框架的整合。通过这些接口,开发者可以轻松地将分词功能融入到自己的应用中,例如搜索引擎、文本分析系统或者智能聊天...

    支持lucne4.X的庖丁分词jar包

    支持lucne4.X的庖丁分词jar包,自己打的jar包,保准好用

    sorlr + tomcat+ 庖丁解牛中文分词 配置文档

    总结来说,这个配置文档应该包含了如何在Tomcat上部署Solr,以及如何配置Solr以使用庖丁解牛分词器进行中文处理的详细步骤。这对于需要处理大量中文数据的搜索应用开发者来说,是一份非常实用的参考资料。通过阅读...

    庖丁中文分词在VB.NET的使用例子方法

    `pangu_xml`变量存储了DLL文件的完整路径,这是初始化庖丁分词器时所必需的参数。 接下来,通过`PanGu.Segment.Init(pangu_xml)`进行初始化操作,加载庖丁的配置文件和模型数据。一旦初始化完成,就可以创建一个`...

    庖丁解牛分词源码

    "庖丁解牛分词器"是一款著名的中文分词工具,源自开源社区,因其高效的性能和灵活的应用场景而广受欢迎。在深入理解其源码的过程中,我们可以了解到许多关于自然语言处理(NLP)和Java编程的知识点。 1. **中文分词...

    paoding analysis 3.0.1 jar (庖丁解牛分词器)

    由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...

    Lucene使用

    庖丁分词 使用 paoding-analysis-2.0.4-beta.zip 版时异常 Exception in thread "main" java.lang.AbstractMethodError: org.apache.lucene.analysis.TokenStream.incrementToken()Z 换用svn里源码版正常 ...

    Lucene3.0以上版本庖丁解牛分词法demo

    最新庖丁解牛分词法的使用demo,支持Lucene3.3、3.4等3.0以上版本,庖丁解牛的分词包为自己编译生成的,之前的2.0的版本不能支持Lucene3.0以上版本,所以需要从svn下载最新的庖丁解牛源码,生成jar文件(我同样已...

    lucene 中文分词 庖丁解牛

    3. Snowball Analyzer:基于Lucene的分词器,支持多国语言,但对中文支持有限,需配合其他中文分词库使用。 4. PKUAnnotator:北京大学开发的中文分词系统,具有较高的准确率和召回率。 五、选择与优化 不同的分词...

Global site tag (gtag.js) - Google Analytics