`

配置paoding analysis

    博客分类:
  • java
阅读更多

在开源中文analysis,我选择了paoding analysis,link:http://code.google.com/p/paoding
配置如下:
在CLASSPATH 上面加入:E:\eclipse\paoding-analysis.properties
在用户变量加入:PAODING_DIC_HOME=》E:\dic
把dic文件,就是字词文本文件放到对应的目录。

测试代码:

Java代码 复制代码
  1. package test;   
  2.   
  3. import java.io.IOException;   
  4. import java.io.Reader;   
  5. import java.io.StringReader;   
  6.   
  7. import net.paoding.analysis.analyzer.PaodingAnalyzer;   
  8. import net.paoding.analysis.analyzer.PaodingTokenizer;   
  9.   
  10. import org.apache.lucene.analysis.Analyzer;   
  11. import org.apache.lucene.analysis.Token;   
  12.   
  13. public class Test1 {   
  14.     public static void main(String[] argv){   
  15.         Analyzer analyzer = new PaodingAnalyzer();   
  16.         String testString = "中华人民共和国";   
  17.         Reader r = new StringReader(testString);   
  18.         PaodingTokenizer ts = (PaodingTokenizer) analyzer.tokenStream("", r);   
  19.            
  20.         Token t;   
  21.         try {   
  22.             while((t = ts.next()) != null){   
  23.                 System.out.println(t);   
  24.             }   
  25.         } catch (IOException e) {   
  26.             e.printStackTrace();   
  27.         }   
  28.     }   
  29. }  
package test;

import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;

import net.paoding.analysis.analyzer.PaodingAnalyzer;
import net.paoding.analysis.analyzer.PaodingTokenizer;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;

public class Test1 {
	public static void main(String[] argv){
		Analyzer analyzer = new PaodingAnalyzer();
		String testString = "中华人民共和国";
		Reader r = new StringReader(testString);
		PaodingTokenizer ts = (PaodingTokenizer) analyzer.tokenStream("", r);
		
		Token t;
		try {
			while((t = ts.next()) != null){
				System.out.println(t);
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}



结果:

Java代码 复制代码
  1. (中华,0,2)   
  2. (华人,1,3)   
  3. (人民,2,4)   
  4. (共和,4,6)   
  5. (共和国,4,7)   
  6. log4j:WARN No appenders could be found for logger (net.paoding.analysis.knife.PaodingMaker).   
  7. log4j:WARN Please initialize the log4j system properly. 
分享到:
评论
4 楼 whlngn 2012-03-18  
输出结果我只想取汉字,而不要后面的数字,应该如何实现,求回答
3 楼 enica 2009-12-02  
文件夹路径有中文  %e5%ba%96%e4%b8%81%e8%a7%a3%e7%89%9b
我换了一个目录就ok了
2 楼 rongxh7 2009-07-12  
madonglingyan 写道
你好。我在eclipse里面用的庖丁解牛。然后会报这种错误
error in handler path=file:/G:/My Documents/%e5%ba%96%e4%b8%81%e8%a7%a3%e7%89%9b/paoding-analysis.jar!/paoding-analysis.properties
error in handler jarPath=/G:/My Documents/%e5%ba%96%e4%b8%81%e8%a7%a3%e7%89%9b/paoding-analysis.jar
Exception in thread "main" net.paoding.analysis.exception.PaodingAnalysisException: java.io.FileNotFoundException: G:\My Documents\%e5%ba%96%e4%b8%81%e8%a7%a3%e7%89%9b\paoding-analysis.jar (系统找不到指定的路径。)
at net.paoding.analysis.knife.PaodingMaker.getProperties(PaodingMaker.java:140)
at net.paoding.analysis.analyzer.PaodingAnalyzer.init(PaodingAnalyzer.java:70)
at net.paoding.analysis.analyzer.PaodingAnalyzer.<init>(PaodingAnalyzer.java:59)
at net.paoding.analysis.analyzer.PaodingAnalyzer.<init>(PaodingAnalyzer.java:52)
at sliversearch.Lucene.index(Lucene.java:26)
at sliversearch.Lucene.main(Lucene.java:132)
Caused by: java.io.FileNotFoundException: G:\My Documents\%e5%ba%96%e4%b8%81%e8%a7%a3%e7%89%9b\paoding-analysis.jar (系统找不到指定的路径。)
at java.util.zip.ZipFile.open(Native Method)
at java.util.zip.ZipFile.<init>(ZipFile.java:114)
at java.util.jar.JarFile.<init>(JarFile.java:133)
at java.util.jar.JarFile.<init>(JarFile.java:97)
at net.paoding.analysis.knife.PaodingMaker.getFileLastModified(PaodingMaker.java:248)
at net.paoding.analysis.knife.PaodingMaker.loadProperties(PaodingMaker.java:210)
at net.paoding.analysis.knife.PaodingMaker.getProperties(PaodingMaker.java:130)
... 5 more


可是我明明已经把这些properties文件考进去了啊。。请求回答,谢谢。。。


我也遇到这个问题,后来解决了!
用Eclipse建Java Project,你的jar包是怎么弄进项目里去的?直接放src下还是通过BuildPath的形式?这两种我试过,都不行.Eclipse路径是临时路径,有问题的.你建一个Dynamic Web Project,把jar文件放在lib目录就下了.
1 楼 madonglingyan 2009-06-24  
你好。我在eclipse里面用的庖丁解牛。然后会报这种错误
error in handler path=file:/G:/My Documents/%e5%ba%96%e4%b8%81%e8%a7%a3%e7%89%9b/paoding-analysis.jar!/paoding-analysis.properties
error in handler jarPath=/G:/My Documents/%e5%ba%96%e4%b8%81%e8%a7%a3%e7%89%9b/paoding-analysis.jar
Exception in thread "main" net.paoding.analysis.exception.PaodingAnalysisException: java.io.FileNotFoundException: G:\My Documents\%e5%ba%96%e4%b8%81%e8%a7%a3%e7%89%9b\paoding-analysis.jar (系统找不到指定的路径。)
at net.paoding.analysis.knife.PaodingMaker.getProperties(PaodingMaker.java:140)
at net.paoding.analysis.analyzer.PaodingAnalyzer.init(PaodingAnalyzer.java:70)
at net.paoding.analysis.analyzer.PaodingAnalyzer.<init>(PaodingAnalyzer.java:59)
at net.paoding.analysis.analyzer.PaodingAnalyzer.<init>(PaodingAnalyzer.java:52)
at sliversearch.Lucene.index(Lucene.java:26)
at sliversearch.Lucene.main(Lucene.java:132)
Caused by: java.io.FileNotFoundException: G:\My Documents\%e5%ba%96%e4%b8%81%e8%a7%a3%e7%89%9b\paoding-analysis.jar (系统找不到指定的路径。)
at java.util.zip.ZipFile.open(Native Method)
at java.util.zip.ZipFile.<init>(ZipFile.java:114)
at java.util.jar.JarFile.<init>(JarFile.java:133)
at java.util.jar.JarFile.<init>(JarFile.java:97)
at net.paoding.analysis.knife.PaodingMaker.getFileLastModified(PaodingMaker.java:248)
at net.paoding.analysis.knife.PaodingMaker.loadProperties(PaodingMaker.java:210)
at net.paoding.analysis.knife.PaodingMaker.getProperties(PaodingMaker.java:130)
... 5 more


可是我明明已经把这些properties文件考进去了啊。。请求回答,谢谢。。。

相关推荐

    paoding-analysis-2.0.4-alpha2.rar_2.0.4-alpha2_paoding-analysis-

    "paoding-analysis.j"可能是相关的配置文件或者说明文档,帮助开发者更好地理解和使用这个工具。 在实际应用中,PaoDing Analysis可以通过简单的API调用进行集成。例如,开发者可以创建一个Analyzer实例,然后使用...

    paoding analysis 3.0.1 jar (庖丁解牛分词器)

    由于庖丁官方目前提供可下载尚不...先下载2.0.4的版本(h t t p : / /code.google.com/p/paoding/),配置好环境后,引用paoding analysis 3.0.1 jar 代替paoding analysis 2.0.4 jar 即可,其他配置如词典等都不变。

    paoding-analysis-2.0.4-alpha2.zip_java 分词_paoding

    Paoding Analysis的特点在于其高效率和自适应性,能够根据不同的应用场景进行定制化配置,满足多样化的分词需求。 ### 版本信息 Paoding Analysis 2.0.4 Alpha2是该分词系统的其中一个版本,相较于其他版本,它...

    paoding-analysis3.0

    solr3 配置 paoding 需要的人可以下载

    适合lucene3.0用的paoding-analysis的jar包

    《深入理解Lucene3.0与Paoding-Analysis集成应用》 在信息检索领域,Apache Lucene是一款强大的全文搜索引擎库,被广泛应用于各种信息检索系统。Lucene3.0是其历史版本之一,具备高效、灵活的特点。在这个版本中,...

    lucene-4.8.1 + paoding-analysis-master

    《深入理解Lucene 4.8.1与Paoding Analysis:中文分词技术解析》 在信息技术领域,中文分词是自然语言处理的关键步骤,它将连续的汉字序列分割成具有独立语义的词语,为后续的信息检索、文本分析等任务提供基础。本...

    paoding-analysis-2.0.1(UTF-8).zip_Java 8_paoding-analysis jar_pa

    "paoding-analysis-2.0.1(UTF-8).zip" 是一个包含Java分词库的压缩包,特别适用于处理UTF-8编码的文本。这个库的核心是"paoding-analysis",它是一个针对Java 8设计的高效中文分词工具,能够提供出色的中文分词效果...

    paoding-analysis3.5.jar

    paoding分词jar ,支持lucence3以上的版本。本人使用的lucence是3.5的,没有问题。

    paoding-analysis3.0.jar

    "paoding-analysis3.0.jar" 是一个针对 Lucene 核心库的中文分词组件,主要用于提升中文文本处理的效率和准确性。Lucene 是一个流行的开源全文搜索引擎库,广泛应用于信息检索、网站搜索和大数据分析等领域。在 ...

    paoding-analysis-4.0.0.jar

    paoding4.0支持lucene4.0 是修改源码后的可以支持lucene4.0的 除了这个包 需要注意的还需要一个logger包 还需要配置 词库路径 在环境变量中可以配置也可以在 paoding里面的 配置文件中配置 具体亲门 自己研究 如有...

    paoding 分词

    可以从官方网站或者第三方资源站点下载paoding分词的最新版本,例如`paoding-analysis-2.0.4-alpha2.zip`和`Paoding分词.zip`。 3. **解压与配置** 解压缩下载的文件,将解压后的目录添加到你的项目类路径...

    paoding_analysis.rar_PaodingAnalysis_lucene paoding_paodi

    在实际应用中,"paoding_analysis.rar"这个压缩包很可能包含了实现这一功能所需的全部资源和配置文件,例如分词词典、样例代码以及相关的文档说明。文件名中的"lucene paoding paodi"标签,暗示了这是关于Lucene使用...

    spring-boot-paoding-rose.zip

    此外,由于Paoding-Rose的特殊性,还需要额外配置数据库路由规则,例如基于分片键的路由策略。 ```yaml spring: datasource: type: com.paoding玫瑰.jdbc.datasource.PdRouterDataSource url: jdbc:mysql://...

    paoding查询关键字匹配到的个数的实例

    二、配置Paoding Paoding的配置主要涉及分词器的选择、词典文件等。可以创建一个Properties对象,设置相应的参数,例如: ```java Properties props = new Properties(); props.setProperty("paoding.analysis....

    Paoding中文分词

    4. `paoding-analysis.jar`:这是核心的Java归档文件,包含了Paoding中文分词的代码和库,可以在Java环境中运行。 5. `dic`:可能是一个目录,存储了分词所需的词典文件,用于确定词汇及其边界。 6. `examples`:...

    Java调用paoding分词器对抓取的xml里面的新闻按照出现的词频进行分类

    接着,我们可以创建一个`PaoX`实例,加载分词器的配置,并使用其提供的`Analysis`接口来进行分词操作。例如: ```java PaoX paoX = new PaoX(new StringReader(xmlContent)); Analysis analysis = paoX.analyseText...

    lucene中文分词器(paoding解牛)

    5. **灵活配置**:Paoding提供了丰富的配置选项,用户可以根据实际应用场景调整分词策略,如是否开启数字识别、英文单词识别等。 在实际应用中,Paoding分词器的使用步骤大致如下: 1. **引入依赖**:在项目中引入...

    基于Compass2.2与Spring 结合建立索引的实例

    2. **配置Spring**:创建Spring配置文件,配置Compass相关的bean,包括索引管理器(IndexManager)、查询执行器(QueryExecutor)等。 3. **实现服务层**:创建服务层接口及其实现类,利用Spring的注入机制注入...

Global site tag (gtag.js) - Google Analytics