`
deepfuture
  • 浏览: 4400384 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:80074
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:70040
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:103346
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:285806
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:15012
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:67557
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:32148
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45988
社区版块
存档分类
最新评论

lucene-亚洲语种和unicode字符分析

阅读更多

1、unicode字符

在lucene内部,所有的字符都是以标准UTF-8编码的,JAVA会在字符串对象内对Unicode编码进行自动处理,从而把我们从这个繁琐的处理任务中解放出来。

2、亚洲语种分析

汉语、日语及韩语(CJK)等亚洲语种一般使用表意文字,需要使用不同的分析方法来识别和分隔语汇单元。

Lucene的Sandbox中有两个用于亚洲语言分析的分析器。使用IndexSearcher查询时跟对英文进行查询的代码一样,但是查询代码所在的JAVA源程序代码必须保存为UTF-8格式的文档。如Hitshits=searcher.search(new TermQuery(new Term("contents","道")));

3、一个示例程序ChineseDemo

public class ChineseDemo{

privatestatic String[] strings=("道德经");

 

privatestatic Analyzer[] analyzer={

new SimpleAnalyzer(),

new StandardAnalyzer(),

new ChineseAnanlyzer(),//Sandbox的中文分析器

new CJKAnanlyzer()//sandbox的中文分析器

};

publicvoid main(String args[]) throws Exception{

for (int i=0;i<strings.length;i++){

String string=strings[i];

for (int j=0;j<ananlyzer.length;j++){

Analyzer analyzer=analyzer[j];

analyzer(string,analyzer);

}

}


}

privatestatic void analyze(String string,Ananylzer analyzer) throwsIOException{

StringBuffer buffer=new StringBuffer();

Token[]tokens=AnalyzerUtils.tokenSFromAnalysis(analyzer,string);

for(int i=0;i<tokens.length;i++){

buffer.append("[");

buffer.append(tokens[i].termText());

buffer.append("]");

}

String output=buffer.toString();

System.out.println(output);

}

}

结果是:

SimpleAnalyzer输出[道德经]

StandardAnalyzer输出[道][德][经]

ChineseAnalyzer输出[道][德][经]

CJKAnaylyzer输出[道德][德经]

可见CJK将前后相连的字符组合在一起,这样容易产生汉字词组,但同时产生了大量不是词组的词组

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics