Solr lucene的一元、二元拆词

hui_jing_880210

浏览: 44374 次
性别:
来自: 北京

最近访客更多访客>>

loginboot

dream_xz

ekinsa1

zjy_369

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

solr

首先需要导入：lucene-analyzers.jar

下面代码分词的详解：

import java.io.Reader;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;


/**
 * 一元分词和二元拆词
 * @author zhouguohui
 */
public class AnalyzerTest {
	 public static void main(String[] args) throws Exception{
		 String str = "测试一元分词和二元拆词拆分汉子，字母，数字等"; 
		 Standard_Analyzer(str);
		 Chiniese_Analyzer(str);
		 CJK_Analyzer(str);
   } 
	 
	 public static void Standard_Analyzer(String str) throws Exception{
         Analyzer analyzer = new StandardAnalyzer();       
         Reader r = new StringReader(str);       
         StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
         System.out.println("=====StandardAnalyzer   默认没有词只有字（一元分词）====");
         Token t;       
       while ((t = sf.next()) != null) {       
               System.out.println(t.termText());       
         }     
   } 
	 
	 public static void Chiniese_Analyzer(String str) throws Exception{
         Analyzer analyzer = new ChineseAnalyzer();       
         Reader r = new StringReader(str);       
         TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);
         System.out.println("=====chinese analyzer   基本等同StandardAnalyzer（一元分词）====");
         Token t;       
       while ((t = tf.next()) != null) {       
               System.out.println(t.termText());       
         }     
   } 
	 
	 public static void CJK_Analyzer(String str) throws Exception{
         Analyzer analyzer = new CJKAnalyzer();       
         Reader r = new StringReader(str);       
         StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
         System.out.println("=====CJKAnalyzer       交叉双字分割（二元分词）====");
         Token t;       
       while ((t = sf.next()) != null) {       
               System.out.println(t.termText());       
         }     
   } 
}

运行结果为：

=====StandardAnalyzer   默认没有词只有字（一元分词）====
测
试
一
元
分
词
和
二
元
拆
词
拆
分
汉
子
字
母
数
字
等
=====chinese analyzer   基本等同StandardAnalyzer（一元分词）====
测
试
一
元
分
词
和
二
元
拆
词
拆
分
汉
子
字
母
数
字
等
=====CJKAnalyzer       交叉双字分割（二元分词）====
测试
试一
一元
元分
分词
词和
和二
二元
元拆
拆词
词拆
拆分
分汉
汉子
字母
数字
字等

这两者没有什么太大的区别，第二种对中文分词支持的效果更好一些

分享到：

mysql 随机取一条或多条数据 | java 汉子字符数字相识度比较

2015-01-12 10:20
浏览 1203
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr lucene的一元、二元拆词

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr lucene的一元、二元拆词

评论

发表评论

相关推荐

Solr Facet

Solr java IKAnalyzer词库

Solrj SolrQuery查询

Solrj 创建、修改、添加、删除、索引库

Solr terms使用

Solr java分词器

Solr 高效自动联想

Solr 函数

Solr Suggestion 自动联想

Solr 语法

Solr dataimport详解

Solr schema.xml 详解

Solr 4.7.2部署

最近访客更多访客>>