lucene 的分词StandardAnalyzer

beyondsanli

浏览: 320838 次
性别:
来自: 上海

最近访客更多访客>>

liuyouming

wjianfeng

a9377843321

karbo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎

lucene Apache

package analyzer;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

public class StandardAnalyzerTest {
/**
 * 构造函数
 *
 */
	public StandardAnalyzerTest()
	{
		
	}
	
	public static void main(String[] args)
	{//初始化一个standardAnalyzer对象
		Analyzer aAnanyzer=new StandardAnalyzer();	
		StringReader sr=new StringReader("People are always talking about 'the problem of youth'.");
		//生成TokenStream对象
		TokenStream ts=aAnanyzer.tokenStream(sr);	
		int i=0;
		Token t;
		try {
			//调用next()方法不断的取得下一个切出的词
			t = ts.next();
			while(t!=null)
			{
				i++;
				System.out.println("Line "+i+":"+t.termText());
				t=ts.next();
			}
		} catch (IOException e) {
			// TODO 自动生成 catch 块
			e.printStackTrace();
		}
		
	}
}

1:对空格进行了分词

2：大写都转换成小写

3：对停止词的过滤如a,an ,the 等小词

4:删除了所有的标点符号

下面是汉语的效果

package analyzer;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;

public class StandardAnalyzerTestForCH {

	public StandardAnalyzerTestForCH()
	{
		
	}
	
	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO 自动生成方法存根
      Analyzer a=new StandardAnalyzer();
      StringReader sr=new StringReader("龙门石窟位于山西省大同市西 郊，是 '我国古代艺术的宝贝!");
      
      TokenStream ts=a.tokenStream(sr);
      
      int i=0;
      try {
		Token t=ts.next();
		while(t!=null)
		{
			i++;
			System.out.println("Line "+i+":"+t.termText());
			t=ts.next();
		}
	} catch (IOException e) {
		// TODO 自动生成 catch 块
		e.printStackTrace();
	}
      
      
	}

}

分享到：

转载男人一生必须要做10件事 | lucece 对txt建立索引并且查询的案例

2008-06-16 14:42
浏览 4208
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene 的分词StandardAnalyzer

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

lucene 的分词StandardAnalyzer

评论

发表评论

相关推荐

lucece 对txt建立索引并且查询的案例

Lucene倒排索引原理 转网友

lucece建立索引过程

最近访客更多访客>>

Lucene倒排索引原理转网友