`

lucene 分词解析器 将商品名全部切成各种词方便匹配

 
阅读更多

1、附件附上中文解析器的相关包

2、代码

package com.yihaodian.pricehisotry;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.Reader;
import java.io.StringReader;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;
import java.util.Set;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
//import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.TermAttribute;
import org.springframework.context.ApplicationContext;
import org.springframework.context.support.ClassPathXmlApplicationContext;
import org.wltea.analyzer.lucene.IKAnalyzer;
import org.apache.lucene.demo.IndexFiles;
import java.util.regex.Matcher;
import java.util.regex.Pattern;



import com.yihaodian.pricehisotry.service.ProductService;


@SuppressWarnings("deprecation")
public class CutWords {
	
private static ApplicationContext context = null;
	
	static{
		context = new ClassPathXmlApplicationContext(
				new String[] { "/spring-bean.xml", "/spring-dao.xml" });	
	}
	private static Map<String,String> brand = new HashMap<String,String>();
	private static Map<String,String> generalName = new HashMap<String,String>();
	
 	private static Set<String> name1 = new HashSet<String>();
	private static Set<String> name2 = new HashSet<String>();
	private static Set<String> name3 = new HashSet<String>();
	private static Set<String> name4 = new HashSet<String>();
	private static Set<String> name5 = new HashSet<String>();
	private static Set<String> name6 = new HashSet<String>();
	
	private static long indexWord = 0;
	//存储大于6个的
	private static Set<String> name7 = new HashSet<String>();
	
	
	public static void main(String[] args) throws IOException {
		
		//读取已有的special word
		 File file = new File("D:\\eee.txt");
	        try {
	            FileInputStream fileInputStream = new FileInputStream(file);  
	            InputStreamReader inputStreamReader = new InputStreamReader(fileInputStream, "GBK");  
	            BufferedReader br = new BufferedReader(inputStreamReader); 
	            String tempString = null;
	            // 一次读入一行,直到读入null为文件结束
	            while ((tempString = br.readLine()) != null) {
	               if(tempString.length() == 1) name1.add(tempString);
	               else if(tempString.length() == 2) name2.add(tempString);
	               else if(tempString.length() == 3) name3.add(tempString);
	               else if(tempString.length() == 4) name4.add(tempString);
	               else if(tempString.length() == 5) name5.add(tempString);
	               else if(tempString.length() == 6) name6.add(tempString);
	               else name7.add(tempString);
	                	
	            }
	            br.close();
	        }catch (Exception e) {
			}
		
	    //读取已有的BAND
	        File fileBrand = new File("D:\\band.txt");
	        try {
	            FileInputStream fileInputStream = new FileInputStream(fileBrand);  
	            InputStreamReader inputStreamReader = new InputStreamReader(fileInputStream, "GBK");  
	            BufferedReader br = new BufferedReader(inputStreamReader); 
	            String tempString = null;
	            // 一次读入一行,直到读入null为文件结束
	            while ((tempString = br.readLine()) != null) {
	            	if (!brand.containsKey(tempString)) {
	            		brand.put(tempString, tempString);        	
					}
	            }
	            br.close();
	        }catch (Exception e) {
	        	e.printStackTrace();
			}
		   
	        //读取已有的general word
	        File filegeneral = new File("D:\\geneName.txt");
	        try {
	            FileInputStream fileInputStream = new FileInputStream(filegeneral);  
	            InputStreamReader inputStreamReader = new InputStreamReader(fileInputStream, "GBK");  
	            BufferedReader br = new BufferedReader(inputStreamReader); 
	            String tempString = null;
	            // 一次读入一行,直到读入null为文件结束
	            while ((tempString = br.readLine()) != null) {
	            	//这里没有被执行
	            	if (!generalName.containsKey(tempString)) {
	            		generalName.put(tempString,tempString);        	
					}
	            }
	            br.close();
	        }catch (Exception e) {
	        	e.printStackTrace();
			}
		
	        System.out.println("得到的品牌的大小:"+brand.size());
	        System.out.println("得到的名词的大小:"+generalName.size());
	        
		ProductService productService = (ProductService)(context.getBean("productService"));
		List<String> productNames = productService.queryYhdProductsByCategoryName("%巧克力%");
		
		File f = new File("D:\\liufen.txt");
		if(!f.exists())
			f.createNewFile();
		FileWriter fw = new FileWriter(f,true);
//		for(int k=0;k<carInfo.size();k++){
//			fw.write(carInfo.get(k).getCar().get(6)+"\r\n");
//		}
		
		Analyzer ikAnalyzer = new IKAnalyzer();
		System.out.println("======中文=======IKAnalyzer======分词=======");
		
		for (String productName : productNames) {
			showToken(ikAnalyzer, productName);
		}
		for (String name : name7) {
			fw.write(name+"\r\n");
		}
		for (String name : name6) {
			fw.write(name+"\r\n");
		}
		for (String name : name5) {
			fw.write(name+"\r\n");
		}
		for (String name : name4) {
			fw.write(name+"\r\n");
		}
		for (String name : name3) {
			fw.write(name+"\r\n");
		}
		for (String name : name2) {
			fw.write(name+"\r\n");
		}
		for (String name : name1) {
			fw.write(name+"\r\n");
		}
		fw.flush();
		fw.close();
		
//		Analyzer standardAnalyzer = new StandardAnalyzer(Version.LUCENE_30);
//		System.out.println("=====一元========StandardAnalyzer=====分词========");
//		showToken(standardAnalyzer, text);
	}
	
	/**
	 * 分词及打印分词结果的方法
	 * @param analyzer     分词器名称
	 * @param text         要分词的字符串
	 * @throws IOException 抛出的异常
	 */
	public static void showToken(Analyzer analyzer, String text) throws IOException {
		
		Reader reader = new StringReader(text);
		TokenStream stream = (TokenStream)analyzer.tokenStream("", reader);
		//添加工具类  注意:以下这些与之前lucene2.x版本不同的地方
		TermAttribute termAtt  = (TermAttribute)stream.addAttribute(TermAttribute.class);
		OffsetAttribute offAtt  = (OffsetAttribute)stream.addAttribute(OffsetAttribute.class);
		// 循环打印出分词的结果,及分词出现的位置
		while(stream.incrementToken()){
			indexWord++;
//			System.out.println(termAtt.term() + "|("+ offAtt.startOffset() + " " + offAtt.endOffset()+")"); 
			Pattern pattern = Pattern.compile("\\d+[ml]{0,1}[l]{0,1}");
			Matcher matcher = pattern.matcher(termAtt.term());
			if (matcher.find()) {
				continue;
			}
			
			IndexFiles indexFiles; 
			
			if (brand.containsKey(termAtt.term()))  continue;
			
			if (generalName.containsKey(termAtt.term())) continue;
			
//			System.out.println(termAtt.term()+"--"+indexWord);
			int len = offAtt.endOffset() - offAtt.startOffset();
			switch (len) {
			case 1:
				name1.add(termAtt.term());
				break;
			case 2:
				name2.add(termAtt.term());
				break;
			case 3:
				name3.add(termAtt.term());
				break;
			case 4:
				name4.add(termAtt.term());
				break;
			case 5:
				name5.add(termAtt.term());
				break;
			case 6:
				name6.add(termAtt.term());
				break;
			default:
				name7.add(termAtt.term());
				break;
			}
		}
	}

}


 在本程序中,这段代码对于商品名中包含品牌或者是已经有了的切词去重复。然后将已有的切词和刚切的全部写入到一个文件中

 

lucene包采用的是3.5最新版本。官网可以下载。

 

在切词的过程中可能遇到,切到的词不是很令人满意,这个时候需要对词库做出整理。另外还可以对解析器做出优化,加强解析器只能识别词组的功能。丰富解析器的词库

分享到:
评论

相关推荐

    Lucene中文分词器组件

    由于中文是以词为基本单位,不像英文那样有明显的空格分隔,因此在进行信息检索时,需要先对中文文本进行分词,将连续的汉字序列切分成具有独立含义的词语。这样才能有效地进行关键词匹配和索引。 在Lucene中,常见...

    Lucene中文分词器包

    来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...

    lucene中文分词器(paoding解牛)

    在中文信息检索领域,分词是至关重要的一环,它能够将连续的汉字序列切割成具有独立意义的词语,为后续的索引和查询提供基础。Lucene作为Java最著名的全文搜索引擎库,其本身并不包含专门针对中文的分词模块。然而,...

    Lucene-Demo.rar Lucene分词的demo

    `lucene`目录很可能包含了Lucene的库文件,这些文件包含了Lucene的核心组件,如索引和搜索模块,以及各种分词器。在Java项目中,开发者通常会将这些库文件作为依赖引入,以便使用Lucene提供的API进行文本处理。 `...

    lucene分词测试代码

    用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器,其使用“正向全切分算法”,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I...

    lucene.NET 中文分词

    中文分词是将连续的汉字序列切分成具有语义的词语的过程,是自然语言处理(NLP)中的基础步骤。在Lucene.NET中,为了支持中文分词,通常需要结合第三方分词器,如IK Analyzer、HanLP、jieba.NET等。这些分词器具备...

    Lucene分词器资源包

    **Lucene分词器资源包详解** Lucene是一款开源的全文搜索引擎库,广泛应用于Java开发中,用于构建高效、可扩展的信息检索应用。这个压缩包提供了Lucene分词时所必需的jar包,使得开发者能够方便地在项目中集成...

    lucene3.0 分词器

    lucene3.0 中文分词器, 庖丁解牛

    lucene6.6+拼音分词+ik中文分词包

    pinyinAnaylyzer.jar则是基于pinyin4j的拼音分词器,它可以将汉字转换成拼音并进行分词,进一步提高搜索的灵活性。 在实际应用中,我们常常需要定制分词规则,例如mydict.dic文件,这是一份自定义词典,包含了我们...

    lucene+中文IK分词器 例子

    **Lucene+中文IK分词器实例解析** Lucene是一个高性能、全文检索库,由Apache软件基金会开发。它提供了一个简单但功能强大的API,用于在各种应用中实现全文索引和搜索。在处理中文文本时,由于中文词汇的复杂性和无...

    基于词典的最大匹配的Lucene中文分词程序

    本文将深入探讨“基于词典的最大匹配”的Lucene中文分词程序,这是构建高效、准确的中文信息处理系统的重要组成部分。 首先,我们要理解什么是分词。中文分词是指将连续的汉字序列按照词语的边界进行划分,使得每个...

    Lucene4.0 IK分词器使用pdf

    ### Lucene4.0 IK分词器使用概览 #### IKAnalyzer:中文分词利器 IKAnalyzer是一款基于Java开发的开源中文分词工具包,自2006年首次发布以来,历经多个版本的迭代,已成为业界广泛认可的中文分词解决方案。其最初...

    Lucene与中文分词技术的研究及应用

    1. **分析器**(Analyzer):用于将文本切分成词项(Term),并对词项进行标准化处理(如大小写转换、去除停用词等)。中文环境下,通常需要自定义分析器来实现中文分词。 2. **索引器**(IndexWriter):负责创建和...

    lucene.net中文分词器

    《Lucene.NET中文分词器:深入解析与实践》 Lucene.NET是一个开源全文检索库,它是Apache Lucene项目在.NET平台上的实现。作为一个强大的信息检索工具,Lucene.NET广泛应用于搜索引擎开发、文档检索系统等领域。...

    lucene.net+盘古分词多条件全文检索并匹配度排序

    使用visual studio 开发的lucene.net和盘古分词实现全文检索。并按照lucene的得分算法进行多条件检索并按照得分算法计算匹配度排序。 可以输入一句话进行检索。 lucene.net的版本为2.9.2 盘古分词的版本为2.3.1 并...

    Lucene3.0分词系统.doc

    以下是对Lucene3.0分词系统中涉及的关键知识点的深入解析。 ### 英文分词原理 英文分词相较于中文来说较为简单,因为英文单词间通常以空格作为天然的分隔符。然而,为了提高搜索效率和准确性,Lucene3.0采用了更...

    java lucene 实现分词和词干抽取

    用java实现的,利用了lucene里面的standardAnalyzer分析器实现的分词,可以去停用词,再利用波特算法实现 词干提取 最后排序 和词频统计输出

    Lucene分词与查询详解

    1. **分词(Tokenization)**:在Lucene中,分词是将输入的文档内容分解成一系列独立的、有意义的单元——称为“词元”(Tokens)。这个过程由分词器(Tokenizer)完成,它根据特定的语言规则将连续的字符序列切分成...

    简单的LUCENE分词

    在JAVA下,用lucene的内置分词功能对XML文件进行分词,并取消无用词

Global site tag (gtag.js) - Google Analytics