`
zqb666kkk
  • 浏览: 732521 次
  • 性别: Icon_minigender_1
  • 来自: 宁波
社区版块
存档分类
最新评论

IkAnalyzer分词、词频、内链优化

ik 
阅读更多
IK 中文分词  版本 5.0
package com.test;

import java.io.IOException;
import java.io.Reader;
import java.io.StringReader;
import java.util.Arrays;
import java.util.HashMap;
import java.util.LinkedHashMap;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;

import com.test.entity.ArticleThesaurus;

public class IkAnalyzerTest {
	public static void main(String[] args) {
//		String str = "铜管方<a href='http://auto.ifeng.com/' target='_blank'><font color='#004276'>面</font></a>,3月铜管企业开工率为85.54%,4月达88%。据了解,由于3月铜价低迷,铜管企业提前备货,精铜需求提前放量。"
//				+ "3月铜杆线企业开工率为72.47%,4月上升至76%。开工率上行,"
//				+ "但前期备货并不充足,导致现货市场集中采购增加,供应紧张凸显。fdsf紫铜铜inf的说法都是紫铜,"
//				+ "我勒个去黄铜恩恩黄铜哈哈哈黄铜铜,我勒个去白铜,范德萨范德萨发白铜,古代有很多人用青铜器,是的就是这个东西它的名字是一种金属叫青铜。";
		//System.out.println("Jane Campion directed \"The Piano\" in 1993.");
		String str="由于对经济形势的的担忧,市场一直低迷,各方面消息被吸<a href='http://www.test.cn/quote/'>铜价</a> 收,市场经济困难局面早已被认同," +
				"随着各国政策的出台实施及各经济数据的公布,担忧情绪渐缓,沪铝即将迎来谷底反弹的时机。
  </p> <p> 操作思路<img src=\"####\" alt=\"锻铜铍铜\" />" +
				"15500<a href='http://www.test.cn/product/tjthj_ht/'>黄铜</a>锻铜以下紫铜板多单继续持有,15575以下果断购入多单,止损15250价位," +
				"如果突破15750价位并站稳,可继续加仓购入多单。<img src=\"www.baidu.com\" alt=\"范德萨发生的\" />";
		Pattern p = Pattern.compile("</?(A|a)(\n|.)*?>");
		Matcher m = p.matcher(str);
		str = m.replaceAll("");
		System.out.println("清除所有a标签:"+str);
	
		
		System.out.println("分词后:"+ikAnalyzer(str));
		String afterFcStr = ikAnalyzer(str); // 分词后的字符串

		// 计算词频
		Map<String, Integer> words = new HashMap<String, Integer>();
		IKSegmenter seg = new IKSegmenter(new StringReader(afterFcStr), true);
		try {
			Lexeme l = null;
			while ((l = seg.next()) != null) {
				if (words.containsKey(l.getLexemeText()))
					words.put(l.getLexemeText(),
							words.get(l.getLexemeText()) + 1);
				else
					words.put(l.getLexemeText(), 1);
			}
		} catch (IOException e) {
			e.printStackTrace();
		}

		 for (Map.Entry<String, Integer> entry : words.entrySet()) {
		 System.out.println("key= " + entry.getKey() + " and value= "
		 + entry.getValue());
		 }

		 Integer count=words.get("铜价");
		 if(count!=null){
		 System.out.println("该词频:"+count);
		 }else{
		 System.out.println("该词频不存在");
		 }
    //添加文章内链 一篇文章不超过五个内链 多个关键词 只替换一个关键词
		List<ArticleThesaurus> listKeyWord = new LinkedList<ArticleThesaurus>();
		ArticleThesaurus at1 = new ArticleThesaurus("铜", "http://www.test.cn");
		ArticleThesaurus at2 = new ArticleThesaurus("铜价","http://www.test.cn/quote/");
		ArticleThesaurus at3 = new ArticleThesaurus("紫铜",
				"http://www.test.cn/product/tjthj_ct_zt/");
		ArticleThesaurus at4 = new ArticleThesaurus("黄铜",
				"http://www.test.cn/product/tjthj_ht/");
		ArticleThesaurus at5 = new ArticleThesaurus("白铜",
				"http://www.test.cn/product/tjthj_bt/");
		ArticleThesaurus at6 = new ArticleThesaurus("青铜",
				"http://www.test.cn/product/tjthj_qt/ ");
		listKeyWord.add(at1);
		listKeyWord.add(at2);
		listKeyWord.add(at3);
		listKeyWord.add(at4);
		listKeyWord.add(at5);
		listKeyWord.add(at6);

		String newStr ;
		newStr = afterFcStr;
		String article[] = afterFcStr.split("\\|");
		int successcount = 0;
		for (int i = 0; i < listKeyWord.size(); i++) {
			if (successcount == 5) {
				break;
			}
			String wordname = listKeyWord.get(i).getWord();
			Map<String, Integer> map = new LinkedHashMap<String, Integer>(); // 防止重复添加内链
			for (int j = 0; j < article.length; j++) {

				if (wordname.equals(article[j])) {
					if (map.get(wordname)== null) {
						map.put(wordname, 1);
						Arrays.fill(article, j, j + 1, "<a href='"
								+ listKeyWord.get(i).getUrl() + "'>" + wordname
								+ "</a>");
						successcount++;
					}
				}

			}
		}

		// for(int i=0;i<listKeyWord.size();i++){
		// String wordname=listKeyWord.get(i).getWord();
		// Integer count=words.get(wordname);
		// if(successcount==5){
		// break;
		// }
		// if(count!=null){
		// //System.out.println("该词频:"+count);
		// newStr=newStr.replaceFirst(wordname,
		// "<a href='"+listKeyWord.get(i).getUrl()+"'>"+wordname+"</a>");
		// successcount++;
		// }else{
		// //System.out.println("该词频不存在");
		// }
		// }
		System.out.println("内链优化后的文章:" + Arrays.toString(article));
		StringBuilder StrArticle=new StringBuilder();
		for(int i=0;i<article.length;i++){
			StrArticle.append(article[i]);
		}
		//System.out.println("被优化多少个内链:"+successcount);
		//System.out.println("内链优化后的文章字符串:" + StrArticle);
		String endStr=StrArticle.toString();
		if(successcount==0){	//可能分词导致部分关键词没有匹配到 则采用绝对字符匹配
			for (int i = 0; i < listKeyWord.size(); i++) {
				//判断文章里的超链接数
				int acount=occurTimes(endStr,"href=");
				if(acount==5){
					break;
				}
				String wordname = listKeyWord.get(i).getWord();
				endStr=endStr.replaceFirst(wordname, "<a href='"
								+ listKeyWord.get(i).getUrl() + "'>" + wordname
								+ "</a>");
				
			}
		}
		
		//去除alt标签内的a内链
		System.out.println("内链优化后的文章字符串:"+endStr);
		Document doc = Jsoup.parseBodyFragment(endStr); // or Jsoup.parse(...);
		Elements images = doc.select("img");
		
		List<String> listAltStr=new LinkedList<String>();
		
		for(Element image : images){
		   // System.out.printf("%s:%s%n", image.attr("src"), image.attr("alt"));
			//System.out.println(image.attr("alt"));
			
			String altStr=image.attr("alt");
			Pattern p1 = Pattern.compile("</?(A|a)(\n|.)*?>");
			Matcher m1 = p.matcher(altStr);
			altStr = m1.replaceAll("");
			listAltStr.add(altStr);
			image.attr("alt", altStr);
			
			//System.out.println(altStr);
		}
		doc.select("img").listIterator(); 
		System.out.println("end内链优化后的文章字符串:" + doc.select("body").html());
	}
	
	/**
	 * 字符在字符串中出现的次数
	 * 
	 * @param string
	 * @param a
	 * @return
	 */
	public static int occurTimes(String string, String a) {
	    int pos = -2;
	    int n = 0;
	 
	    while (pos != -1) {
	        if (pos == -2) {
	            pos = -1;
	        }
	        pos = string.indexOf(a, pos + 1);
	        if (pos != -1) {
	            n++;
	        }
	    }
	    return n;
	}

	public static String ikAnalyzer(String str) {

		Reader input = new StringReader(str);
		// 智能分词关闭(对分词的精度影响很大)
		IKSegmenter iks = new IKSegmenter(input, true);
		Lexeme lexeme = null;
		StringBuilder sb = new StringBuilder();

		try {
			while ((lexeme = iks.next()) != null) {

				sb.append(lexeme.getLexemeText()).append("|");
			}
		} catch (IOException e) {
			e.printStackTrace();
		}

		return sb.toString();
	}

}



下面提供源码包下载 所用ik没有用到jar包 用到了源码包 方便调试和修改源代码

iteye传不上来
只能让大家去csdn下载了http://download.csdn.net/detail/koproblem/7575521
0
0
分享到:
评论

相关推荐

    IKAnalyzer 实现分词 词频统计

    本教程将详细介绍如何使用IKAnalyzer进行分词处理,并实现词频统计。 首先,我们需要下载并引入IKAnalyzer到项目中。你可以从官方网站或者GitHub仓库获取最新版本的IKAnalyzer源码或jar包。在Eclipse中,可以通过...

    IKAnalyzer中文分词计算句子相似度

    **IKAnalyzer中文分词** IKAnalyzer是一款开源的、基于Java实现的中文分词工具,它在中文信息处理领域有着广泛的应用。该工具最初由尹军平(IkGuo)开发,设计目标是提供一个轻量级、高效能的中文分词引擎,用于...

    ikanalyzer 词频计算

    ikanalyzer通过高效的分词算法,可以快速地将文本拆分成词语,然后统计每个词语的出现次数,从而得到词频信息。 首先,你需要下载ikanalyzer的库文件,通常是一个jar包,将其引入到你的Java项目中。接着,你可以...

    基于IKAnalyzer2012的分词小例子

    在本文中,我们将深入探讨如何使用IKAnalyzer2012进行中文分词处理,这是一个针对中文的开源分词工具,特别适用于中英文混合文本的分析。IKAnalyzer2012以其高效、灵活和易用性在Java开发领域广泛应用,尤其在搜索...

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...

    IKAnalyzer.rar

    2. **智能切词算法**:IKAnalyzer采用了基于词频的智能最大匹配算法,能够在一定程度上避免误分词,同时支持用户自定义短语,以满足特定领域的分词需求。 3. **支持多版本的Lucene**:如描述所述,IKAnalyzer兼容...

    ikanalyzer-solr.zip

    此外,ikanalyzer还提供了基于词频的动态学习机制,能根据用户数据自动学习新词,提高分词的准确性。同时,ikanalyzer支持繁体字转换和英文单词识别,这使得它在处理混合语言文本时也有较好的表现。 在实际应用中,...

    ik分词器ik-analyzer-5.3.0和ikanalyzer-solr6.5-2018

    标题 "ik分词器ik-analyzer-5.3.0和ikanalyzer-solr6.5-2018" 涉及的是两个不同版本的IK分词器,一个是ik-analyzer-5.3.0,适用于Solr 5.5.0,另一个是ikanalyzer-solr6.5-2018,适用于Solr 7.0.0。IK分词器是Java...

    IKAnalyzer

    1. **高效性**:IKAnalyzer采用动态词典加载和优化策略,能快速对文本进行分词处理。 2. **灵活性**:支持自定义词典,用户可以根据实际需求添加或修改词库,以适应不同领域的分词任务。 3. **智能性**:内置智能...

    IKAnalyzer3.2.8 源码

    3. **分词算法**:IKAnalyzer采用了基于词频的逆向最大匹配法(RMM),从文本末尾开始,向头部寻找最长的可能词汇,同时结合正向最大匹配法(MMM)进行优化,确保分词的准确性和完整性。 4. **停用词处理**:在分词...

    IKAnalyzer2012源码

    IKAnalyzer 通过上下文信息、词频统计等方式来消除歧义,提高分词的准确性。 ### 6. 基于Aho-Corasick算法的快速查找 IKAnalyzer 使用了Aho-Corasick算法来加速字典匹配过程。这个算法允许一次性查找所有匹配项,...

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    Ik Analyzer的发展历程中,不断优化了分词效果,提高了分词效率,7.5.0版本应该是经过多轮迭代后的一个稳定版本。 Ik Analyzer的主要特点包括: 1. **灵活性**:Ik Analyzer支持用户自定义词典,可以通过配置文件...

    lucene的IKAnalyzer以及兼容4.3

    IKAnalyzer( Intelligent Keyword Analyzer)是一款基于Java实现的中文分词工具,它主要针对中文的特性进行了优化,能够有效地进行词语切分。IKAnalyzer的特点包括: 1. **灵活的词典管理**:IKAnalyzer支持动态...

    ikanalyzer-solr

    在Solr的`lib`目录下添加ikanalyzer的jar文件,确保Solr启动时能加载到该分词器。同时,还需要在Solr的`schema.xml`文件中配置分词器,指定字段类型为`text_ik`或`text_ik_max_word`,前者主要用于单个词语的查询,...

    IK Analyzer 2012FF_u1.rar

    3. 在Solr的schema.xml中配置Analyzer,指定使用IKAnalyzer,并根据需要配置词典和参数。 4. 重启Solr服务,使更改生效。 总的来说,IK Analyzer 2012FF_hf1是专为Solr4.x设计的优化版分词器,它提供了高效的中文...

    ikanalyzer2.0.2源码

    4. **过滤器**:ikanalyzer提供了多种过滤器,如去除停用词(如“的”、“是”等常见无实际意义的词)、词性标注等,这些过滤器在分词后对结果进行优化,提高搜索质量和效率。 5. **配置文件**:ikanalyzer可能包含...

    IKAnalyzer2012FF_u1.zip

    IKAnalyzer2012FF_u1.zip 是一个包含IK Analyzer 2012FF_u1版本的压缩包,它是基于Java实现的全文检索分析器,主要用于中文分词处理。中文分词是自然语言处理中的重要步骤,对于搜索引擎、信息检索系统、文本挖掘等...

    ikanalyzer-solr7.2.1.zip

    本资源"ikanalyzer-solr7.2.1.zip"正是针对Solr 7.2.1版本的IK Analyzer配置包,旨在帮助用户实现IK Analyzer与Solr的无缝对接,以便更好地处理中文语句的分词工作。 首先,我们需要理解Solr的核心功能。Solr是...

    IK中文分词器

    IK中文分词器是一款在Java平台上广泛使用的开源中文分词工具,主要针对Solr和Elasticsearch等全文搜索引擎进行设计和优化。它以其高效的性能、灵活的扩展性和丰富的词库管理功能,在处理中文文本分析任务时表现优秀...

Global site tag (gtag.js) - Google Analytics