`
kfcman
  • 浏览: 399858 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

IkAnalyzer分词

 
阅读更多
  1. package com.test;  
  2.   
  3. import java.io.IOException;  
  4. import java.io.Reader;  
  5. import java.io.StringReader;  
  6. import java.util.Arrays;  
  7. import java.util.HashMap;  
  8. import java.util.LinkedHashMap;  
  9. import java.util.LinkedList;  
  10. import java.util.List;  
  11. import java.util.Map;  
  12. import java.util.regex.Matcher;  
  13. import java.util.regex.Pattern;  
  14.   
  15. import org.jsoup.Jsoup;  
  16. import org.jsoup.nodes.Document;  
  17. import org.jsoup.nodes.Element;  
  18. import org.jsoup.select.Elements;  
  19. import org.wltea.analyzer.core.IKSegmenter;  
  20. import org.wltea.analyzer.core.Lexeme;  
  21.   
  22. import com.test.entity.ArticleThesaurus;  
  23.   
  24. public class IkAnalyzerTest {  
  25.     public static void main(String[] args) {  
  26. //      String str = " 铜管方<a href='http://auto.ifeng.com/' target='_blank'>< font color='#004276'>面</font></a>,3月铜管企业开工率为85.54%,4月达 88%。据了解,由于3月铜价低迷,铜管企业提前备货,精铜需求提前放量。"  
  27. //              + "3月铜杆线企业开工率为72.47%,4月上升至76%。开工率上行,"  
  28. //              + "但前期备货并不充足,导致现货市场集中采购增加,供应紧张凸显。fdsf紫铜铜inf的说法都是紫铜,"  
  29. //              + "我勒个去黄铜恩恩黄铜哈哈哈黄铜铜,我勒个去白铜,范德萨范德萨发白铜,古代有很多人用青铜器,是的就是这个东西它的名字是一种金属叫青铜。";  
  30.         //System.out.println("Jane Campion directed \"The Piano\" in 1993.");  
  31.         String str="由于对经济形势的的担忧,市场一直低迷,各方面消息被吸<a href='http://www.test.cn/quote/'>铜价</a> 收,市场经济困难局面早已被认同," +  
  32.                 "随着各国政策的出台实施及各经济数据的公布,担忧情绪渐缓,沪铝即将迎来谷底反弹的时机。  
  33.   </p> <p> 操作思路<img src=\"####\" alt=\"锻铜铍铜\" />" +  
  34.                 "15500<a href='http://www.test.cn/product/tjthj_ht/'>黄铜</a>锻铜以下紫铜板多单继续持有,15575以下果断购入多单,止损15250价位," +  
  35.                 "如果突破15750价位并站稳,可继续加仓购入多单。<img src=\"www.baidu.com\" alt=\"范德萨发生的\" />";  
  36.         Pattern p = Pattern.compile("</?(A|a)(\n|.)*?>");  
  37.         Matcher m = p.matcher(str);  
  38.         str = m.replaceAll("");  
  39.         System.out.println("清除所有a标签:"+str);  
  40.       
  41.           
  42.         System.out.println("分词后:"+ikAnalyzer(str));  
  43.         String afterFcStr = ikAnalyzer(str); // 分词后的字符串  
  44.   
  45.         // 计算词频  
  46.         Map<String, Integer> words = new HashMap<String, Integer>();  
  47.         IKSegmenter seg = new IKSegmenter(new StringReader(afterFcStr), true);  
  48.         try {  
  49.             Lexeme l = null;  
  50.             while ((l = seg.next()) != null) {  
  51.                 if (words.containsKey(l.getLexemeText()))  
  52.                     words.put(l.getLexemeText(),  
  53.                             words.get(l.getLexemeText()) + 1);  
  54.                 else  
  55.                     words.put(l.getLexemeText(), 1);  
  56.             }  
  57.         } catch (IOException e) {  
  58.             e.printStackTrace();  
  59.         }  
  60.   
  61.          for (Map.Entry<String, Integer> entry : words.entrySet()) {  
  62.          System.out.println("key= " + entry.getKey() + " and value= "  
  63.          + entry.getValue());  
  64.          }  
  65.   
  66.          Integer count=words.get("铜价");  
  67.          if(count!=null){  
  68.          System.out.println("该词频:"+count);  
  69.          }else{  
  70.          System.out.println("该词频不存在");  
  71.          }  
  72.     //添加文章内链 一篇文章不超过五个内链 多个关键词 只替换一个关键词  
  73.         List<ArticleThesaurus> listKeyWord = new LinkedList<ArticleThesaurus>();  
  74.         ArticleThesaurus at1 = new ArticleThesaurus("铜""http://www.test.cn");  
  75.         ArticleThesaurus at2 = new ArticleThesaurus("铜价","http://www.test.cn/quote/");  
  76.         ArticleThesaurus at3 = new ArticleThesaurus("紫铜",  
  77.                 "http://www.test.cn/product/tjthj_ct_zt/");  
  78.         ArticleThesaurus at4 = new ArticleThesaurus("黄铜",  
  79.                 "http://www.test.cn/product/tjthj_ht/");  
  80.         ArticleThesaurus at5 = new ArticleThesaurus("白铜",  
  81.                 "http://www.test.cn/product/tjthj_bt/");  
  82.         ArticleThesaurus at6 = new ArticleThesaurus("青铜",  
  83.                 "http://www.test.cn/product/tjthj_qt/ ");  
  84.         listKeyWord.add(at1);  
  85.         listKeyWord.add(at2);  
  86.         listKeyWord.add(at3);  
  87.         listKeyWord.add(at4);  
  88.         listKeyWord.add(at5);  
  89.         listKeyWord.add(at6);  
  90.   
  91.         String newStr ;  
  92.         newStr = afterFcStr;  
  93.         String article[] = afterFcStr.split("\\|");  
  94.         int successcount = 0;  
  95.         for (int i = 0; i < listKeyWord.size(); i++) {  
  96.             if (successcount == 5) {  
  97.                 break;  
  98.             }  
  99.             String wordname = listKeyWord.get(i).getWord();  
  100.             Map<String, Integer> map = new LinkedHashMap<String, Integer>(); // 防止重复添加内链  
  101.             for (int j = 0; j < article.length; j++) {  
  102.   
  103.                 if (wordname.equals(article[j])) {  
  104.                     if (map.get(wordname)== null) {  
  105.                         map.put(wordname, 1);  
  106.                         Arrays.fill(article, j, j + 1"<a href='"  
  107.                                 + listKeyWord.get(i).getUrl() + "'>" + wordname  
  108.                                 + "</a>");  
  109.                         successcount++;  
  110.                     }  
  111.                 }  
  112.   
  113.             }  
  114.         }  
  115.   
  116.         // for(int i=0;i<listKeyWord.size();i++){  
  117.         // String wordname=listKeyWord.get(i).getWord();  
  118.         // Integer count=words.get(wordname);  
  119.         // if(successcount==5){  
  120.         // break;  
  121.         // }  
  122.         // if(count!=null){  
  123.         // //System.out.println("该词频:"+count);  
  124.         // newStr=newStr.replaceFirst(wordname,  
  125.         // "<a href='"+listKeyWord.get(i).getUrl()+"'>"+wordname+"</a>");  
  126.         // successcount++;  
  127.         // }else{  
  128.         // //System.out.println("该词频不存在");  
  129.         // }  
  130.         // }  
  131.         System.out.println("内链优化后的文章:" + Arrays.toString(article));  
  132.         StringBuilder StrArticle=new StringBuilder();  
  133.         for(int i=0;i<article.length;i++){  
  134.             StrArticle.append(article[i]);  
  135.         }  
  136.         //System.out.println("被优化多少个内链:"+successcount);  
  137.         //System.out.println("内链优化后的文章字符串:" + StrArticle);  
  138.         String endStr=StrArticle.toString();  
  139.         if(successcount==0){    //可能分词导致部分关键词没有匹配到 则采用绝对字符匹配  
  140.             for (int i = 0; i < listKeyWord.size(); i++) {  
  141.                 //判断文章里的超链接数  
  142.                 int acount=occurTimes(endStr,"href=");  
  143.                 if(acount==5){  
  144.                     break;  
  145.                 }  
  146.                 String wordname = listKeyWord.get(i).getWord();  
  147.                 endStr=endStr.replaceFirst(wordname, "<a href='"  
  148.                                 + listKeyWord.get(i).getUrl() + "'>" + wordname  
  149.                                 + "</a>");  
  150.                   
  151.             }  
  152.         }  
  153.           
  154.         //去除alt标签内的a内链  
  155.         System.out.println("内链优化后的文章字符串:"+endStr);  
  156.         Document doc = Jsoup.parseBodyFragment(endStr); // or Jsoup.parse(...);  
  157.         Elements images = doc.select("img");  
  158.           
  159.         List<String> listAltStr=new LinkedList<String>();  
  160.           
  161.         for(Element image : images){  
  162.            // System.out.printf("%s:%s%n", image.attr("src"), image.attr("alt"));  
  163.             //System.out.println(image.attr("alt"));  
  164.               
  165.             String altStr=image.attr("alt");  
  166.             Pattern p1 = Pattern.compile("</?(A|a)(\n|.)*?>");  
  167.             Matcher m1 = p.matcher(altStr);  
  168.             altStr = m1.replaceAll("");  
  169.             listAltStr.add(altStr);  
  170.             image.attr("alt", altStr);  
  171.               
  172.             //System.out.println(altStr);  
  173.         }  
  174.         doc.select("img").listIterator();   
  175.         System.out.println("end内链优化后的文章字符串:" + doc.select("body").html());  
  176.     }  
  177.       
  178.     /** 
  179.      * 字符在字符串中出现的次数 
  180.      *  
  181.      * @param string 
  182.      * @param a 
  183.      * @return 
  184.      */  
  185.     public static int occurTimes(String string, String a) {  
  186.         int pos = -2;  
  187.         int n = 0;  
  188.        
  189.         while (pos != -1) {  
  190.             if (pos == -2) {  
  191.                 pos = -1;  
  192.             }  
  193.             pos = string.indexOf(a, pos + 1);  
  194.             if (pos != -1) {  
  195.                 n++;  
  196.             }  
  197.         }  
  198.         return n;  
  199.     }  
  200.   
  201.     public static String ikAnalyzer(String str) {  
  202.   
  203.         Reader input = new StringReader(str);  
  204.         // 智能分词关闭(对分词的精度影响很大)  
  205.         IKSegmenter iks = new IKSegmenter(input, true);  
  206.         Lexeme lexeme = null;  
  207.         StringBuilder sb = new StringBuilder();  
  208.   
  209.         try {  
  210.             while ((lexeme = iks.next()) != null) {  
  211.   
  212.                 sb.append(lexeme.getLexemeText()).append("|");  
  213.             }  
  214.         } catch (IOException e) {  
  215.             e.printStackTrace();  
  216.         }  
  217.   
  218.         return sb.toString();  
  219.     }  
  220.   

 

原文链接地址:http://skyfar666.iteye.com/blog/2087029

分享到:
评论

相关推荐

    ikanalyzer分词器

    ikanalyzer分词器是一款在Java环境下广泛使用的中文分词工具,尤其在搜索引擎和文本分析领域中扮演着重要角色。它的核心是ikanalyzer.jar类库,这个库包含了分词算法和其他必要的支持类,使得开发者能够轻松地集成到...

    IKanalyzer 分词小测试例子

    **IKanalyzer分词器详解** IKAnalyzer是一款开源的、基于Java实现的中文分词工具,主要用于对中文文本进行分词处理。它以其高效、灵活的特性,在许多Java开发的搜索引擎和自然语言处理项目中得到广泛应用。这个"IK...

    solr配置ikanalyzer分词文件以使用说明

    在这个说明中,我们将详细讲解如何在Solr 6.0中配置ikanalyzer分词文件,以实现对中文文本的有效处理。 1. **ikanalyzer简介** ikanalyzer是一款专门为Java语言设计的开源中文分词库,它基于Apache Lucene项目,...

    IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载

    IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载 Solr中使用IK-Analyzer实现中文分词器的配置详情 : http://blog.csdn.net/hello_world_qwp/article/details/78890904

    IKAnalyzer分词器源码+可直接使用jar包

    **IKAnalyzer分词器**是Java开发的一款高性能的中文分词工具,主要应用于搜索引擎和文本分析领域。它的设计目标是提供一个轻量级、高效能的解决方案,支持自定义词典,可以方便地集成到各种系统中。在本资源中,我们...

    IKAnalyzer分词器应用于文章匹配算法

    利用IKAnalyzer分词器来做文章的匹配算法。主要思想是先用IKAnalyzer分词器分析2篇文章,然后把2篇文章的关键字进行比较,如果相同的个数在所有关键字的总数大于某个预设的值,就认为2篇文章是相同的。

    IKAnalyzer分词器

    标题中的"IKAnalyzer分词器"指的是IKAnalyzer这个软件工具,它是一个基于Java的全文检索分析引擎。它的主要任务是对中文文本进行分词,即将连续的汉字序列切分成一个个有意义的词汇,这是中文信息处理中的关键步骤。...

    IK Analyzer 分词

    在启动时,IK Analyzer 会加载词典文件,通常是 `dict` 目录下的 `ikanalyzer.dict` 文件,这个文件包含了各种常用词汇及其属性信息。 2. **分词算法**:在处理输入文本时,IK Analyzer 会使用正向和逆向最大匹配...

    IKAnalyzer分词

    IKAnalyzer分词,IKAnalyzer分词

    IKAnalyzer分词器 下载IKAnalyzer2012FF_u1.jar

    IKAnalyzer分词器版本 2012 兼容Lucene3.3以上版本 对solr1.4提供接口实现 使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IK...

    solr 6.x能够使用的IKAnalyzer分词器

    网上有很多关于IKAnalyzer分词器的jar,但当我们使用solr 6.x进行配置的时候,就发现会各种各样的报错,最常出现的问题就是抽象方法错误,其实就是因为我们使用的IKAnalyzer版本和solr版本不匹配导致系统无法根据...

    IkAnalyzer分词工具

    IkAnalyzer3.2的jar包 IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合...

    IKAnalyzer 分词源码

    **IKAnalyzer分词源码详解** IKAnalyzer是一款广泛使用的开源中文分词器,它主要针对Java平台设计,具有良好的性能和扩展性。该分词器适用于各种文本处理场景,如搜索引擎构建、信息检索、文本挖掘等。其核心在于...

    IK Analyzer 中文分词器下载

    IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索或信息提取等任务设计。它由尹力(Wu Li)在2006年发起,最初是为了改善Lucene的中文处理能力。自那时起,IK Analyzer已经发展成为一个广泛使用的...

    IkAnalyzer分词、词频、内链优化

    《IkAnalyzer分词、词频、内链优化详解》 在中文信息处理领域,分词是文本分析的基础,它能够将连续的汉字序列拆分成具有语义意义的词汇单元,为后续的文本挖掘、搜索引擎、信息检索等任务提供关键支持。IkAnalyzer...

    比较全的IKAnalyzer分词器中文停用词 stopwords.dic

    内容直接拷贝进stopword.dic即可使用(2614行常用停用词包含中英文,符号等)

    lucene 所有jar包 包含IKAnalyzer分词器

    本文将深入探讨Lucene的核心组件及其与IKAnalyzer分词器的结合使用。 首先,我们来了解一下Lucene的核心组件。`lucene-core-3.6.1.jar`是Lucene的核心库,包含了索引和搜索的主要功能,如文档的添加、删除和更新,...

    IKAnalyzer分词工具

    IKAnalyzer是一款广泛应用于Java平台的开源分词工具,专门针对中文文本进行高效的分词处理。它的全称为"Intelligent Chinese Analyzer for Lucene",旨在提高Lucene等搜索引擎在中文环境下的搜索性能。Lucene是...

    IkAnalyzer分词器

    **IkAnalyzer分词器详解** IkAnalyzer是一款在Java环境下专门针对中文处理的开源搜索分析器。它主要应用于全文检索领域,旨在提供一个更加符合中文处理的分词器。IkAnalyzer的发展始于Lucene项目,经过多年的迭代和...

Global site tag (gtag.js) - Google Analytics