package com.test; import java.io.IOException; import java.io.Reader; import java.io.StringReader; import java.util.Arrays; import java.util.HashMap; import java.util.LinkedHashMap; import java.util.LinkedList; import java.util.List; import java.util.Map; import java.util.regex.Matcher; import java.util.regex.Pattern; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import org.wltea.analyzer.core.IKSegmenter; import org.wltea.analyzer.core.Lexeme; import com.test.entity.ArticleThesaurus; public class IkAnalyzerTest { public static void main(String[] args) { // String str = "铜管方<a href='http://auto.ifeng.com/' target='_blank'><font color='#004276'>面</font></a>,3月铜管企业开工率为85.54%,4月达88%。据了解,由于3月铜价低迷,铜管企业提前备货,精铜需求提前放量。" // + "3月铜杆线企业开工率为72.47%,4月上升至76%。开工率上行," // + "但前期备货并不充足,导致现货市场集中采购增加,供应紧张凸显。fdsf紫铜铜inf的说法都是紫铜," // + "我勒个去黄铜恩恩黄铜哈哈哈黄铜铜,我勒个去白铜,范德萨范德萨发白铜,古代有很多人用青铜器,是的就是这个东西它的名字是一种金属叫青铜。"; //System.out.println("Jane Campion directed \"The Piano\" in 1993."); String str="由于对经济形势的的担忧,市场一直低迷,各方面消息被吸<a href='http://www.test.cn/quote/'>铜价</a> 收,市场经济困难局面早已被认同," + "随着各国政策的出台实施及各经济数据的公布,担忧情绪渐缓,沪铝即将迎来谷底反弹的时机。 </p> <p> 操作思路<img src=\"####\" alt=\"锻铜铍铜\" />" + "15500<a href='http://www.test.cn/product/tjthj_ht/'>黄铜</a>锻铜以下紫铜板多单继续持有,15575以下果断购入多单,止损15250价位," + "如果突破15750价位并站稳,可继续加仓购入多单。<img src=\"www.baidu.com\" alt=\"范德萨发生的\" />"; Pattern p = Pattern.compile("</?(A|a)(\n|.)*?>"); Matcher m = p.matcher(str); str = m.replaceAll(""); System.out.println("清除所有a标签:"+str); System.out.println("分词后:"+ikAnalyzer(str)); String afterFcStr = ikAnalyzer(str); // 分词后的字符串 // 计算词频 Map<String, Integer> words = new HashMap<String, Integer>(); IKSegmenter seg = new IKSegmenter(new StringReader(afterFcStr), true); try { Lexeme l = null; while ((l = seg.next()) != null) { if (words.containsKey(l.getLexemeText())) words.put(l.getLexemeText(), words.get(l.getLexemeText()) + 1); else words.put(l.getLexemeText(), 1); } } catch (IOException e) { e.printStackTrace(); } for (Map.Entry<String, Integer> entry : words.entrySet()) { System.out.println("key= " + entry.getKey() + " and value= " + entry.getValue()); } Integer count=words.get("铜价"); if(count!=null){ System.out.println("该词频:"+count); }else{ System.out.println("该词频不存在"); } //添加文章内链 一篇文章不超过五个内链 多个关键词 只替换一个关键词 List<ArticleThesaurus> listKeyWord = new LinkedList<ArticleThesaurus>(); ArticleThesaurus at1 = new ArticleThesaurus("铜", "http://www.test.cn"); ArticleThesaurus at2 = new ArticleThesaurus("铜价","http://www.test.cn/quote/"); ArticleThesaurus at3 = new ArticleThesaurus("紫铜", "http://www.test.cn/product/tjthj_ct_zt/"); ArticleThesaurus at4 = new ArticleThesaurus("黄铜", "http://www.test.cn/product/tjthj_ht/"); ArticleThesaurus at5 = new ArticleThesaurus("白铜", "http://www.test.cn/product/tjthj_bt/"); ArticleThesaurus at6 = new ArticleThesaurus("青铜", "http://www.test.cn/product/tjthj_qt/ "); listKeyWord.add(at1); listKeyWord.add(at2); listKeyWord.add(at3); listKeyWord.add(at4); listKeyWord.add(at5); listKeyWord.add(at6); String newStr ; newStr = afterFcStr; String article[] = afterFcStr.split("\\|"); int successcount = 0; for (int i = 0; i < listKeyWord.size(); i++) { if (successcount == 5) { break; } String wordname = listKeyWord.get(i).getWord(); Map<String, Integer> map = new LinkedHashMap<String, Integer>(); // 防止重复添加内链 for (int j = 0; j < article.length; j++) { if (wordname.equals(article[j])) { if (map.get(wordname)== null) { map.put(wordname, 1); Arrays.fill(article, j, j + 1, "<a href='" + listKeyWord.get(i).getUrl() + "'>" + wordname + "</a>"); successcount++; } } } } // for(int i=0;i<listKeyWord.size();i++){ // String wordname=listKeyWord.get(i).getWord(); // Integer count=words.get(wordname); // if(successcount==5){ // break; // } // if(count!=null){ // //System.out.println("该词频:"+count); // newStr=newStr.replaceFirst(wordname, // "<a href='"+listKeyWord.get(i).getUrl()+"'>"+wordname+"</a>"); // successcount++; // }else{ // //System.out.println("该词频不存在"); // } // } System.out.println("内链优化后的文章:" + Arrays.toString(article)); StringBuilder StrArticle=new StringBuilder(); for(int i=0;i<article.length;i++){ StrArticle.append(article[i]); } //System.out.println("被优化多少个内链:"+successcount); //System.out.println("内链优化后的文章字符串:" + StrArticle); String endStr=StrArticle.toString(); if(successcount==0){ //可能分词导致部分关键词没有匹配到 则采用绝对字符匹配 for (int i = 0; i < listKeyWord.size(); i++) { //判断文章里的超链接数 int acount=occurTimes(endStr,"href="); if(acount==5){ break; } String wordname = listKeyWord.get(i).getWord(); endStr=endStr.replaceFirst(wordname, "<a href='" + listKeyWord.get(i).getUrl() + "'>" + wordname + "</a>"); } } //去除alt标签内的a内链 System.out.println("内链优化后的文章字符串:"+endStr); Document doc = Jsoup.parseBodyFragment(endStr); // or Jsoup.parse(...); Elements images = doc.select("img"); List<String> listAltStr=new LinkedList<String>(); for(Element image : images){ // System.out.printf("%s:%s%n", image.attr("src"), image.attr("alt")); //System.out.println(image.attr("alt")); String altStr=image.attr("alt"); Pattern p1 = Pattern.compile("</?(A|a)(\n|.)*?>"); Matcher m1 = p.matcher(altStr); altStr = m1.replaceAll(""); listAltStr.add(altStr); image.attr("alt", altStr); //System.out.println(altStr); } doc.select("img").listIterator(); System.out.println("end内链优化后的文章字符串:" + doc.select("body").html()); } /** * 字符在字符串中出现的次数 * * @param string * @param a * @return */ public static int occurTimes(String string, String a) { int pos = -2; int n = 0; while (pos != -1) { if (pos == -2) { pos = -1; } pos = string.indexOf(a, pos + 1); if (pos != -1) { n++; } } return n; } public static String ikAnalyzer(String str) { Reader input = new StringReader(str); // 智能分词关闭(对分词的精度影响很大) IKSegmenter iks = new IKSegmenter(input, true); Lexeme lexeme = null; StringBuilder sb = new StringBuilder(); try { while ((lexeme = iks.next()) != null) { sb.append(lexeme.getLexemeText()).append("|"); } } catch (IOException e) { e.printStackTrace(); } return sb.toString(); } }
http://skyfar666.iteye.com/blog/2087029
相关推荐
IKAnalyzer_Demo可能是一个包含示例代码的压缩包,用于演示如何使用IKAnalyzer进行中文分词以及计算句子相似度。在实践中,开发者通常会先配置IKAnalyzer,加载词典,然后对输入的句子进行分词,接着选择一种相似度...
3. 在Solr的schema.xml中配置Analyzer,指定使用IKAnalyzer,并根据需要配置词典和参数。 4. 重启Solr服务,使更改生效。 总的来说,IK Analyzer 2012FF_hf1是专为Solr4.x设计的优化版分词器,它提供了高效的中文...
IKAnalyzer 使用基于字典匹配和正向最大匹配(MaxMatch)算法,结合词频统计和上下文信息,实现高效且准确的分词效果。 2. **源码结构分析** - `src` 目录包含了 IKAnalyzer 的核心源代码,包括词典管理、分词器、...
本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...
IK_Analyzer采用了基于词频的分词方法,能够智能识别出常见的成语、短语以及新词。同时,它支持动态加载词典,使得应用能够根据实时更新的数据进行动态调整。在匹配策略上,ikanalyzersearch可能会采用如Jaccard...
(2)mvn install:install-file -DgroupId=org.wltea.ik-analyzer -DartifactId=ik-analyzer -Dversion=2012_u6 -Dpackaging=jar -Dfile=IKAnalyzer2012_u6.jar (3)在项目的pom.xml里用以下内容引入依赖: <!-- IK...
在这个项目中,我们利用TF-IDF(词频-逆文档频率)和向量空间模型来计算文本之间的相似性,同时采用IKAnalyzer作为中文分词工具。 TF-IDF是一种统计方法,用于评估一个词对于文档集或语料库中的某篇文档的重要程度...
本文将深入探讨一个基于Spark的Scala项目,该工程利用IKAnalyzer分词组件实现对唐诗宋词等国学经典的中文分词统计,并进行了排序,让我们能够了解这些古典文学作品中最常出现的词汇。 首先,Spark是大数据处理框架...
例如,对于中文,可以使用IKAnalyzer、SmartChineseAnalyzer等专门为中文设计的Analyzer,它们能够识别中文的词语边界,而不是简单地按字符分割。 3. **去除停用词**:在创建索引的过程中,往往需要去除停用词,...
2. **计算词频(Term Frequency, TF)**:对于每个文档,统计每个词出现的次数,然后除以文档的总词数,得到词频。 3. **计算逆文档频率(Inverse Document Frequency, IDF)**:对整个文档集合,统计包含某个词的...
此方法使用了IKAnalyzer进行分词,并假设有一个`calculateTFIDF`方法用于计算TF-IDF值。 总之,Java中提取文章关键字涉及预处理、分词、关键词提取算法、去重统计等多个步骤,通过使用合适的工具和算法,可以有效地...
这一步可能需要用到成熟的分词工具,如结巴分词(Jieba)、HanLP或IK Analyzer等,它们能够有效地将连续的汉字序列切分成有意义的词语。 2. **构建词汇表**:将所有分词结果整理成词汇表,每个词对应一个唯一的ID,...
Analyzer可以根据语言特性进行定制,例如英语使用WhitespaceAnalyzer,中文则通常使用IKAnalyzer或SmartChineseAnalyzer。分词后的结果会被存储到一个倒排索引(Inverted Index)中,倒排索引是Lucene效率的关键,它...
Java提供了多种分词工具,例如IK Analyzer、HanLP、jieba分词等,它们针对中文文本进行了优化,能有效地处理中文的词边界问题。 3. **构建词汇表**:统计每个文档中所有词汇的出现次数,形成词汇表,用于后续TF计算...
Java中,可以使用IK Analyzer、HanLP、jieba分词等开源库进行中文分词。选择合适的分词工具,能有效处理歧义和多词性的挑战。 ### 四、索引构建(Indexing) 索引是搜索引擎的核心,它允许快速查找包含特定词汇的...
Java中有多种分词库,如HanLP、IK Analyzer和jieba分词等,它们提供了中文和英文的分词功能。 3. **权重计算**:为每个单词分配一个权重,常用的算法有TF-IDF(词频-逆文档频率)和TextRank等。TF-IDF衡量了单词在...
TF-IDF计算词频和逆文档频率来评估词的重要性,TextRank则借鉴了图论中的PageRank算法,而LDA(Latent Dirichlet Allocation)是一种主题模型,可发现文本潜在的主题结构。 **关键词标注** 关键词标注是在文本中对...
对于中文,需要使用适当的分词器,如IK Analyzer或Smart Chinese Analyzer,以正确处理中文的词语边界问题。 最后,Lucene并非孤立存在,它可以与其他框架结合使用,例如Spring Data和Solr。Solr是基于Lucene的一个...
常用的Java库有Lucene、IK Analyzer等。 3. **索引构建模块**:建立倒排索引,将单词与文档之间的关系存储为键值对形式,便于快速查找。Lucene提供了强大的索引功能,支持多种数据结构和优化策略。 4. **查询处理...