`

一种通用的网页相似度检测算法

    博客分类:
  • rank
阅读更多

如果我们需要在海量的结构未知的网页库中找到和指定的网页相似度比较高的一些网页,我们该怎么办呢?本文提出的“一种通用的网页相似度检测算法”就是专门解决这个问题。

 

 

算法如下:

    1、提取网页文本。这个提取步骤不要求精确,也没办法精确,因为你面对的是未知结构的网页,所以只需要提取去掉标签之后的文本即可。

    2、对提取的文本进行分词。我们使用开源的中文分词组件word分词

    3、为每一个网页建立一个词向量,向量的维度就是两个网页的不重复词的并集,每一个维度的权重就是词频TF,我们这里忽略IDF也不影响。

    4、计算词向量的余弦相似度或简单共有词。

    5、相似度分值超过0.5的基本上可以视为这两个网页拥有相同的内容。

 

算法的实现代码来自本人的rank项目:

https://github.com/ysc/rank/blob/master/src/main/java/org/seo/rank/impl/GenericWebPageSimilarChecker.java

 

我的ITEYE(http://yangshangchuan.iteye.com)和OSCHINA(http://my.oschina.net/apdplat/blog)博客有很多同样的博文,主要目的是备份,这里刚好用来测试相似度检测算法的效果,从测试效果来看,相似度分值低于0.5的两篇博文,一篇是由于正文内容太少,不足以抵消干扰信息,另一篇是由于博文不是完整的内容,具体两种相似度判定情况如下所示:

 

判定相似性的方式一:简单共有词

检查的博文数:103,相似度大于等于0.5的博文数:103,相似度小于0.5的博文数:0

1、检查博文:一个月的时间让你的词汇量翻一翻,相似度分值:0.99

    博文地址1:http://my.oschina.net/apdplat/blog/379303
    博文地址2:http://yangshangchuan.iteye.com/blog/2186301

2、检查博文:1208个合成词,相似度分值:0.99

    博文地址1:http://my.oschina.net/apdplat/blog/393724
    博文地址2:http://yangshangchuan.iteye.com/blog/2197556

3、检查博文:分析996个词根在各大考纲词汇中的作用(五)总结精选篇,相似度分值:0.99

    博文地址1:http://my.oschina.net/apdplat/blog/391865
    博文地址2:http://yangshangchuan.iteye.com/blog/2195991

4、检查博文:根据76大细分词性对单词进行归组(二),相似度分值:0.99

    博文地址1:http://my.oschina.net/apdplat/blog/393774
    博文地址2:http://yangshangchuan.iteye.com/blog/2197877

5、检查博文:根据76大细分词性对单词进行归组(一),相似度分值:0.99

    博文地址1:http://my.oschina.net/apdplat/blog/393771
    博文地址2:http://yangshangchuan.iteye.com/blog/2197874

6、检查博文:2000个软件开发领域的高频特殊词及精选例句(一),相似度分值:0.99

    博文地址1:http://my.oschina.net/apdplat/blog/389200
    博文地址2:http://yangshangchuan.iteye.com/blog/2195665

7、检查博文:JDK源代码中最重要的4646个英语单词,相似度分值:0.98

    博文地址1:http://my.oschina.net/apdplat/blog/390915
    博文地址2:http://yangshangchuan.iteye.com/blog/2195664

8、检查博文:利用1189个精选句子彻底掌握2190个单词,相似度分值:0.98

    博文地址1:http://my.oschina.net/apdplat/blog/394941
    博文地址2:http://yangshangchuan.iteye.com/blog/2199287

9、检查博文:词组习语3054组,相似度分值:0.97

    博文地址1:http://my.oschina.net/apdplat/blog/393374
    博文地址2:http://yangshangchuan.iteye.com/blog/2197555

10、检查博文:英语单词后缀规则总结,相似度分值:0.97

    博文地址1:http://my.oschina.net/apdplat/blog/379330
    博文地址2:http://yangshangchuan.iteye.com/blog/2186326

11、检查博文:英语单词音近形似转化规律研究,相似度分值:0.97

    博文地址1:http://my.oschina.net/apdplat/blog/378569
    博文地址2:http://yangshangchuan.iteye.com/blog/2186300

12、检查博文:英语单词前缀规则总结,相似度分值:0.96

    博文地址1:http://my.oschina.net/apdplat/blog/378753
    博文地址2:http://yangshangchuan.iteye.com/blog/2186327

13、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:0.95

    博文地址1:http://my.oschina.net/apdplat/blog/388816
    博文地址2:http://yangshangchuan.iteye.com/blog/2194214

14、检查博文:分析151个后缀在各大考纲词汇中的作用(三)总结精选篇,相似度分值:0.95

    博文地址1:http://my.oschina.net/apdplat/blog/392466
    博文地址2:http://yangshangchuan.iteye.com/blog/2196690

15、检查博文:二百多部软件著作中最重要的9224个英语单词,相似度分值:0.94

    博文地址1:http://my.oschina.net/apdplat/blog/391023
    博文地址2:http://yangshangchuan.iteye.com/blog/2195559

16、检查博文:JDK源代码以及200多部软件著作中出现的以连字符构造的1011个合成词,相似度分值:0.94

    博文地址1:http://my.oschina.net/apdplat/blog/394495
    博文地址2:http://yangshangchuan.iteye.com/blog/2199283

17、检查博文:分析在各大考纲词汇中既没有词根也没有前缀和后缀的独立单词,相似度分值:0.94

    博文地址1:http://my.oschina.net/apdplat/blog/392483
    博文地址2:http://yangshangchuan.iteye.com/blog/2196691

18、检查博文:分析113个前缀在各大考纲词汇中的作用(二)总结精选篇,相似度分值:0.94

    博文地址1:http://my.oschina.net/apdplat/blog/392456
    博文地址2:http://yangshangchuan.iteye.com/blog/2195996

19、检查博文:OSCHINA博文抄袭检查,相似度分值:0.94

    博文地址1:http://my.oschina.net/apdplat/blog/396414
    博文地址2:http://yangshangchuan.iteye.com/blog/2200451

20、检查博文:ITEYE博文抄袭检查,相似度分值:0.93

    博文地址1:http://my.oschina.net/apdplat/blog/396411
    博文地址2:http://yangshangchuan.iteye.com/blog/2199536

21、检查博文:一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法,相似度分值:0.92

    博文地址1:http://my.oschina.net/apdplat/blog/398338
    博文地址2:http://yangshangchuan.iteye.com/blog/2200810

22、检查博文:分析在各大考纲词汇中同时拥有前缀后缀和词根的词(一),相似度分值:0.91

    博文地址1:http://my.oschina.net/apdplat/blog/392490
    博文地址2:http://yangshangchuan.iteye.com/blog/2198571

23、检查博文:软件业的奥斯卡奖:JOLT奖 之 最好的书,相似度分值:0.9

    博文地址1:http://my.oschina.net/apdplat/blog/395681
    博文地址2:http://yangshangchuan.iteye.com/blog/1837328

24、检查博文:计算ITEYE博文在百度的收录与排名情况,相似度分值:0.87

    博文地址1:http://my.oschina.net/apdplat/blog/395970
    博文地址2:http://yangshangchuan.iteye.com/blog/2199419

25、检查博文:APDPlat中数据库备份恢复的设计与实现,相似度分值:0.84

    博文地址1:http://my.oschina.net/apdplat/blog/196912
    博文地址2:http://yangshangchuan.iteye.com/blog/2010680

26、检查博文:中文分词算法 之 基于词典的逆向最大匹配算法,相似度分值:0.84

    博文地址1:http://my.oschina.net/apdplat/blog/210427
    博文地址2:http://yangshangchuan.iteye.com/blog/2033843

27、检查博文:Java中文分词组件 - word分词,相似度分值:0.84

    博文地址1:http://my.oschina.net/apdplat/blog/228619
    博文地址2:http://yangshangchuan.iteye.com/blog/2056959

28、检查博文:网络爬虫面临的挑战 之 链接构造,相似度分值:0.84

    博文地址1:http://my.oschina.net/apdplat/blog/208716
    博文地址2:http://yangshangchuan.iteye.com/blog/2031642

29、检查博文:APDPlat中的用户密码安全策略,相似度分值:0.83

    博文地址1:http://my.oschina.net/apdplat/blog/207124
    博文地址2:http://yangshangchuan.iteye.com/blog/2029367

30、检查博文:Hadoop发行版的比较与选择,相似度分值:0.81

    博文地址1:http://my.oschina.net/apdplat/blog/397625
    博文地址2:http://yangshangchuan.iteye.com/blog/1972846

31、检查博文:APDPlat拓展搜索之集成ElasticSearch,相似度分值:0.81

    博文地址1:http://my.oschina.net/apdplat/blog/197012
    博文地址2:http://yangshangchuan.iteye.com/blog/2010755

32、检查博文:大数据系列11:Gora – 大数据持久化,相似度分值:0.81

    博文地址1:http://my.oschina.net/apdplat/blog/396684
    博文地址2:http://yangshangchuan.iteye.com/blog/1953733

33、检查博文:APDPlat拓展搜索之集成Solr,相似度分值:0.81

    博文地址1:http://my.oschina.net/apdplat/blog/197020
    博文地址2:http://yangshangchuan.iteye.com/blog/2010760

34、检查博文:APDPlat如何自动建库建表并初始化数据?,相似度分值:0.8

    博文地址1:http://my.oschina.net/apdplat/blog/197703
    博文地址2:http://yangshangchuan.iteye.com/blog/2012220

35、检查博文:中文分词算法 之 基于词典的正向最大匹配算法,相似度分值:0.8

    博文地址1:http://my.oschina.net/apdplat/blog/209211
    博文地址2:http://yangshangchuan.iteye.com/blog/2031813

36、检查博文:Java应用系统中自动实时检测资源文件内容变化,相似度分值:0.78

    博文地址1:http://my.oschina.net/apdplat/blog/312609
    博文地址2:http://yangshangchuan.iteye.com/blog/2115461

37、检查博文:采集电子报纸,相似度分值:0.78

    博文地址1:http://my.oschina.net/apdplat/blog/397051
    博文地址2:http://yangshangchuan.iteye.com/blog/1996911

38、检查博文:Java开源项目cws_evaluation:中文分词器分词效果评估,相似度分值:0.78

    博文地址1:http://my.oschina.net/apdplat/blog/308391
    博文地址2:http://yangshangchuan.iteye.com/blog/2059040

39、检查博文:APDPlat中业务日志和监控日志的设计与实现,相似度分值:0.78

    博文地址1:http://my.oschina.net/apdplat/blog/196604
    博文地址2:http://yangshangchuan.iteye.com/blog/2010571

40、检查博文:APDPlat的系统启动和关闭流程剖析,相似度分值:0.77

    博文地址1:http://my.oschina.net/apdplat/blog/197067
    博文地址2:http://yangshangchuan.iteye.com/blog/2010808

41、检查博文:The Future of Compass & ElasticSearch,相似度分值:0.77

    博文地址1:http://my.oschina.net/apdplat/blog/397148
    博文地址2:http://yangshangchuan.iteye.com/blog/2010721

42、检查博文:APDPlat中领域模型的自描述机制与事件通知机制,相似度分值:0.76

    博文地址1:http://my.oschina.net/apdplat/blog/196973
    博文地址2:http://yangshangchuan.iteye.com/blog/2010734

43、检查博文:APDPlat中备份文件异地容灾机制之FTP上传,相似度分值:0.76

    博文地址1:http://my.oschina.net/apdplat/blog/197005
    博文地址2:http://yangshangchuan.iteye.com/blog/2010750

44、检查博文:QuestionAnsweringSystem v1.1 发布,人机问答系统,相似度分值:0.76

    博文地址1:http://my.oschina.net/apdplat/blog/308392
    博文地址2:http://yangshangchuan.iteye.com/blog/2101533

45、检查博文:APDPlat中的机器码生成机制,相似度分值:0.75

    博文地址1:http://my.oschina.net/apdplat/blog/197805
    博文地址2:http://yangshangchuan.iteye.com/blog/2012401

46、检查博文:大数据系列4:Hive – 基于HADOOP的数据仓库,相似度分值:0.74

    博文地址1:http://my.oschina.net/apdplat/blog/396582
    博文地址2:http://yangshangchuan.iteye.com/blog/1950178

47、检查博文:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎,相似度分值:0.73

    博文地址1:http://my.oschina.net/apdplat/blog/308396
    博文地址2:http://yangshangchuan.iteye.com/blog/2103664

48、检查博文:软件熵:软件开发中推倒重来的过程就是软件熵不断增加的过程,相似度分值:0.73

    博文地址1:http://my.oschina.net/apdplat/blog/311291
    博文地址2:http://yangshangchuan.iteye.com/blog/2113923

49、检查博文:大数据系列1:在win7上安装配置Hadoop伪分布式集群,相似度分值:0.72

    博文地址1:http://my.oschina.net/apdplat/blog/396579
    博文地址2:http://yangshangchuan.iteye.com/blog/1953929

50、检查博文:new一个Object对象占用多少内存?,相似度分值:0.72

    博文地址1:http://my.oschina.net/apdplat/blog/208456
    博文地址2:http://yangshangchuan.iteye.com/blog/2021423

51、检查博文:中文分词效果对比,相似度分值:0.72

    博文地址1:http://my.oschina.net/apdplat/blog/228614
    博文地址2:http://yangshangchuan.iteye.com/blog/2043184

52、检查博文:运行nutch提示:0 records selected for fetching, exiting,相似度分值:0.72

    博文地址1:http://my.oschina.net/apdplat/blog/396699
    博文地址2:http://yangshangchuan.iteye.com/blog/2033009

53、检查博文:Amazon Dynamo的NWR模型,相似度分值:0.71

    博文地址1:http://my.oschina.net/apdplat/blog/393783
    博文地址2:http://yangshangchuan.iteye.com/blog/2010574

54、检查博文:配置Nutch模拟浏览器以绕过反爬虫限制,相似度分值:0.71

    博文地址1:http://my.oschina.net/apdplat/blog/208457
    博文地址2:http://yangshangchuan.iteye.com/blog/2030741

55、检查博文:Ubuntu上安装HADOOP多机完全分布式集群,相似度分值:0.7

    博文地址1:http://my.oschina.net/apdplat/blog/397146
    博文地址2:http://yangshangchuan.iteye.com/blog/1840481

56、检查博文:Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor,相似度分值:0.7

    博文地址1:http://my.oschina.net/apdplat/blog/308400
    博文地址2:http://yangshangchuan.iteye.com/blog/2110604

57、检查博文:APDPlat旗下10大开源项目,欢迎大家一起来参与,相似度分值:0.7

    博文地址1:http://my.oschina.net/apdplat/blog/395498
    博文地址2:http://yangshangchuan.iteye.com/blog/2200130

58、检查博文:中文分词算法 之 词典机制性能优化与测试,相似度分值:0.7

    博文地址1:http://my.oschina.net/apdplat/blog/213968
    博文地址2:http://yangshangchuan.iteye.com/blog/2035007

59、检查博文:给JAVA源代码文件统一地添加licence信息头,相似度分值:0.7

    博文地址1:http://my.oschina.net/apdplat/blog/396415
    博文地址2:http://yangshangchuan.iteye.com/blog/1841150

60、检查博文:技术框架太多,多的眼花缭乱,如何在众多选择中找到自己的方向?,相似度分值:0.7

    博文地址1:http://my.oschina.net/apdplat/blog/393810
    博文地址2:http://yangshangchuan.iteye.com/blog/2197217

61、检查博文:大数据系列6:HBase – 基于Hadoop的分布式数据库,相似度分值:0.69

    博文地址1:http://my.oschina.net/apdplat/blog/396587
    博文地址2:http://yangshangchuan.iteye.com/blog/1954018

62、检查博文:运行nutch报错:unzipBestEffort returned null,相似度分值:0.69

    博文地址1:http://my.oschina.net/apdplat/blog/207653
    博文地址2:http://yangshangchuan.iteye.com/blog/2030096

63、检查博文:JAVA调用CSDN接口发博文,相似度分值:0.69

    博文地址1:http://my.oschina.net/apdplat/blog/200145
    博文地址2:http://yangshangchuan.iteye.com/blog/2017751

64、检查博文:The Design of HDFS,相似度分值:0.68

    博文地址1:http://my.oschina.net/apdplat/blog/397149
    博文地址2:http://yangshangchuan.iteye.com/blog/2002898

65、检查博文:大数据系列7:Storm – 流计算,相似度分值:0.68

    博文地址1:http://my.oschina.net/apdplat/blog/396589
    博文地址2:http://yangshangchuan.iteye.com/blog/1950165

66、检查博文:使用JSoup+CSSPath采集和讯网人物信息,相似度分值:0.68

    博文地址1:http://my.oschina.net/apdplat/blog/397143
    博文地址2:http://yangshangchuan.iteye.com/blog/1966497

67、检查博文:大数据系列5:Pig – 大数据分析平台,相似度分值:0.68

    博文地址1:http://my.oschina.net/apdplat/blog/396584
    博文地址2:http://yangshangchuan.iteye.com/blog/1950274

68、检查博文:如何在你的应用中集成人机问答系统QuestionAnsweringSystem?,相似度分值:0.67

    博文地址1:http://my.oschina.net/apdplat/blog/308397
    博文地址2:http://yangshangchuan.iteye.com/blog/2108250

69、检查博文:如何解决BUG?,相似度分值:0.67

    博文地址1:http://my.oschina.net/apdplat/blog/394216
    博文地址2:http://yangshangchuan.iteye.com/blog/1960489

70、检查博文:Windows上安装HADOOP单机伪分布式集群,相似度分值:0.67

    博文地址1:http://my.oschina.net/apdplat/blog/397147
    博文地址2:http://yangshangchuan.iteye.com/blog/1839814

71、检查博文:分布式内存文件系统:Tachyon,相似度分值:0.66

    博文地址1:http://my.oschina.net/apdplat/blog/377832
    博文地址2:http://yangshangchuan.iteye.com/blog/2199538

72、检查博文:30个JDK类库源代码中最频繁出现的词的深度分析,相似度分值:0.65

    博文地址1:http://my.oschina.net/apdplat/blog/390615
    博文地址2:http://yangshangchuan.iteye.com/blog/2194885

73、检查博文:Ubuntu上安装HADOOP单机伪分布式集群,相似度分值:0.65

    博文地址1:http://my.oschina.net/apdplat/blog/397145
    博文地址2:http://yangshangchuan.iteye.com/blog/1839809

74、检查博文:使用CountDownLatch来模拟马拉松比赛,相似度分值:0.64

    博文地址1:http://my.oschina.net/apdplat/blog/385448
    博文地址2:http://yangshangchuan.iteye.com/blog/2198572

75、检查博文:大数据系列10:Spark – 内存计算,相似度分值:0.64

    博文地址1:http://my.oschina.net/apdplat/blog/396683
    博文地址2:http://yangshangchuan.iteye.com/blog/1950276

76、检查博文:Java8全新打造,英语学习supertool,相似度分值:0.64

    博文地址1:http://my.oschina.net/apdplat/blog/393187
    博文地址2:http://yangshangchuan.iteye.com/blog/2196853

77、检查博文:模拟浏览器的神器 - HtmlUnit,相似度分值:0.64

    博文地址1:http://my.oschina.net/apdplat/blog/217586
    博文地址2:http://yangshangchuan.iteye.com/blog/2036809

78、检查博文:对Nutch2.1抽象存储层的一些看法,相似度分值:0.64

    博文地址1:http://my.oschina.net/apdplat/blog/396129
    博文地址2:http://yangshangchuan.iteye.com/blog/1835074

79、检查博文:动态索引结构和索引更新机制,相似度分值:0.63

    博文地址1:http://my.oschina.net/apdplat/blog/308393
    博文地址2:http://yangshangchuan.iteye.com/blog/2103647

80、检查博文:大数据系列2:建立开发环境编写HDFS和Map Reduce程序,相似度分值:0.63

    博文地址1:http://my.oschina.net/apdplat/blog/396580
    博文地址2:http://yangshangchuan.iteye.com/blog/1950158

81、检查博文:Nutch的发展历程,相似度分值:0.63

    博文地址1:http://my.oschina.net/apdplat/blog/397151
    博文地址2:http://yangshangchuan.iteye.com/blog/1949212

82、检查博文:使用Java调用百度搜索,相似度分值:0.63

    博文地址1:http://my.oschina.net/apdplat/blog/397129
    博文地址2:http://yangshangchuan.iteye.com/blog/1961058

83、检查博文:分布式搜索算法,相似度分值:0.63

    博文地址1:http://my.oschina.net/apdplat/blog/396196
    博文地址2:http://yangshangchuan.iteye.com/blog/1965212

84、检查博文:Nutch抓取需要登录的网站,相似度分值:0.63

    博文地址1:http://my.oschina.net/apdplat/blog/208723
    博文地址2:http://yangshangchuan.iteye.com/blog/2031742

85、检查博文:Cygwin运行nutch报错:Failed to set permissions of path,相似度分值:0.62

    博文地址1:http://my.oschina.net/apdplat/blog/396698
    博文地址2:http://yangshangchuan.iteye.com/blog/1839784

86、检查博文:使用Java调用谷歌搜索,相似度分值:0.62

    博文地址1:http://my.oschina.net/apdplat/blog/397127
    博文地址2:http://yangshangchuan.iteye.com/blog/1961059

87、检查博文:HBase on CAP,相似度分值:0.6

    博文地址1:http://my.oschina.net/apdplat/blog/397628
    博文地址2:http://yangshangchuan.iteye.com/blog/2002544

88、检查博文:APDPlat的日志国际化实现方式,相似度分值:0.6

    博文地址1:http://my.oschina.net/apdplat/blog/196605
    博文地址2:http://yangshangchuan.iteye.com/blog/1974027

89、检查博文:Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同?,相似度分值:0.6

    博文地址1:http://my.oschina.net/apdplat/blog/396126
    博文地址2:http://yangshangchuan.iteye.com/blog/1969491

90、检查博文:大数据系列12:Hadoop2 – 全新的Hadoop,相似度分值:0.6

    博文地址1:http://my.oschina.net/apdplat/blog/396685
    博文地址2:http://yangshangchuan.iteye.com/blog/1967994

91、检查博文:SOLR4.2+NUTCH1.6,相似度分值:0.6

    博文地址1:http://my.oschina.net/apdplat/blog/397150
    博文地址2:http://yangshangchuan.iteye.com/blog/2200131

92、检查博文:大数据系列9:Mahout – 机器学习,相似度分值:0.59

    博文地址1:http://my.oschina.net/apdplat/blog/396682
    博文地址2:http://yangshangchuan.iteye.com/blog/1950172

93、检查博文:中文分词算法 之 基于词典的正向最小匹配算法,相似度分值:0.59

    博文地址1:http://my.oschina.net/apdplat/blog/217588
    博文地址2:http://yangshangchuan.iteye.com/blog/2040423

94、检查博文:中文分词算法 之 基于词典的逆向最小匹配算法,相似度分值:0.59

    博文地址1:http://my.oschina.net/apdplat/blog/217589
    博文地址2:http://yangshangchuan.iteye.com/blog/2040431

95、检查博文:使用Java8实现自己的个性化搜索引擎,相似度分值:0.59

    博文地址1:http://my.oschina.net/apdplat/blog/396193
    博文地址2:http://yangshangchuan.iteye.com/blog/2199420

96、检查博文:nutch2.1+mysql报错及解决,相似度分值:0.58

    博文地址1:http://my.oschina.net/apdplat/blog/397144
    博文地址2:http://yangshangchuan.iteye.com/blog/1839782

97、检查博文:搜索引擎的分片(shard)和副本(replica)机制,相似度分值:0.58

    博文地址1:http://my.oschina.net/apdplat/blog/308395
    博文地址2:http://yangshangchuan.iteye.com/blog/2103650

98、检查博文:Java中的null引用,超乎你想象,相似度分值:0.58

    博文地址1:http://my.oschina.net/apdplat/blog/217587
    博文地址2:http://yangshangchuan.iteye.com/blog/2038163

99、检查博文:配置Cygwin支持无密码SSH登陆,相似度分值:0.57

    博文地址1:http://my.oschina.net/apdplat/blog/397057
    博文地址2:http://yangshangchuan.iteye.com/blog/1839812

100、检查博文:给LUKE增加word分词器,相似度分值:0.57

    博文地址1:http://my.oschina.net/apdplat/blog/397069
    博文地址2:http://yangshangchuan.iteye.com/blog/2200077

101、检查博文:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估,相似度分值:0.57

    博文地址1:http://my.oschina.net/apdplat/blog/228615
    博文地址2:http://yangshangchuan.iteye.com/blog/2056537

102、检查博文:大数据系列3:用Python编写MapReduce,相似度分值:0.56

    博文地址1:http://my.oschina.net/apdplat/blog/396581
    博文地址2:http://yangshangchuan.iteye.com/blog/1950157

103、检查博文:大数据系列8:Sqoop – HADOOP和RDBMS数据交换,相似度分值:0.55

    博文地址1:http://my.oschina.net/apdplat/blog/396681
    博文地址2:http://yangshangchuan.iteye.com/blog/1950171

 

 

判定相似性的方式二:余弦相似度

检查的博文数:103,相似度大于等于0.5的博文数:101,相似度小于0.5的博文数:2

1、检查博文:二百多部软件著作中最重要的9224个英语单词,相似度分值:0.99

    博文地址1:http://my.oschina.net/apdplat/blog/391023
    博文地址2:http://yangshangchuan.iteye.com/blog/2195559

2、检查博文:JDK源代码中最重要的4646个英语单词,相似度分值:0.99

    博文地址1:http://my.oschina.net/apdplat/blog/390915
    博文地址2:http://yangshangchuan.iteye.com/blog/2195664

3、检查博文:JDK源代码以及200多部软件著作中出现的以连字符构造的1011个合成词,相似度分值:0.99

    博文地址1:http://my.oschina.net/apdplat/blog/394495
    博文地址2:http://yangshangchuan.iteye.com/blog/2199283

4、检查博文:一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法,相似度分值:0.99

    博文地址1:http://my.oschina.net/apdplat/blog/398338
    博文地址2:http://yangshangchuan.iteye.com/blog/2200810

5、检查博文:利用1189个精选句子彻底掌握2190个单词,相似度分值:0.99

    博文地址1:http://my.oschina.net/apdplat/blog/394941
    博文地址2:http://yangshangchuan.iteye.com/blog/2199287

6、检查博文:分析在各大考纲词汇中同时拥有前缀后缀和词根的词(一),相似度分值:0.98

    博文地址1:http://my.oschina.net/apdplat/blog/392490
    博文地址2:http://yangshangchuan.iteye.com/blog/2198571

7、检查博文:采集电子报纸,相似度分值:0.98

    博文地址1:http://my.oschina.net/apdplat/blog/397051
    博文地址2:http://yangshangchuan.iteye.com/blog/1996911

8、检查博文:Java开源项目cws_evaluation:中文分词器分词效果评估,相似度分值:0.98

    博文地址1:http://my.oschina.net/apdplat/blog/308391
    博文地址2:http://yangshangchuan.iteye.com/blog/2059040

9、检查博文:大数据系列11:Gora – 大数据持久化,相似度分值:0.98

    博文地址1:http://my.oschina.net/apdplat/blog/396684
    博文地址2:http://yangshangchuan.iteye.com/blog/1953733

10、检查博文:2000个软件开发领域的高频特殊词及精选例句(一),相似度分值:0.97

    博文地址1:http://my.oschina.net/apdplat/blog/389200
    博文地址2:http://yangshangchuan.iteye.com/blog/2195665

11、检查博文:ITEYE博文抄袭检查,相似度分值:0.97

    博文地址1:http://my.oschina.net/apdplat/blog/396411
    博文地址2:http://yangshangchuan.iteye.com/blog/2199536

12、检查博文:OSCHINA博文抄袭检查,相似度分值:0.97

    博文地址1:http://my.oschina.net/apdplat/blog/396414
    博文地址2:http://yangshangchuan.iteye.com/blog/2200451

13、检查博文:中文分词算法 之 基于词典的逆向最大匹配算法,相似度分值:0.97

    博文地址1:http://my.oschina.net/apdplat/blog/210427
    博文地址2:http://yangshangchuan.iteye.com/blog/2033843

14、检查博文:网络爬虫面临的挑战 之 链接构造,相似度分值:0.97

    博文地址1:http://my.oschina.net/apdplat/blog/208716
    博文地址2:http://yangshangchuan.iteye.com/blog/2031642

15、检查博文:英语单词音近形似转化规律研究,相似度分值:0.97

    博文地址1:http://my.oschina.net/apdplat/blog/378569
    博文地址2:http://yangshangchuan.iteye.com/blog/2186300

16、检查博文:APDPlat中数据库备份恢复的设计与实现,相似度分值:0.96

    博文地址1:http://my.oschina.net/apdplat/blog/196912
    博文地址2:http://yangshangchuan.iteye.com/blog/2010680

17、检查博文:1208个合成词,相似度分值:0.96

    博文地址1:http://my.oschina.net/apdplat/blog/393724
    博文地址2:http://yangshangchuan.iteye.com/blog/2197556

18、检查博文:分析996个词根在各大考纲词汇中的作用(五)总结精选篇,相似度分值:0.96

    博文地址1:http://my.oschina.net/apdplat/blog/391865
    博文地址2:http://yangshangchuan.iteye.com/blog/2195991

19、检查博文:中文分词算法 之 基于词典的正向最大匹配算法,相似度分值:0.96

    博文地址1:http://my.oschina.net/apdplat/blog/209211
    博文地址2:http://yangshangchuan.iteye.com/blog/2031813

20、检查博文:分析113个前缀在各大考纲词汇中的作用(二)总结精选篇,相似度分值:0.96

    博文地址1:http://my.oschina.net/apdplat/blog/392456
    博文地址2:http://yangshangchuan.iteye.com/blog/2195996

21、检查博文:分析151个后缀在各大考纲词汇中的作用(三)总结精选篇,相似度分值:0.96

    博文地址1:http://my.oschina.net/apdplat/blog/392466
    博文地址2:http://yangshangchuan.iteye.com/blog/2196690

22、检查博文:Java应用系统中自动实时检测资源文件内容变化,相似度分值:0.96

    博文地址1:http://my.oschina.net/apdplat/blog/312609
    博文地址2:http://yangshangchuan.iteye.com/blog/2115461

23、检查博文:Java中文分词组件 - word分词,相似度分值:0.96

    博文地址1:http://my.oschina.net/apdplat/blog/228619
    博文地址2:http://yangshangchuan.iteye.com/blog/2056959

24、检查博文:英语单词后缀规则总结,相似度分值:0.96

    博文地址1:http://my.oschina.net/apdplat/blog/379330
    博文地址2:http://yangshangchuan.iteye.com/blog/2186326

25、检查博文:英语单词前缀规则总结,相似度分值:0.96

    博文地址1:http://my.oschina.net/apdplat/blog/378753
    博文地址2:http://yangshangchuan.iteye.com/blog/2186327

26、检查博文:APDPlat中领域模型的自描述机制与事件通知机制,相似度分值:0.95

    博文地址1:http://my.oschina.net/apdplat/blog/196973
    博文地址2:http://yangshangchuan.iteye.com/blog/2010734

27、检查博文:词组习语3054组,相似度分值:0.95

    博文地址1:http://my.oschina.net/apdplat/blog/393374
    博文地址2:http://yangshangchuan.iteye.com/blog/2197555

28、检查博文:APDPlat中的用户密码安全策略,相似度分值:0.95

    博文地址1:http://my.oschina.net/apdplat/blog/207124
    博文地址2:http://yangshangchuan.iteye.com/blog/2029367

29、检查博文:APDPlat拓展搜索之集成Solr,相似度分值:0.95

    博文地址1:http://my.oschina.net/apdplat/blog/197020
    博文地址2:http://yangshangchuan.iteye.com/blog/2010760

30、检查博文:根据76大细分词性对单词进行归组(一),相似度分值:0.94

    博文地址1:http://my.oschina.net/apdplat/blog/393771
    博文地址2:http://yangshangchuan.iteye.com/blog/2197874

31、检查博文:大数据系列6:HBase – 基于Hadoop的分布式数据库,相似度分值:0.94

    博文地址1:http://my.oschina.net/apdplat/blog/396587
    博文地址2:http://yangshangchuan.iteye.com/blog/1954018

32、检查博文:大数据系列4:Hive – 基于HADOOP的数据仓库,相似度分值:0.94

    博文地址1:http://my.oschina.net/apdplat/blog/396582
    博文地址2:http://yangshangchuan.iteye.com/blog/1950178

33、检查博文:运行nutch提示:0 records selected for fetching, exiting,相似度分值:0.94

    博文地址1:http://my.oschina.net/apdplat/blog/396699
    博文地址2:http://yangshangchuan.iteye.com/blog/2033009

34、检查博文:计算ITEYE博文在百度的收录与排名情况,相似度分值:0.93

    博文地址1:http://my.oschina.net/apdplat/blog/395970
    博文地址2:http://yangshangchuan.iteye.com/blog/2199419

35、检查博文:软件业的奥斯卡奖:JOLT奖 之 最好的书,相似度分值:0.92

    博文地址1:http://my.oschina.net/apdplat/blog/395681
    博文地址2:http://yangshangchuan.iteye.com/blog/1837328

36、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:0.91

    博文地址1:http://my.oschina.net/apdplat/blog/388816
    博文地址2:http://yangshangchuan.iteye.com/blog/2194214

37、检查博文:APDPlat中的机器码生成机制,相似度分值:0.91

    博文地址1:http://my.oschina.net/apdplat/blog/197805
    博文地址2:http://yangshangchuan.iteye.com/blog/2012401

38、检查博文:APDPlat拓展搜索之集成ElasticSearch,相似度分值:0.91

    博文地址1:http://my.oschina.net/apdplat/blog/197012
    博文地址2:http://yangshangchuan.iteye.com/blog/2010755

39、检查博文:APDPlat中业务日志和监控日志的设计与实现,相似度分值:0.91

    博文地址1:http://my.oschina.net/apdplat/blog/196604
    博文地址2:http://yangshangchuan.iteye.com/blog/2010571

40、检查博文:根据76大细分词性对单词进行归组(二),相似度分值:0.9

    博文地址1:http://my.oschina.net/apdplat/blog/393774
    博文地址2:http://yangshangchuan.iteye.com/blog/2197877

41、检查博文:使用JSoup+CSSPath采集和讯网人物信息,相似度分值:0.9

    博文地址1:http://my.oschina.net/apdplat/blog/397143
    博文地址2:http://yangshangchuan.iteye.com/blog/1966497

42、检查博文:APDPlat中备份文件异地容灾机制之FTP上传,相似度分值:0.89

    博文地址1:http://my.oschina.net/apdplat/blog/197005
    博文地址2:http://yangshangchuan.iteye.com/blog/2010750

43、检查博文:使用CountDownLatch来模拟马拉松比赛,相似度分值:0.89

    博文地址1:http://my.oschina.net/apdplat/blog/385448
    博文地址2:http://yangshangchuan.iteye.com/blog/2198572

44、检查博文:配置Nutch模拟浏览器以绕过反爬虫限制,相似度分值:0.89

    博文地址1:http://my.oschina.net/apdplat/blog/208457
    博文地址2:http://yangshangchuan.iteye.com/blog/2030741

45、检查博文:一个月的时间让你的词汇量翻一翻,相似度分值:0.87

    博文地址1:http://my.oschina.net/apdplat/blog/379303
    博文地址2:http://yangshangchuan.iteye.com/blog/2186301

46、检查博文:APDPlat如何自动建库建表并初始化数据?,相似度分值:0.87

    博文地址1:http://my.oschina.net/apdplat/blog/197703
    博文地址2:http://yangshangchuan.iteye.com/blog/2012220

47、检查博文:给JAVA源代码文件统一地添加licence信息头,相似度分值:0.87

    博文地址1:http://my.oschina.net/apdplat/blog/396415
    博文地址2:http://yangshangchuan.iteye.com/blog/1841150

48、检查博文:Amazon Dynamo的NWR模型,相似度分值:0.85

    博文地址1:http://my.oschina.net/apdplat/blog/393783
    博文地址2:http://yangshangchuan.iteye.com/blog/2010574

49、检查博文:Ubuntu上安装HADOOP多机完全分布式集群,相似度分值:0.84

    博文地址1:http://my.oschina.net/apdplat/blog/397146
    博文地址2:http://yangshangchuan.iteye.com/blog/1840481

50、检查博文:Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor,相似度分值:0.83

    博文地址1:http://my.oschina.net/apdplat/blog/308400
    博文地址2:http://yangshangchuan.iteye.com/blog/2110604

51、检查博文:new一个Object对象占用多少内存?,相似度分值:0.83

    博文地址1:http://my.oschina.net/apdplat/blog/208456
    博文地址2:http://yangshangchuan.iteye.com/blog/2021423

52、检查博文:Hadoop发行版的比较与选择,相似度分值:0.83

    博文地址1:http://my.oschina.net/apdplat/blog/397625
    博文地址2:http://yangshangchuan.iteye.com/blog/1972846

53、检查博文:大数据系列5:Pig – 大数据分析平台,相似度分值:0.83

    博文地址1:http://my.oschina.net/apdplat/blog/396584
    博文地址2:http://yangshangchuan.iteye.com/blog/1950274

54、检查博文:大数据系列1:在win7上安装配置Hadoop伪分布式集群,相似度分值:0.82

    博文地址1:http://my.oschina.net/apdplat/blog/396579
    博文地址2:http://yangshangchuan.iteye.com/blog/1953929

55、检查博文:中文分词算法 之 词典机制性能优化与测试,相似度分值:0.82

    博文地址1:http://my.oschina.net/apdplat/blog/213968
    博文地址2:http://yangshangchuan.iteye.com/blog/2035007

56、检查博文:运行nutch报错:unzipBestEffort returned null,相似度分值:0.81

    博文地址1:http://my.oschina.net/apdplat/blog/207653
    博文地址2:http://yangshangchuan.iteye.com/blog/2030096

57、检查博文:使用Java调用百度搜索,相似度分值:0.81

    博文地址1:http://my.oschina.net/apdplat/blog/397129
    博文地址2:http://yangshangchuan.iteye.com/blog/1961058

58、检查博文:The Future of Compass & ElasticSearch,相似度分值:0.8

    博文地址1:http://my.oschina.net/apdplat/blog/397148
    博文地址2:http://yangshangchuan.iteye.com/blog/2010721

59、检查博文:APDPlat的系统启动和关闭流程剖析,相似度分值:0.79

    博文地址1:http://my.oschina.net/apdplat/blog/197067
    博文地址2:http://yangshangchuan.iteye.com/blog/2010808

60、检查博文:JAVA调用CSDN接口发博文,相似度分值:0.78

    博文地址1:http://my.oschina.net/apdplat/blog/200145
    博文地址2:http://yangshangchuan.iteye.com/blog/2017751

61、检查博文:模拟浏览器的神器 - HtmlUnit,相似度分值:0.78

    博文地址1:http://my.oschina.net/apdplat/blog/217586
    博文地址2:http://yangshangchuan.iteye.com/blog/2036809

62、检查博文:使用Java调用谷歌搜索,相似度分值:0.77

    博文地址1:http://my.oschina.net/apdplat/blog/397127
    博文地址2:http://yangshangchuan.iteye.com/blog/1961059

63、检查博文:分析在各大考纲词汇中既没有词根也没有前缀和后缀的独立单词,相似度分值:0.76

    博文地址1:http://my.oschina.net/apdplat/blog/392483
    博文地址2:http://yangshangchuan.iteye.com/blog/2196691

64、检查博文:中文分词效果对比,相似度分值:0.76

    博文地址1:http://my.oschina.net/apdplat/blog/228614
    博文地址2:http://yangshangchuan.iteye.com/blog/2043184

65、检查博文:中文分词算法 之 基于词典的逆向最小匹配算法,相似度分值:0.76

    博文地址1:http://my.oschina.net/apdplat/blog/217589
    博文地址2:http://yangshangchuan.iteye.com/blog/2040431

66、检查博文:Ubuntu上安装HADOOP单机伪分布式集群,相似度分值:0.76

    博文地址1:http://my.oschina.net/apdplat/blog/397145
    博文地址2:http://yangshangchuan.iteye.com/blog/1839809

67、检查博文:动态索引结构和索引更新机制,相似度分值:0.75

    博文地址1:http://my.oschina.net/apdplat/blog/308393
    博文地址2:http://yangshangchuan.iteye.com/blog/2103647

68、检查博文:大数据系列9:Mahout – 机器学习,相似度分值:0.75

    博文地址1:http://my.oschina.net/apdplat/blog/396682
    博文地址2:http://yangshangchuan.iteye.com/blog/1950172

69、检查博文:中文分词算法 之 基于词典的正向最小匹配算法,相似度分值:0.75

    博文地址1:http://my.oschina.net/apdplat/blog/217588
    博文地址2:http://yangshangchuan.iteye.com/blog/2040423

70、检查博文:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎,相似度分值:0.75

    博文地址1:http://my.oschina.net/apdplat/blog/308396
    博文地址2:http://yangshangchuan.iteye.com/blog/2103664

71、检查博文:大数据系列7:Storm – 流计算,相似度分值:0.74

    博文地址1:http://my.oschina.net/apdplat/blog/396589
    博文地址2:http://yangshangchuan.iteye.com/blog/1950165

72、检查博文:大数据系列10:Spark – 内存计算,相似度分值:0.74

    博文地址1:http://my.oschina.net/apdplat/blog/396683
    博文地址2:http://yangshangchuan.iteye.com/blog/1950276

73、检查博文:大数据系列12:Hadoop2 – 全新的Hadoop,相似度分值:0.74

    博文地址1:http://my.oschina.net/apdplat/blog/396685
    博文地址2:http://yangshangchuan.iteye.com/blog/1967994

74、检查博文:Nutch的发展历程,相似度分值:0.74

    博文地址1:http://my.oschina.net/apdplat/blog/397151
    博文地址2:http://yangshangchuan.iteye.com/blog/1949212

75、检查博文:分布式内存文件系统:Tachyon,相似度分值:0.73

    博文地址1:http://my.oschina.net/apdplat/blog/377832
    博文地址2:http://yangshangchuan.iteye.com/blog/2199538

76、检查博文:软件熵:软件开发中推倒重来的过程就是软件熵不断增加的过程,相似度分值:0.72

    博文地址1:http://my.oschina.net/apdplat/blog/311291
    博文地址2:http://yangshangchuan.iteye.com/blog/2113923

77、检查博文:APDPlat的日志国际化实现方式,相似度分值:0.71

    博文地址1:http://my.oschina.net/apdplat/blog/196605
    博文地址2:http://yangshangchuan.iteye.com/blog/1974027

78、检查博文:Windows上安装HADOOP单机伪分布式集群,相似度分值:0.71

    博文地址1:http://my.oschina.net/apdplat/blog/397147
    博文地址2:http://yangshangchuan.iteye.com/blog/1839814

79、检查博文:技术框架太多,多的眼花缭乱,如何在众多选择中找到自己的方向?,相似度分值:0.7

    博文地址1:http://my.oschina.net/apdplat/blog/393810
    博文地址2:http://yangshangchuan.iteye.com/blog/2197217

80、检查博文:QuestionAnsweringSystem v1.1 发布,人机问答系统,相似度分值:0.69

    博文地址1:http://my.oschina.net/apdplat/blog/308392
    博文地址2:http://yangshangchuan.iteye.com/blog/2101533

81、检查博文:Java8全新打造,英语学习supertool,相似度分值:0.69

    博文地址1:http://my.oschina.net/apdplat/blog/393187
    博文地址2:http://yangshangchuan.iteye.com/blog/2196853

82、检查博文:APDPlat旗下10大开源项目,欢迎大家一起来参与,相似度分值:0.65

    博文地址1:http://my.oschina.net/apdplat/blog/395498
    博文地址2:http://yangshangchuan.iteye.com/blog/2200130

83、检查博文:Nutch抓取需要登录的网站,相似度分值:0.65

    博文地址1:http://my.oschina.net/apdplat/blog/208723
    博文地址2:http://yangshangchuan.iteye.com/blog/2031742

84、检查博文:大数据系列8:Sqoop – HADOOP和RDBMS数据交换,相似度分值:0.64

    博文地址1:http://my.oschina.net/apdplat/blog/396681
    博文地址2:http://yangshangchuan.iteye.com/blog/1950171

85、检查博文:Cygwin运行nutch报错:Failed to set permissions of path,相似度分值:0.64

    博文地址1:http://my.oschina.net/apdplat/blog/396698
    博文地址2:http://yangshangchuan.iteye.com/blog/1839784

86、检查博文:大数据系列3:用Python编写MapReduce,相似度分值:0.64

    博文地址1:http://my.oschina.net/apdplat/blog/396581
    博文地址2:http://yangshangchuan.iteye.com/blog/1950157

87、检查博文:大数据系列2:建立开发环境编写HDFS和Map Reduce程序,相似度分值:0.64

    博文地址1:http://my.oschina.net/apdplat/blog/396580
    博文地址2:http://yangshangchuan.iteye.com/blog/1950158

88、检查博文:给LUKE增加word分词器,相似度分值:0.63

    博文地址1:http://my.oschina.net/apdplat/blog/397069
    博文地址2:http://yangshangchuan.iteye.com/blog/2200077

89、检查博文:分布式搜索算法,相似度分值:0.63

    博文地址1:http://my.oschina.net/apdplat/blog/396196
    博文地址2:http://yangshangchuan.iteye.com/blog/1965212

90、检查博文:如何解决BUG?,相似度分值:0.62

    博文地址1:http://my.oschina.net/apdplat/blog/394216
    博文地址2:http://yangshangchuan.iteye.com/blog/1960489

91、检查博文:nutch2.1+mysql报错及解决,相似度分值:0.61

    博文地址1:http://my.oschina.net/apdplat/blog/397144
    博文地址2:http://yangshangchuan.iteye.com/blog/1839782

92、检查博文:The Design of HDFS,相似度分值:0.61

    博文地址1:http://my.oschina.net/apdplat/blog/397149
    博文地址2:http://yangshangchuan.iteye.com/blog/2002898

93、检查博文:如何在你的应用中集成人机问答系统QuestionAnsweringSystem?,相似度分值:0.6

    博文地址1:http://my.oschina.net/apdplat/blog/308397
    博文地址2:http://yangshangchuan.iteye.com/blog/2108250

94、检查博文:30个JDK类库源代码中最频繁出现的词的深度分析,相似度分值:0.59

    博文地址1:http://my.oschina.net/apdplat/blog/390615
    博文地址2:http://yangshangchuan.iteye.com/blog/2194885

95、检查博文:Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同?,相似度分值:0.59

    博文地址1:http://my.oschina.net/apdplat/blog/396126
    博文地址2:http://yangshangchuan.iteye.com/blog/1969491

96、检查博文:SOLR4.2+NUTCH1.6,相似度分值:0.58

    博文地址1:http://my.oschina.net/apdplat/blog/397150
    博文地址2:http://yangshangchuan.iteye.com/blog/2200131

97、检查博文:搜索引擎的分片(shard)和副本(replica)机制,相似度分值:0.57

    博文地址1:http://my.oschina.net/apdplat/blog/308395
    博文地址2:http://yangshangchuan.iteye.com/blog/2103650

98、检查博文:配置Cygwin支持无密码SSH登陆,相似度分值:0.54

    博文地址1:http://my.oschina.net/apdplat/blog/397057
    博文地址2:http://yangshangchuan.iteye.com/blog/1839812

99、检查博文:HBase on CAP,相似度分值:0.54

    博文地址1:http://my.oschina.net/apdplat/blog/397628
    博文地址2:http://yangshangchuan.iteye.com/blog/2002544

100、检查博文:对Nutch2.1抽象存储层的一些看法,相似度分值:0.53

    博文地址1:http://my.oschina.net/apdplat/blog/396129
    博文地址2:http://yangshangchuan.iteye.com/blog/1835074

101、检查博文:使用Java8实现自己的个性化搜索引擎,相似度分值:0.52

    博文地址1:http://my.oschina.net/apdplat/blog/396193
    博文地址2:http://yangshangchuan.iteye.com/blog/2199420

102、检查博文:Java中的null引用,超乎你想象,相似度分值:0.49

    博文地址1:http://my.oschina.net/apdplat/blog/217587
    博文地址2:http://yangshangchuan.iteye.com/blog/2038163

103、检查博文:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估,相似度分值:0.26

    博文地址1:http://my.oschina.net/apdplat/blog/228615
    博文地址2:http://yangshangchuan.iteye.com/blog/2056537

 

 

 

 

 

 

 

 

 

1
3
分享到:
评论

相关推荐

    一种基于文本相似度的网页新闻标题自动抽取算法_何春辉1

    总的来说,基于文本相似度的网页新闻标题自动抽取算法是针对现有方法准确性和通用性问题的一种有效解决方案。它能够适应网页结构的变化,提高了新闻标题抽取的效率和准确性,对于提升信息抽取和网络爬虫的效能具有...

    大规模网页快速去重算法

    鉴于此,哈尔滨工业大学信息检索研究室提出了一种创新的大规模网页快速去重算法,旨在高效识别并合并相同内容的网页,以优化搜索引擎性能。 #### 算法设计原理 ##### 相同内容网页的界定 理解“相同网页”需明确...

    黑白棋盘格角点检测算法

    本文将深入探讨一种专门针对黑白棋盘格设计的角点检测算法——黑白棋盘格角点检测算法,并分析其原理、优势及应用场景。 #### 二、算法原理 ##### 1. 特征方向定义 该算法首先定义了四个特征方向,这些方向与棋盘...

    一种高效的分布式水军群组检测算法.pdf

    本文提出的是一种针对电子商务环境中水军群组检测的高效分布式算法。水军,即网络上批量操作虚假账号,通过发布虚假评论、点赞等方式干扰正常用户判断,以达到商业目的的群体。在大数据背景下,如何快速准确地检测出...

    网络游戏-一种通用的基于异构信息网络的相似度计算方法与系统.zip

    标题中的“网络游戏-一种通用的基于异构信息网络的相似度计算方法与系统”揭示了这个压缩包内容的核心,即探讨了在网络游戏场景下,如何利用异构信息网络来计算对象之间的相似度。异构信息网络是数据科学领域的一个...

    论文研究-基于项目综合相似度的协同过滤算法.pdf

    提出了一种基于项目综合相似度的协同过滤算法。综合相似度是项目相似度和类别相似度进行加权,加权方式是从热能学中协同计算燃烧传热量的高温辐射换热综合发射率ε公式比拟得出,两者均是计算综合系数,在计算综合...

    相似度测度 距离 角度

    本文将深入探讨两种主要的相似度测度方法:距离和角度。 首先,我们来关注距离这一概念。距离是衡量两个点在某种空间中相互分离的程度。在模式识别中,常用的距离测度包括: 1. **欧式距离**:这是最直观的距离...

    一种融合小波变换与卷积神经网络的高相似度图像识别与分类算法.pdf

    《一种融合小波变换与卷积神经网络的高相似度图像识别与分类算法》论文通过结合小波变换的精细纹理分析能力和卷积神经网络(CNN)的深度学习优势,为这一问题提供了新的解决方案。 在图像处理领域,小波变换因其...

    java实现 文本相似度

    Java作为一种通用且强大的编程语言,提供了丰富的库和工具来实现文本相似度计算。以下我们将深入探讨如何在Java中实现文本相似度。 首先,文本相似度的计算通常基于特定的算法,例如余弦相似度、Jaccard相似度、...

    一种工业报警相关性数据挖掘算法.pdf

    为了解决这个问题,本文提出了一种基于权重的多态时序通用型相似度算法。该算法的核心是利用权重来增强报警数据聚类的效果,通过改进传统凝聚层次聚类算法来提高报警数据聚类的精度。层次聚类是一种将数据点组织成...

    基于局部相似度保留自表达学习的快速多视角离群点检测入——中南大学彭汪祺--论文研读笔记31

    论文《基于局部相似度保留自表达学习的快速多视角离群点检测》提出了SRLSP算法,这是一种创新的方法,能够处理来自不同视角的数据,同时适用于大规模数据集和在线计算。SRLSP结合了自表达学习和相似度学习,以检测...

    初学者可能会用的到的7种算法的c实现

    5. **Kruskal算法**:克鲁斯卡尔算法是求解最小生成树问题的一种算法,适用于稠密图。它按边的权值从小到大选择边,并检查新加入的边是否会形成环,如果不会则添加至当前生成树中。 6. **LCS(最长公共子序列)**:...

    DIMP算法.docx

    DIMP算法是一种通用目标跟踪算法,旨在解决目标跟踪问题。该算法通过预测目标模型来实现目标跟踪,所使用的方法不同于传统的Siamese学习方法。 一、引言 通用目标跟踪是视频序列中估计任意目标状态的任务。在最...

    基于深度学习的粘虫板储粮害虫图像检测算法的研究.pdf

    本文主要探讨了一种基于深度学习的粘虫板储粮害虫图像检测算法。研究人员针对储粮害虫的检测问题,利用深度学习技术实现了对放置在粮仓表面粘虫板上六大类害虫(米象/玉米象、谷蠹、扁谷盗、锯谷盗、拟谷盗、烟草甲...

Global site tag (gtag.js) - Google Analytics