浏览 8453 次
锁定老帖子 主题:新闻抓取爬虫 PPT
精华帖 (0) :: 良好帖 (0) :: 新手帖 (1) :: 隐藏帖 (1)
|
|
---|---|
作者 | 正文 |
发表时间:2010-05-28
最后修改:2010-06-03
上slideshare view -> http://www.slideshare.net/edisonlz/ppt-4395676 补充,不使用分词的,很简单,但效果一般的排重算法如下: #encoding = utf8 import re import sys,os import re chars = [] def generate_chars(strList): """ 创建字典 """ for sr in strList: for char in sr: if char not in chars: chars.append(char) def vector(sr): """ 将字符串转换为向量空间 """ vec = [] for char in chars: if sr.find(char) !=-1: vec.append(1) else: vec.append(0) return vec def intersaction(str1,str2): """ 计算交集 """ v1 =vector(str1) v2= vector(str2) rv = 0 for i in xrange(len(v1)): rv += v1[i] * v2[i] return rv def detect_repeat(strList): """ 检测字符串字符匹配 """ chars = generate_chars(strList) #临界值 critical = 3 results = [] for st in strList: if all(intersaction(st,rt) < critical for rt in results): results.append(st) #返回检测结果 return results if __name__ =="__main__": strLists = [u"大家好啊",u"大家好",u"张靓颖新专辑",u"张靓颖专辑"] results = detect_repeat(strLists) print "result " + " > " * 20 for ru in results: print ru.encode("utf-8") 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2010-05-28
不错 ! 楼主可以 找个地方群 讨论一下
|
|
返回顶楼 | |
发表时间:2010-06-01
不知道这段代码和ppt有什么关系。
|
|
返回顶楼 | |
发表时间:2010-06-01
ppt做的不错,不过当时一看你的标题时还真是一头雾水。
|
|
返回顶楼 | |
发表时间:2010-06-03
不能放在slideshare.com么?
|
|
返回顶楼 | |
发表时间:2010-06-03
seacoastboy 写道 不错 ! 楼主可以 找个地方群 讨论一下 erickdu888 写道 不能放在slideshare.com么? 好主意,谢谢提供 :) |
|
返回顶楼 | |