新闻抓取爬虫 PPT

全部 Ruby Python PHP Flash C++ .net Rails Flex C C# Django

浏览 8457 次

锁定老帖子主题：新闻抓取爬虫 PPT 精华帖 (0) :: 良好帖 (0) :: 新手帖 (1) :: 隐藏帖 (1)
作者	正文
edisonlz 等级: 性别: 文章: 82 积分: 470 来自: 北京	发表时间：2010-05-28 最后修改：2010-06-03 相关推荐: 爬虫PPT.pptx MOOCpython爬虫PPT Python-爬虫课件.ppt 第一ppt模板抓取脚本.py 大数据爬虫技术第1章初识爬虫.ppt 更多相关推荐 Python 不用多言，请见附件：）上slideshare view -> http://www.slideshare.net/edisonlz/ppt-4395676 补充，不使用分词的，很简单，但效果一般的排重算法如下： #encoding = utf8 import re import sys,os import re chars = [] def generate_chars(strList): """ 创建字典 """ for sr in strList: for char in sr: if char not in chars: chars.append(char) def vector(sr): """ 将字符串转换为向量空间 """ vec = [] for char in chars: if sr.find(char) !=-1: vec.append(1) else: vec.append(0) return vec def intersaction(str1,str2): """ 计算交集 """ v1 =vector(str1) v2= vector(str2) rv = 0 for i in xrange(len(v1)): rv += v1[i] * v2[i] return rv def detect_repeat(strList): """ 检测字符串字符匹配 """ chars = generate_chars(strList) #临界值 critical = 3 results = [] for st in strList: if all(intersaction(st,rt) < critical for rt in results): results.append(st) #返回检测结果 return results if __name__ =="__main__": strLists = [u"大家好啊",u"大家好",u"张靓颖新专辑",u"张靓颖专辑"] results = detect_repeat(strLists) print "result " + " > " * 20 for ru in results: print ru.encode("utf-8") 新闻抓取.rar (511 KB) 下载次数: 992 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

seacoastboy 等级: 初级会员性别: 文章: 1 积分: 30 来自: 北京	发表时间：2010-05-28 不错！楼主可以找个地方群讨论一下
返回顶楼	回帖地址 0 0 请登录后投票

snow8261 等级: 初级会员性别: 文章: 80 积分: 0 来自: 上海	发表时间：2010-06-01 不知道这段代码和ppt有什么关系。
返回顶楼	回帖地址 0 0 请登录后投票

greatghoul 等级: 性别: 文章: 143 积分: 130 来自: 西安	发表时间：2010-06-01 ppt做的不错，不过当时一看你的标题时还真是一头雾水。
返回顶楼	回帖地址 0 0 请登录后投票

erickdu888 等级: 初级会员性别: 文章: 19 积分: 10 来自: 昆明都没有	发表时间：2010-06-03 不能放在slideshare.com么？
返回顶楼	回帖地址 0 0 请登录后投票

edisonlz 等级: 性别: 文章: 82 积分: 470 来自: 北京	发表时间：2010-06-03 seacoastboy 写道不错！楼主可以找个地方群讨论一下 erickdu888 写道不能放在slideshare.com么？好主意，谢谢提供：）
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 编程语言技术版

跳转论坛: