`

新闻抓取爬虫 PPT

阅读更多
不用多言,请见附件 :)

上slideshare view  -> http://www.slideshare.net/edisonlz/ppt-4395676

补充,不使用分词的,很简单,但效果一般的排重算法如下:

#encoding = utf8
import re 
import sys,os
import re

chars = []
def generate_chars(strList):
    """
    创建字典
    """
    for sr in strList:
        for char in sr:
            if char not in chars:
                chars.append(char)


def vector(sr):
    """
    将字符串转换为向量空间
    """
    vec = []
    for char in chars:
        if sr.find(char) !=-1:
            vec.append(1)
        else:
            vec.append(0)
    return vec

def intersaction(str1,str2):
    """
    计算交集
    """
    v1 =vector(str1)
    v2= vector(str2)
    rv = 0
    for i in xrange(len(v1)):
        rv += v1[i] * v2[i]
    return rv

def detect_repeat(strList):
    """
    检测字符串字符匹配
    """
    chars = generate_chars(strList)
    
    #临界值
    critical = 3
    results = []
    for st in strList:
        if all(intersaction(st,rt) < critical  for rt in results):
            results.append(st)
    
    #返回检测结果
    return results


if __name__ =="__main__":
    strLists = [u"大家好啊",u"大家好",u"张靓颖新专辑",u"张靓颖专辑"]
    results = detect_repeat(strLists)
    print "result " + " > " * 20
    for ru in results:
        print ru.encode("utf-8")


分享到:
评论
5 楼 edisonlz 2010-06-03  
seacoastboy 写道
不错 ! 楼主可以 找个地方群 讨论一下

erickdu888 写道
不能放在slideshare.com么?

好主意,谢谢提供 :)
4 楼 erickdu888 2010-06-03  
不能放在slideshare.com么?
3 楼 greatghoul 2010-06-01  
ppt做的不错,不过当时一看你的标题时还真是一头雾水。
2 楼 snow8261 2010-06-01  
不知道这段代码和ppt有什么关系。
1 楼 seacoastboy 2010-05-28  
不错 ! 楼主可以 找个地方群 讨论一下

相关推荐

    python爬取第一PPT爬虫PPT

    标题中的“python爬取第一PPT爬虫PPT”指的是使用Python编程语言编写网络爬虫程序,目标是抓取特定网站上的PPT资源。描述提到的“附带详细教程,合适新手学习python”表明这是一个适合初学者的教程,旨在教授如何...

    网络爬虫.论文答辩PPT

    Scrapy是一个强大的Python爬虫框架,它提供了高效的网页抓取和数据处理功能,包括请求调度、中间件处理、爬取策略等。 3. **分布式爬虫**:在处理大规模数据时,单个爬虫可能无法满足需求,这时需要采用分布式爬虫...

    MOOCpython爬虫PPT

    MOOC的PYTHON爬虫PPT下载,有需要的小伙伴可以下载看一下

    爬虫 爬取ppt模板.zip

    "爬虫 爬取ppt模板.zip"中的"ppt.py"是一个Python爬虫程序,用于从互联网上抓取PPT模板的链接或直接下载模板。这个过程涉及到网络请求、HTML解析、数据处理等多个步骤,并且需要注意遵守网络规范和法律法规。通过...

    Python爬虫ppt课件.ppt

    Python爬虫ppt课件 Python爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。在本课件中,我们将学习如何编写爬虫程序,需要什么工具,如何编写爬虫程序,编写爬虫程序需要注意什么等。 首先,让...

    Python爬虫教学PPT

    **Python爬虫教学PPT**是一份专为初学者设计的网络爬虫教程,旨在帮助对编程或Python无基础的学员快速掌握网络爬虫的基本概念和技术。这份教程以易懂的方式介绍了Python在爬虫领域的应用,使学习者能够对Python爬虫...

    python网络爬虫教学ppt

    **Python网络爬虫教学PPT概述** Python网络爬虫是一种技术,用于自动化地从互联网上抓取大量数据。本教学PPT将引导你逐步了解如何使用Python进行网络爬虫的开发,涵盖多进程爬虫、异步加载、表单交互与模拟登录以及...

    Java毕业设计——基于网络爬虫技术的网络新闻分析(论文+答辩PPT+源代码+数据库).zip

    本毕业设计项目主要聚焦于利用Java编程语言实现一个网络爬虫,用于收集并分析网络新闻数据。这个项目包含了从设计思路、技术选型、代码实现到最终答辩的完整流程,对于学习Java和网络爬虫技术的学生来说具有很高的...

    大数据爬虫技术第10章 初识爬虫框架Scrapy.ppt

    第二步就是明确爬虫项目要抓取的内容。以培训公司的讲师为示例,该页面的内容如下图所示。 抓取内容就是页面中所有讲师的姓名、级别和个人信息等数据。 Scrapy提供了基类scrapy.Item用来表示实体数据。我们一般需要...

    Python基础与爬虫入门ppt+代码

    "Python基础与爬虫入门ppt+代码"的资源集合,提供了学习Python编程和爬虫技术的全面教程。 首先,让我们从Python的基础开始。Python基础培训.ppt可能涵盖以下内容: 1. **Python简介**:解释Python的历史、特点...

    爬虫PPT.pptx

    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 爬虫概述 爬虫流程 常用模块 网站示例

    网络爬虫简介ppt课件.ppt

    "网络爬虫简介ppt课件" 网络爬虫是指按照一定的规则,自动的抓取万维网信息的程序或者脚本。爬虫可以用于提供最新的数据,主要用于提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供...

    Python小工具爬取PPT模板.zip

    在这个“Python小工具爬取PPT模板”的项目中,我们看到一个使用Python编写的爬虫工具,其目标是自动化地从网络上抓取PPT模板。这个压缩包包含了一个名为"spider.exe"的可执行文件,可能是经过编译的Python代码,方便...

    爬虫技术ppt课件.ppt

    爬虫技术,又称为网络蜘蛛或网页机器人,是一种自动化程序,用于按照预设的规则抓取互联网上的信息。它在网络社区中常被称为网页追踪者。爬虫的主要目标是将互联网上的网页下载到本地形成一个或多个离线副本,这在...

    python的爬虫案例爬取网页

    在Python编程领域,爬虫是一项重要的技术,它用于自动化地从互联网上抓取大量数据。本案例将探讨如何使用Python进行网页爬虫的实现,主要关注基础的网页抓取和数据解析。 首先,我们需要了解Python中的几个核心库,...

    Python-爬虫课件.ppt

    网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

    正则表达式实现简单爬虫PPT资料.pptx

    以下是一个简单的爬虫示例代码,用于抓取网页中的图片: ``` import urllib import re def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = r'src="(.+?\....

    大数据爬虫技术第1章 初识爬虫.ppt

    如果说网络像一张网,那么爬虫就是网上的一只小虫子,在网上爬行的过程中遇到了数据,就把它抓取下来。 网络爬虫,又称为网页蜘蛛、网络机器人,是一种按照一定的规则,自动请求万维网网站并提取网络数据的程序或...

    黑马程序员2018python爬虫课件完整版

    黑马程序员作为知名的IT教育机构,其2018年的Python爬虫课程旨在教授学员如何有效地抓取和处理网络上的信息。在这个完整的课程中,你将深入理解Python爬虫的基本原理,并学习到一系列实用的技巧。 首先,Python之...

    Python网络爬虫与数据采集-PPT.rar

    通过实际的爬虫项目,如爬取新闻网站的文章、电商网站的商品信息,可以更好地理解和应用前面的知识。每个项目都会涉及URL构造、请求发送、数据解析、异常处理以及数据存储等多个环节。 **八、法律法规** 最后,值得...

Global site tag (gtag.js) - Google Analytics