Python网络爬虫实例 - Move Fast! - ITeye博客

`

zhb8015

浏览: 407231 次
性别:
来自: 北京

最近访客更多访客>>

cqwb123

u012363178

cgs1999

xuelvming

博主相关

博客

微博

相册

收藏

留言

关于我

博客专栏

: Spring Roo杂谈
浏览量：0

文章分类

社区版块

存档分类

最新评论

liutingna86：程序没有提取新的链接，只是分析url.txt中链接页面的内容是 ...
Java编程技巧：小爬虫程序(转)
u013680195： CSS基础教程17篇此教程共17篇，由浅到深、循序渐进的讲述 ...
每个Web开发者必备的9个软技能(转)
zhb8015：有一个解决的方法：把DTD文件从mybatis.jar中拿出来 ...
求助： exception is java.net.UnknownHostException: mybatis.org
zhb8015：问题可能找到了，spring-test对于（@ContextC ...
求助：NoSuchBeanDefinitionException: No bean named 'userService' is defined

Python网络爬虫实例

博客分类：

Python

阅读更多

视频地址：

http://edu.51cto.com/lesson/id-12393.html

下载博客文章实例

源码：

import urllib
import time

#下载博客所有文章
i = 0
url = ['']*50
con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_3973495073_0_1.html').read()
title = con.find(r'<a title=')
href = con.find(r'href=', title)
html = con.find(r'.html', href)

while title != -1 and href != -1 and html != -1 and i < 50:
    url[i] = con[href + 6:html + 5]
    print url[i]
    title = con.find(r'<a title=', html)
    href = con.find(r'href=', title)
    html = con.find(r'.html', href)
    i = i + 1
else:
    print 'find end!'

j = 0
while j < 50:
    content = urllib.urlopen(url[j]).read()
    open(r'hanhan/'+url[j][-26:],'w+').write(content)
    print 'downloading', url[j]
    j = j + 1
    time.sleep(1)
else:
    print 'download articles finished!'

分享到：

xmemcached作者Dennis采访(转) | 微信公众平台开发入门

2014-07-13 23:16
浏览 1230
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf: 《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf《Python网络爬虫技术案例教程》PPT课件(共10...

Python 网络爬虫实例-Spiders.zip: 总结来说，Python网络爬虫实例“Spiders.zip”提供了一个动手实践的平台，涵盖了网络请求、HTML解析、数据存储等关键环节。通过研究这个实例，你将深入理解Python爬虫的工作原理，并掌握编写高效爬虫的技巧。

Python爬虫实战Python网络爬虫实例详细注释版最新版本: 其他说明：本资源内容详实，通过代码实例和案例演示让读者更好地理解Python爬虫的使用方法和技巧，同时也有一些注意事项和常见问题的解答，帮助读者更好地掌握Python爬虫实战的技能。 Python实例：详细注释版是一...

python爬虫20个案例: 讲诉python爬虫的20个案例。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

Python网络爬虫实战.pdf: 本书共8章，涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

Python爬虫实战案例教程.pdf: 以一个电子书的网站为例来实现python爬虫获取电子书资源。爬取整站的电子书资源，按目录保存到本地，并形成索引文件方便查找。爬取的目标网站：苦瓜书盘步骤：爬取->分析、解析->保存对于一个不需要登录验证的...

Python网络爬虫实例教程: 网络爬虫概述、 requests库入门、xapth语法详解、认识和应对反爬虫、模拟登录和验证码的处理、动态页面的分析方法、scrapy框架基础、应对反爬虫策略、scrapy数据存储、提交数据和保持登录、crawlspider模板、图片...

python爬虫实例教程: 本书共8章，涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。

爬虫开发Python开发简单爬虫实例代码.zip: 爬虫开发Python开发简单爬虫实例代码.zip爬虫开发Python开发简单爬虫实例代码.zip爬虫开发Python开发简单爬虫实例代码.zip爬虫开发Python开发简单爬虫实例代码.zip爬虫开发Python开发简单爬虫实例代码.zip爬虫...

完整版精品Python网络爬虫教程数据采集信息提取课程全套PPT课件共12个章节.rar: Python网络爬虫教程数据采集信息提取课程 06-实例1-中国大学排名爬虫（共26页）.pptx Python网络爬虫教程数据采集信息提取课程 07-Re(正则表达式)库入门（共51页）.pptx Python网络爬虫教程数据采集信息提取...

Python网络爬虫项目开发实战_并发下载_编程案例解析实例详解课程教程.pdf: 【Python网络爬虫项目开发实战】中的并发下载技术是提高爬虫效率的关键。在传统的爬虫程序中，网页通常是顺序下载的，即一个网页下载完成后才会开始下一个网页的下载。这种方式在处理小型网站时可能足够，但对于大...

完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf: Scratch，是抓取的意思，这个Python的爬虫框架叫Scrapy，大概也是这个意思吧，就叫它：小刮刮吧。小刮刮是一个为遍历爬行网站、分解获取数据而设计的应用程序框架，它可以应用在广泛领域：数据挖掘、信息处理和或者...

Python网络爬虫实例讲解: 聊一聊Python与网络爬虫。 1、爬虫的定义爬虫：自动抓取互联网数据的程序。 2、爬虫的主要框架爬虫程序的主要框架如上图所示，爬虫调度端通过URL管理器获取待爬取的URL链接，若URL管理器中存在待爬取的URL链接，...

Python网络爬虫实习报告.pdf: 在本实习报告中，我们将深入探讨Python网络爬虫的相关知识，并通过实例演示如何使用Python爬虫框架来爬取豆瓣网上的电影数据。首先，我们要理解爬虫的基本原理。网络爬虫通常分为三个步骤：请求网页、解析网页和...

Python网络爬虫实战: 根据提供的信息，《Python网络爬虫实战》是一本适合初学者使用的Python爬虫技术书籍，它不仅能够帮助读者巩固基础知识，还能够作为一本实用工具书在实际工作中发挥作用。下面将详细介绍该书中可能涵盖的关键知识点。...

Python网络爬虫项目开发实战_下载缓存_编程案例解析实例详解课程教程.pdf: 在Python网络爬虫项目开发中，缓存是一个关键的优化策略，特别是在处理大规模网页抓取时，能够显著提高效率并减少服务器压力。本章节重点讨论如何为链接爬虫添加缓存支持，以避免不必要的重复下载。首先，我们需要...

[优]3 利用Python编写简单网络爬虫实例3.pdf: 通过以上知识点的整理，我们可以看到利用Python编写简单网络爬虫实例涉及了编程语言基础、库的使用、数据解析、爬虫设计、操作流程、异常处理以及伪装访问等多方面的知识。这要求编程者不仅要有扎实的编程技能，还...

完整版精品Python网络爬虫教程数据采集信息提取课程 08-实例2-淘宝商品信息定向爬虫（共17页）.pptx: 【课程简介】本课程适合所有需要弥补python网络爬虫的同学，课件内容制作精细，由浅入深，适合入门或进行知识回顾。...Python网络爬虫教程数据采集信息提取课程 12-实例4-股票数据定向Scrapy爬虫（共23页）.pptx

Python-爬虫课件.ppt: “网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫...

作品提交python爬虫源码实例: 【Python爬虫源码实例——京东评论爬虫详解】在Python编程领域，网络爬虫是一项重要的技术，它能帮助我们自动地从互联网上获取大量数据。在这个“python京东评论爬虫”的实例中，我们将深入探讨如何利用Python进行...

Global site tag (gtag.js) - Google Analytics