# -*- coding: utf-8 -*-
#---------------------------------------
# 程序:百度贴吧爬虫
# 版本:0.1
# 作者:why
# 日期:2013-05-14
# 语言:Python 2.7
# 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。
# 功能:下载对应页码内的所有页面并存储为html文件。
#---------------------------------------
import string, urllib2
#定义百度函数
def baidu_tieba(url,begin_page,end_page):
for i in range(begin_page, end_page+1):
sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名
print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'
f = open(sName,'w+')
m = urllib2.urlopen(url + str(i)).read()
f.write(m)
f.close()
#-------- 在这里输入参数 ------------------
# 这个是山东大学的百度贴吧中某一个帖子的地址
#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
#iPostBegin = 1
#iPostEnd = 10
bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))
begin_page = int(raw_input(u'请输入开始的页数:\n'))
end_page = int(raw_input(u'请输入终点的页数:\n'))
#-------- 在这里输入参数 ------------------
#调用
baidu_tieba(bdurl,begin_page,end_page)
分享到:
相关推荐
Scrapy是Python的一个强大爬虫框架,它提供了一整套解决方案,包括请求调度、数据提取、中间件处理、项目结构管理等。其主要特性包括: 1. 项目结构:Scrapy项目由多个组件构成,如Spider、Item、Pipeline、...
python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识大全; python爬虫:Python 爬虫知识...
python爬虫Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫...
python爬虫Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫实战:数据采集、处理与分析Python爬虫...
大多数网站都会提供一个名为`robots.txt`的文件来指示爬虫哪些内容是可以抓取的。 1. **robots.txt文件解析**: - **位置**:通常位于网站的根目录下。 - **示例**:以淘宝网为例,可以在浏览器中访问 `...
在本课程设计中,我们将深入探讨如何利用Python编程语言构建一个网络爬虫,专注于抓取百度贴吧中的数据。Python爬虫是一种自动化工具,用于从互联网上提取大量信息,而百度贴吧是中国最大的网络社区之一,拥有丰富的...
Python网络爬虫技术是当前IT领域中非常热门的一个分支,尤其在大数据分析和人工智能应用中起着关键作用。本资源“Python网络爬虫技术_习题答案.rar”看似是一个教学资料,包含了一些图像文件和章节内容,我们可以从...
本书共8章,涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...
百度贴吧的爬虫制作和糗百的爬虫制作原理...用Python写的百度贴吧的网络爬虫。 使用方法: 新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。 程序功能: 将贴吧中楼主发布的内容打包txt存储到本地。 ...
解析Python网络爬虫_复习大纲.docx 本文档是关于Python网络爬虫的复习大纲,涵盖了爬虫的基本概念、实现原理、技术、网页请求原理、抓取网页数据、数据解析、并发下载、抓取动态内容、图像识别与文字处理、存储爬虫...
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
【Python网络爬虫代码】是基于Python3编程语言实现的一款数据抓取工具,主要用于从互联网上,特别是百度百科这类网站,自动获取指定网页中的信息。爬虫技术在信息技术领域扮演着重要角色,它能帮助我们高效地提取...
《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf《Python网络爬虫技术案例教程》PPT课件(共10...
小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Linux基础入门 小白学 Python 爬虫(4):前置准备(三)Docker基础入门 小白学 Python 爬虫(5):前置准备(四)...
《Python爬虫开发:从入门到实战》是一本详尽介绍Python爬虫技术的书籍,适合初学者和有一定编程基础的读者。通过本书,读者将系统地学习爬虫开发的各个方面,从基础知识到实战技巧。 首先,书中涵盖了Python的基础...
Python 网络爬虫实验报告六 Python 网络爬虫实验报告六是关于使用 Python 语言进行网络爬虫的实验报告,主要内容包括抓取学习强国下学习金句的内容,并保存音频资源至本地。下面是实验报告的详细内容: 一、上机...
- **定义**:服务器发送到客户端的一个小型文本文件,用于跟踪用户会话。 - **存储方式**:存储于用户的本地浏览器中。 - **实现过程**:服务器设置Cookie并发送给客户端,客户端在下次访问时将Cookie发送回...
3. **Scrapy**:一个强大的爬虫框架,提供了完整的解决方案,包括请求调度、中间件处理、数据存储等,适合构建复杂的爬虫项目。 在进行网络爬虫作业练习时,我们需要掌握以下技能: 1. **URL构造与请求**:理解...