[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫 - runfeel - ITeye博客

`

runfeel

浏览: 943707 次

最近访客更多访客>>

lxin410

gaozzsoft

hudaafei

seancheer

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (1069)

社区版块

存档分类

2013-08 ( 1)
2013-07 ( 211)
2013-06 ( 235)
更多存档...

最新评论

sunnyhappylg：网上怎么复制了这个页面内容这么多没介绍怎么解决啊
服务器系统及软件常见漏洞
数据工厂：我用JS实现的糗事百科的爬虫源码如下，运行步骤请参考我的git ...
[Python]网络爬虫（八）：糗事百科的网络爬虫（v0.2）源码及解析
yzg0885：解决了，谢谢你
Could not create the view: An unexpected exception was thrown. 电脑突然断电，myeclipse非正常关闭，出现错误
jjlin00：楼主好，我今年报考南大软院，能分享计算机综合的资料吗，真心谢谢 ...
2013南京大学软件学院考研有感
govy.b：楼主的资料能分享吗？QQ：282577229
2013南京大学软件学院考研有感

[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫

阅读更多

# -*- coding: utf-8 -*-
#---------------------------------------
#   程序：百度贴吧爬虫
#   版本：0.1
#   作者：why
#   日期：2013-05-14
#   语言：Python 2.7
#   操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数。
#   功能：下载对应页码内的所有页面并存储为html文件。
#---------------------------------------
 
import string, urllib2
 
#定义百度函数
def baidu_tieba(url,begin_page,end_page):   
    for i in range(begin_page, end_page+1):
        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名
        print '正在下载第' + str(i) + '个网页，并将其存储为' + sName + '......'
        f = open(sName,'w+')
        m = urllib2.urlopen(url + str(i)).read()
        f.write(m)
        f.close()
 
 
#-------- 在这里输入参数 ------------------

# 这个是山东大学的百度贴吧中某一个帖子的地址
#bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
#iPostBegin = 1
#iPostEnd = 10

bdurl = str(raw_input(u'请输入贴吧的地址，去掉pn=后面的数字：\n'))
begin_page = int(raw_input(u'请输入开始的页数：\n'))
end_page = int(raw_input(u'请输入终点的页数：\n'))
#-------- 在这里输入参数 ------------------
 

#调用
baidu_tieba(bdurl,begin_page,end_page)

分享到：

使用Spring配置AOP拦截的常用方式 | 好的学习网站http://doc.lastme.com/

2013-05-14 21:36
浏览 696
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫全套教学资料: Scrapy是Python的一个强大爬虫框架，它提供了一整套解决方案，包括请求调度、数据提取、中间件处理、项目结构管理等。其主要特性包括： 1. 项目结构：Scrapy项目由多个组件构成，如Spider、Item、Pipeline、...

python爬虫：Python 爬虫知识大全: python爬虫：Python 爬虫知识大全； python爬虫：Python 爬虫知识大全； python爬虫：Python 爬虫知识大全； python爬虫：Python 爬虫知识大全； python爬虫：Python 爬虫知识大全； python爬虫：Python 爬虫知识...

Python爬虫实战：数据采集、处理与分析: python爬虫Python爬虫实战：数据采集、处理与分析Python爬虫实战：数据采集、处理与分析Python爬虫实战：数据采集、处理与分析Python爬虫实战：数据采集、处理与分析Python爬虫实战：数据采集、处理与分析Python爬虫...

Python爬虫实战：数据采集、处理与分析.zip: python爬虫Python爬虫实战：数据采集、处理与分析Python爬虫实战：数据采集、处理与分析Python爬虫实战：数据采集、处理与分析Python爬虫实战：数据采集、处理与分析Python爬虫实战：数据采集、处理与分析Python爬虫...

Python爬虫入门教程：超级简单的Python爬虫教程.pdf: 大多数网站都会提供一个名为`robots.txt`的文件来指示爬虫哪些内容是可以抓取的。 1. **robots.txt文件解析**： - **位置**：通常位于网站的根目录下。 - **示例**：以淘宝网为例，可以在浏览器中访问 `...

基于python爬虫对百度贴吧进行爬取的课程设计.zip: 在本课程设计中，我们将深入探讨如何利用Python编程语言构建一个网络爬虫，专注于抓取百度贴吧中的数据。Python爬虫是一种自动化工具，用于从互联网上提取大量信息，而百度贴吧是中国最大的网络社区之一，拥有丰富的...

Python网络爬虫技术_习题答案.rar: Python网络爬虫技术是当前IT领域中非常热门的一个分支，尤其在大数据分析和人工智能应用中起着关键作用。本资源“Python网络爬虫技术_习题答案.rar”看似是一个教学资料，包含了一些图像文件和章节内容，我们可以从...

Python网络爬虫实战.pdf: 本书共8章，涵盖的内容有Python语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源...

百度贴吧爬虫 python: 百度贴吧的爬虫制作和糗百的爬虫制作原理...用Python写的百度贴吧的网络爬虫。使用方法：新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。程序功能：将贴吧中楼主发布的内容打包txt存储到本地。 ...

解析Python网络爬虫_复习大纲.docx: 解析Python网络爬虫_复习大纲.docx 本文档是关于Python网络爬虫的复习大纲，涵盖了爬虫的基本概念、实现原理、技术、网页请求原理、抓取网页数据、数据解析、并发下载、抓取动态内容、图像识别与文字处理、存储爬虫...

2：python网络爬虫权威指南_python网络爬虫权威指南_python爬虫指南_: 网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

Python网络爬虫代码: 【Python网络爬虫代码】是基于Python3编程语言实现的一款数据抓取工具，主要用于从互联网上，特别是百度百科这类网站，自动获取指定网页中的信息。爬虫技术在信息技术领域扮演着重要角色，它能帮助我们高效地提取...

《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf: 《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf《Python网络爬虫技术案例教程》PPT课件(共10单元)七单元爬取APP和PC客户端数据.pdf《Python网络爬虫技术案例教程》PPT课件(共10...

小白学 Python 爬虫（25）：爬取股票信息: 小白学 Python 爬虫（2）：前置准备（一）基本类库的安装小白学 Python 爬虫（3）：前置准备（二）Linux基础入门小白学 Python 爬虫（4）：前置准备（三）Docker基础入门小白学 Python 爬虫（5）：前置准备（四）...

Python爬虫开发：从入门到实战(微课版).pptx: 《Python爬虫开发：从入门到实战》是一本详尽介绍Python爬虫技术的书籍，适合初学者和有一定编程基础的读者。通过本书，读者将系统地学习爬虫开发的各个方面，从基础知识到实战技巧。首先，书中涵盖了Python的基础...

《Python网络爬虫》实验报告六.docx: Python 网络爬虫实验报告六 Python 网络爬虫实验报告六是关于使用 Python 语言进行网络爬虫的实验报告，主要内容包括抓取学习强国下学习金句的内容，并保存音频资源至本地。下面是实验报告的详细内容：一、上机...

Python网络爬虫技术完整教案.docx: - **定义**：服务器发送到客户端的一个小型文本文件，用于跟踪用户会话。 - **存储方式**：存储于用户的本地浏览器中。 - **实现过程**：服务器设置Cookie并发送给客户端，客户端在下次访问时将Cookie发送回...

网络爬虫作业练习_爬虫_python学习_网络爬虫_python_: 3. **Scrapy**：一个强大的爬虫框架，提供了完整的解决方案，包括请求调度、中间件处理、数据存储等，适合构建复杂的爬虫项目。在进行网络爬虫作业练习时，我们需要掌握以下技能： 1. **URL构造与请求**：理解...

Global site tag (gtag.js) - Google Analytics