使用python写糗事百科的爬虫 - AAAA - ITeye博客

`

gaotong1991

浏览: 94901 次
来自: 北京

最近访客更多访客>>

u012363178

czj4451

qnlpkuge

zhxhcj

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

kaming：
你必须知道的Java并发编程基础知识
gaotong1991： jiang911113 写道递推那个有问题， 25!你试下考虑 ...
编程之美-阶乘末尾0的个数
gaotong1991： jiang911113 写道递推那个有问题， 25!你试下多谢 ...
编程之美-阶乘末尾0的个数
jiang911113：递推那个有问题， 25!你试下
编程之美-阶乘末尾0的个数
caizi12：你去参加了csdn承办的开源大会吧，我也去了
聆听大师---Perl发明人及开源软件先锋Larry Perl

使用python写糗事百科的爬虫

博客分类：

Web开发

阅读更多

最近看了一些利用python来写一些网站的爬虫以自动下载和排版的文章，于是自己动手也写一个，网络上很多的版本都无法正常运行，因为糗事百科现在不能直接使用url去使用爬虫了，必须要伪装成浏览器来下载。所以必须要加工一下现有的版本才行。

经过一下午的查看资料和手动测试，终于实现了，截图为证：

下面是直接在python GUI/IDLE里运行的结果

可以直接运行的代码，在http://down.51cto.com/data/1102905，感兴趣可以来尝试看看，以下是一个最简单的直接抓取整个糗事百科的所有源代码的demo,提供下载的版本已经使用正则表达式做过了精细的处理，效果如上图。

# python 2.7.5
import urllib2
myUrl = "http://m.qiushibaike.com/hot/page/"
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36 LBBROWSER')
opener = urllib2.build_opener()
opener.addheaders = [headers]
data = opener.open(myUrl).read()
print data

2
顶

2
踩

分享到：

我不懂技术，所以阿里技术是BAT中最强的 | 哪些行业巨头正在使用Linux

2014-03-16 21:00
浏览 1946
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python爬虫糗事百科: python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python爬虫，爬取糗事百科python...

python爬虫爬取糗事百科内容: 糗事百科的爬虫，是主要用来介绍爬虫的一些基本知识，方便大家爬取简单的糗事百科的内容，利用的是beautifulsoup

python3.6糗事百科爬虫源码: python爬虫入门实例，基于python3.6，实现糗事百科段子逐条读取，按回车键继续下一条，供python爬虫初学者参考学习！----2017.9.12

python爬取糗事百科源码: python爬取糗事百科源码

python获取糗事百科段子: 获取糗事百科段子程序，拥有UI交互界面下载之后无需任何配置，可以直接运行具体的程序请参考：http://blog.csdn.net/qiqiyingse/article/details/64522690

python糗事百科数据爬虫.zip: 在这个“python糗事百科数据爬虫.zip”压缩包中，我们可以看到一个针对“糗事百科”网站进行数据抓取的实例。这个项目主要涉及到Python爬虫技术，包括如何使用Python的requests库来发送HTTP请求，使用BeautifulSoup...

糗事百科爬虫代码: 简单的糗事百科爬虫代码，用几十行代码即可实现爬取糗事百科首页内容。

python_爬虫——爬取糗事百科: 亲测有效，不管是windows 还是Linux都...使用python 爬取糗事百科的段子，通过回车键控制，一次一个，同时可以把看过的内容保存到本地查看具体实现可以参照 http://blog.csdn.net/qiqiyingse/article/details/60583129

Python爬取糗事百科段子（scrapy+beautifulsoup）: 本教程将深入探讨如何使用Scrapy与BeautifulSoup来爬取糗事百科上的段子。首先，我们需要了解Scrapy的基本结构。Scrapy项目通常包含几个关键组件：spiders、items、pipelines、settings和 middlewares。Spiders是...

糗事百科python爬虫程序: python程序用于自动获取糗事百科的内容

糗事百科爬虫_by Akang.zip: 标题中的“糗事百科爬虫_by Akang.zip”表明这是一个关于使用Python编写的爬虫程序，目标是抓取糗事百科网站上的数据。这个压缩包可能包含了实现这一功能的所有源代码，作者为Akang。从描述来看，作者是初学者，通过...

【爬虫脚本】糗事百科爬虫之一: 【爬虫脚本】糗事百科爬虫之一用python语言编写，只是转发，希望pythoner共勉

Python 制作糗事百科爬虫实例: ### Python 制作糗事百科爬虫实例 #### 一、背景介绍糗事百科作为一个知名的幽默内容分享平台，吸引了大量的用户浏览与分享各种有趣的段子。对于学习Python爬虫技术的同学来说，糗事百科是一个很好的实践平台。...

糗事百科爬虫文件.py: 糗事百科爬虫文件.py

Python3抓取糗百、不得姐、轻松一刻，完整可运行源码程序: 本教程主要涉及使用Python3.6来抓取三个流行的娱乐网站——糗事百科、不得姐和kanqu.com的数据。通过提供的完整源码，我们可以深入理解Python爬虫的实现过程。首先，让我们了解Python3在爬虫领域的应用。Python3...

基于python爬虫爬取“糗事百科”网站段子: 简单爬取段子代码如下： ...headers = {"User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.27 Mobile Safari/537.36"} ...

Python爬虫爬取糗事百科段子实例分享: 在本篇关于Python爬虫爬取糗事百科段子的实例中，我们将学习如何使用Python进行网络数据抓取，特别是针对网页结构简单的站点，如糗事百科。首先，我们需要了解爬虫的基本工作原理：通过发送HTTP请求到指定的URL获取...

【爬虫】糗事百科爬虫之二: 【爬虫】糗事百科爬虫之二 urllib2的应用脚本，希望pythoner共勉

Python爬虫糗事百科段子（scrapy+beautifulsoup）: 本教程将详细介绍如何利用Scrapy和BeautifulSoup结合，从糗事百科网站上抓取多页的段子内容。 **Scrapy框架介绍** Scrapy是一个强大的Python爬虫框架，它提供了完整的爬虫项目结构和丰富的功能模块，包括请求调度、...

python爬虫实战入门爬取糗事百科: 在这个"python爬虫实战入门爬取糗事百科"项目中，我们将学习如何使用Python来爬取网络上的数据，并将其存储到MySQL数据库中。首先，我们需要了解Python中的几个核心库，它们是实现爬虫的关键工具。requests库用于...

Global site tag (gtag.js) - Google Analytics