`
gaotong1991
  • 浏览: 93023 次
  • 来自: 北京
社区版块
存档分类
最新评论

使用python写糗事百科的爬虫

 
阅读更多

最近看了一些利用python来写一些网站的爬虫以自动下载和排版的文章,于是自己动手也写一个,网络上很多的版本都无法正常运行,因为糗事百科现在不能直接使用url去使用爬虫了,必须要伪装成浏览器来下载。所以必须要加工一下现有的版本才行。

   经过一下午的查看资料和手动测试,终于实现了,截图为证:

wKiom1MlfBXDC84vAAB33wc5CQI752.png

 

下面是直接在python GUI/IDLE里运行的结果

wKioL1MlfIrjyIA4AAD1-GQJEJ8809.png

 

可以直接运行的代码,在http://down.51cto.com/data/1102905,感兴趣可以来尝试看看,以下是一个最简单的直接抓取整个糗事百科的所有源代码的demo,提供下载的版本已经使用正则表达式做过了精细的处理,效果如上图。

# python 2.7.5
import urllib2
myUrl = "http://m.qiushibaike.com/hot/page/"
headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36 LBBROWSER')
opener = urllib2.build_opener()
opener.addheaders = [headers]
data = opener.open(myUrl).read()
print data

 

2
2
分享到:
评论

相关推荐

    python爬虫糗事百科

    python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python爬虫,爬取糗事百科python...

    python爬虫爬取糗事百科内容

    糗事百科的爬虫,是主要用来介绍爬虫的一些基本知识,方便大家爬取简单的糗事百科的内容,利用的是beautifulsoup

    python3.6糗事百科爬虫源码

    python爬虫入门实例,基于python3.6,实现糗事百科段子逐条读取,按回车键继续下一条,供python爬虫初学者参考学习!----2017.9.12

    python爬取糗事百科源码

    python爬取糗事百科源码

    python获取糗事百科段子

    获取糗事百科段子程序,拥有UI交互界面 下载之后无需任何配置,可以直接运行 具体的程序请参考:http://blog.csdn.net/qiqiyingse/article/details/64522690

    python糗事百科数据爬虫.zip

    在这个“python糗事百科数据爬虫.zip”压缩包中,我们可以看到一个针对“糗事百科”网站进行数据抓取的实例。这个项目主要涉及到Python爬虫技术,包括如何使用Python的requests库来发送HTTP请求,使用BeautifulSoup...

    糗事百科爬虫代码

    简单的糗事百科爬虫代码,用几十行代码即可实现爬取糗事百科首页内容。

    python_爬虫——爬取糗事百科

    亲测有效,不管是windows 还是Linux都...使用python 爬取糗事百科的段子,通过回车键控制,一次一个,同时可以把看过的内容保存到本地查看 具体实现可以参照 http://blog.csdn.net/qiqiyingse/article/details/60583129

    Python爬取糗事百科段子(scrapy+beautifulsoup)

    本教程将深入探讨如何使用Scrapy与BeautifulSoup来爬取糗事百科上的段子。 首先,我们需要了解Scrapy的基本结构。Scrapy项目通常包含几个关键组件:spiders、items、pipelines、settings和 middlewares。Spiders是...

    糗事百科python爬虫程序

    python程序用于自动获取糗事百科的内容

    糗事百科爬虫_by Akang.zip

    标题中的“糗事百科爬虫_by Akang.zip”表明这是一个关于使用Python编写的爬虫程序,目标是抓取糗事百科网站上的数据。这个压缩包可能包含了实现这一功能的所有源代码,作者为Akang。从描述来看,作者是初学者,通过...

    【爬虫脚本】糗事百科爬虫之一

    【爬虫脚本】糗事百科爬虫之一 用python语言编写,只是转发,希望pythoner共勉

    Python 制作糗事百科爬虫实例

    ### Python 制作糗事百科爬虫实例 #### 一、背景介绍 糗事百科作为一个知名的幽默内容分享平台,吸引了大量的用户浏览与分享各种有趣的段子。对于学习Python爬虫技术的同学来说,糗事百科是一个很好的实践平台。...

    糗事百科爬虫文件.py

    糗事百科爬虫文件.py

    Python3抓取糗百、不得姐、轻松一刻,完整可运行源码程序

    本教程主要涉及使用Python3.6来抓取三个流行的娱乐网站——糗事百科、不得姐和kanqu.com的数据。通过提供的完整源码,我们可以深入理解Python爬虫的实现过程。 首先,让我们了解Python3在爬虫领域的应用。Python3...

    【爬虫】python爬虫多个案例(糗事百科,豆瓣前250电影评分、神评).zip

    【爬虫】python爬虫多个案例(糗事百科,豆瓣前250电影评分、神评).zip 【爬虫】python爬虫多个案例(糗事百科,豆瓣前250电影评分、神评).zip 【爬虫】python爬虫多个案例(糗事百科,豆瓣前250电影评分、神评)....

    Python爬虫爬取糗事百科段子实例分享

    在本篇关于Python爬虫爬取糗事百科段子的实例中,我们将学习如何使用Python进行网络数据抓取,特别是针对网页结构简单的站点,如糗事百科。首先,我们需要了解爬虫的基本工作原理:通过发送HTTP请求到指定的URL获取...

    【爬虫】糗事百科爬虫之二

    【爬虫】糗事百科爬虫之二 urllib2的应用脚本,希望pythoner共勉

    Python爬虫糗事百科段子(scrapy+beautifulsoup)

    本教程将详细介绍如何利用Scrapy和BeautifulSoup结合,从糗事百科网站上抓取多页的段子内容。 **Scrapy框架介绍** Scrapy是一个强大的Python爬虫框架,它提供了完整的爬虫项目结构和丰富的功能模块,包括请求调度、...

    python爬虫实战入门爬取糗事百科

    在这个"python爬虫实战入门爬取糗事百科"项目中,我们将学习如何使用Python来爬取网络上的数据,并将其存储到MySQL数据库中。 首先,我们需要了解Python中的几个核心库,它们是实现爬虫的关键工具。requests库用于...

Global site tag (gtag.js) - Google Analytics