最近在学习python,就写了个很简单的抓取百度热搜词的小代码。
百度新闻页面(http://news.baidu.com/)上的百度热搜词部分的html是这个样子的
<a href="http://news.baidu.com/ns?cl=3&ct=9&rn=20&sp=hotquery&word=%C1%F5%CF%E8%20%BB%D8%B9%FA" target="_blank" mon="ct=1&a=30">刘翔回国</a>
直接用正则进行匹配抽取比较困难,于是用了python自带的SGMLParser,但是感觉不是很好用,不知道python有没有可以处理dom文档的好用的模块,寻找中...
上代码吧:
# -*- coding: UTF-8 -*-
import urllib2
from sgmllib import SGMLParser
#继承自SGMLParser,用于抽取新闻热搜词的类
class HotExtract(SGMLParser):
'''
20120814
经分析,百度新闻热搜词的dom结构是下边这个样子的
<a href="http://news.baidu.com/ns?cl=3&ct=9&rn=20&sp=hotquery&word=%C1%F5%CF%E8%20%BB%D8%B9%FA" target="_blank" mon="ct=1&a=30">刘翔回国</a>
于是按<a>标签抽取,属性mon的值等于“ct=1&a=30”时判定为新闻热搜词标签
'''
def __init__(self):
SGMLParser.__init__(self)
self.is_a = ""
self.hot = []
def start_a(self, attrs):
if len(attrs) == 0:
pass
else:
for (variable, value) in attrs:
if variable == "mon" and value == "ct=1&a=30":
self.is_a = 1
break
def end_a(self):
self.is_a = ""
def handle_data(self, text):
if self.is_a == 1:
self.hot.append(text)
#抓取html内容
def getHtml(url):
html = urllib2.urlopen(url).read()
return html
#抽取特定html标签中的内容(此处为抽取属性mon等于“ct=1&a=30”的a标签的text),重写HotExtract类可抽取其它内容
def extract_hot(html):
hotExtract = HotExtract()
hotExtract.feed(html)
return hotExtract.hot
html = getHtml("http://news.baidu.com/")
hot_list = extract_hot(html)
for hot in hot_list:
print hot
输出:
刘翔回国
打假传闻 歇业
保钓船 日本
深圳 城管外包
公务员砍人 戳伤
新24孝
安徽艳照门 双开
巩立姣补获铜牌
富二代 宝马肇事
分众 私有化
玉米 虫灾
摩托罗拉裁员
牛初乳禁令
赵普重现央视
高山回国自首
李娜 亚军
李婷去世
叙利亚总统特使访华
石家庄景观灯漏电
张成泽访华
分享到:
相关推荐
### Python抓取百度搜索的数据 在本篇教程中,我们将详细介绍如何使用Python抓取百度搜索引擎返回的结果数据。此过程涉及到网络爬虫的基本概念和技术,包括HTTP请求、正则表达式匹配以及网页内容解析等。 #### ...
该Python脚本主要是实现以上功能。 其中,使用BeautifulSoup来解析HTML,可以参考我的另外一篇文章:Windows8下安装BeautifulSoup 代码如下: 复制代码 代码如下: __author__ = ‘曾是土木人’ # -*- coding: utf-8 ...
python 爬取百度搜索结果,及安全验证问题
①本文件是python抓取1688PC端搜索框下拉词爬虫, ②包含下拉推荐词以及 推荐词的二级词汇(若有就输出),参数为输入的关键词; ③打印保存至本地mysql数据库。 ----2018-11-16
主要介绍了Python抓取百度查询结果的方法,涉及Python正则匹配及字符串与URL操作的相关技巧,需要的朋友可以参考下
基于flask+echarts+python实现微博热搜抓取及前端可视化展示源码+sql数据库+项目说明(课程设计).zip 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通...
本篇文章将深入探讨如何使用Python编写一个脚本来抓取Bing搜索引擎的搜索结果,这涉及到网络爬虫的基本原理、Python的相关库以及如何处理抓取的数据。 首先,我们需要了解Python中的网络请求库,如`requests`。`...
该项目是一个使用Python语言实现的微博热搜信息爬取项目,旨在帮助学习者掌握网络爬虫技术在实际场景中的应用。Python因其简洁易读的语法和丰富的第三方库,成为了爬虫开发的首选语言。在这个项目中,你将学习到如何...
百度贴吧的爬虫制作和糗百的爬虫制作原理...用Python写的百度贴吧的网络爬虫。 使用方法: 新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。 程序功能: 将贴吧中楼主发布的内容打包txt存储到本地。 ...
python爬取百度输入字符搜索列表,小白入门级别啦啦啦啦啦
### Python抓取京东数据知识点详解 #### 一、项目背景与目标 本项目旨在通过Python爬虫技术抓取京东网站的商品评论数据,并将其存储至MySQL数据库中,方便后续的数据分析和挖掘工作。该项目重点关注京东图书商品的...
在这个"python抓取淘宝天猫网页商品详情Demo"中,我们将探讨如何利用Python进行网页抓取,特别是针对淘宝和天猫的商品详情页面。 首先,我们需要理解网页抓取的基本原理。网页抓取,也称为网络爬虫,是通过模拟...
基于python开发的自动获取百度热搜。给热搜图片加上标题。把处理后的图片上传到公众号。新建微信公众号文章草稿。并自动发布草稿。(源码) 基于python开发的自动获取百度热搜。给热搜图片加上标题。把处理后的图片...
Python抓取,通常指的是使用Python进行网络数据抓取或网络爬虫的过程。Python因其丰富的库支持和简洁的语法,成为了网络爬虫开发的热门选择。本文将深入探讨Python抓取的相关知识点,包括基础概念、常用库、爬虫架构...
该压缩包文件包含了一个使用Python编写的程序,用于模拟百度图片搜索并自动下载搜索结果中的图片。这个程序的独特之处在于它附带了一个可执行文件(exe),这意味着用户无需安装Python环境或其他任何软件,只需运行...
【标题】"基于Python的百度云网盘爬虫"是一个项目,旨在教用户如何使用Python编程语言编写程序来抓取并下载百度云网盘上的公开资源。该项目涵盖了网络爬虫技术,结合了百度云盘的API接口,以及可能涉及的前端和后端...
python 抓取1688店铺产品详情,爬虫
本篇文档《基于python抓取豆瓣电影TOP250的数据及进行分析.pdf》首先强调了Python语言在数据分析、数据抓取和数据清洗等领域的应用,指出Python作为一门入门简单、应用广泛的编程语言,它的数据包和框架也越来越成熟...
代码是抓取百度贴吧帖子的回复内容的。包括帖子标题、帖子回复数量,帖子页码,回复楼层、回复时间,也可以只查看楼主的回复信息。最后将获取到的帖子信息记录到记事本中。 博客地址:...