最近在学习python,就写了个很简单的抓取百度热搜词的小代码。
百度新闻页面(http://news.baidu.com/)上的百度热搜词部分的html是这个样子的
<a href="http://news.baidu.com/ns?cl=3&ct=9&rn=20&sp=hotquery&word=%C1%F5%CF%E8%20%BB%D8%B9%FA" target="_blank" mon="ct=1&a=30">刘翔回国</a>
直接用正则进行匹配抽取比较困难,于是用了python自带的SGMLParser,但是感觉不是很好用,不知道python有没有可以处理dom文档的好用的模块,寻找中...
上代码吧:
# -*- coding: UTF-8 -*-
import urllib2
from sgmllib import SGMLParser
#继承自SGMLParser,用于抽取新闻热搜词的类
class HotExtract(SGMLParser):
'''
20120814
经分析,百度新闻热搜词的dom结构是下边这个样子的
<a href="http://news.baidu.com/ns?cl=3&ct=9&rn=20&sp=hotquery&word=%C1%F5%CF%E8%20%BB%D8%B9%FA" target="_blank" mon="ct=1&a=30">刘翔回国</a>
于是按<a>标签抽取,属性mon的值等于“ct=1&a=30”时判定为新闻热搜词标签
'''
def __init__(self):
SGMLParser.__init__(self)
self.is_a = ""
self.hot = []
def start_a(self, attrs):
if len(attrs) == 0:
pass
else:
for (variable, value) in attrs:
if variable == "mon" and value == "ct=1&a=30":
self.is_a = 1
break
def end_a(self):
self.is_a = ""
def handle_data(self, text):
if self.is_a == 1:
self.hot.append(text)
#抓取html内容
def getHtml(url):
html = urllib2.urlopen(url).read()
return html
#抽取特定html标签中的内容(此处为抽取属性mon等于“ct=1&a=30”的a标签的text),重写HotExtract类可抽取其它内容
def extract_hot(html):
hotExtract = HotExtract()
hotExtract.feed(html)
return hotExtract.hot
html = getHtml("http://news.baidu.com/")
hot_list = extract_hot(html)
for hot in hot_list:
print hot
输出:
刘翔回国
打假传闻 歇业
保钓船 日本
深圳 城管外包
公务员砍人 戳伤
新24孝
安徽艳照门 双开
巩立姣补获铜牌
富二代 宝马肇事
分众 私有化
玉米 虫灾
摩托罗拉裁员
牛初乳禁令
赵普重现央视
高山回国自首
李娜 亚军
李婷去世
叙利亚总统特使访华
石家庄景观灯漏电
张成泽访华
分享到:
相关推荐
该Python脚本主要是实现以上功能。 其中,使用BeautifulSoup来解析HTML,可以参考我的另外一篇文章:Windows8下安装BeautifulSoup 代码如下: 复制代码 代码如下: __author__ = ‘曾是土木人’ # -*- coding: utf-8 ...
python 爬取百度搜索结果,及安全验证问题
Python脚本用于获取百度搜索结果中的标题和URL。 输入:百度关键词及搜索页面数 输出:标题和URL
①本文件是python抓取1688PC端搜索框下拉词爬虫, ②包含下拉推荐词以及 推荐词的二级词汇(若有就输出),参数为输入的关键词; ③打印保存至本地mysql数据库。 ----2018-11-16
主要介绍了Python抓取百度查询结果的方法,涉及Python正则匹配及字符串与URL操作的相关技巧,需要的朋友可以参考下
基于flask+echarts+python实现微博热搜抓取及前端可视化展示源码+sql数据库+项目说明(课程设计).zip 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通...
近期想要爬取百度搜索的结果,网上的教程一直没有找到可以直接用的,尝试了几个小时终于摸索出了可以用的代码。 主要的问题在于 url 的形式,之前的教程一般是这种形式: url = '...
Python 抓取百度贴吧里边的图片内容
本篇文章将深入探讨如何使用Python编写一个脚本来抓取Bing搜索引擎的搜索结果,这涉及到网络爬虫的基本原理、Python的相关库以及如何处理抓取的数据。 首先,我们需要了解Python中的网络请求库,如`requests`。`...
该项目是一个使用Python语言实现的微博热搜信息爬取项目,旨在帮助学习者掌握网络爬虫技术在实际场景中的应用。Python因其简洁易读的语法和丰富的第三方库,成为了爬虫开发的首选语言。在这个项目中,你将学习到如何...
本项目以Python语言为基础,讲解如何实现地图瓦片的抓取。 Python作为一门强大的编程语言,因其简洁的语法和丰富的库支持,成为处理地图数据的常用工具。在地图瓦片抓取中,主要涉及到以下几个关键知识点: 1. **...
百度贴吧的爬虫制作和糗百的爬虫制作原理...用Python写的百度贴吧的网络爬虫。 使用方法: 新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。 程序功能: 将贴吧中楼主发布的内容打包txt存储到本地。 ...
python爬取百度输入字符搜索列表,小白入门级别啦啦啦啦啦
### Python抓取京东数据知识点详解 #### 一、项目背景与目标 本项目旨在通过Python爬虫技术抓取京东网站的商品评论数据,并将其存储至MySQL数据库中,方便后续的数据分析和挖掘工作。该项目重点关注京东图书商品的...
在这个"python抓取淘宝天猫网页商品详情Demo"中,我们将探讨如何利用Python进行网页抓取,特别是针对淘宝和天猫的商品详情页面。 首先,我们需要理解网页抓取的基本原理。网页抓取,也称为网络爬虫,是通过模拟...
Python抓取,通常指的是使用Python进行网络数据抓取或网络爬虫的过程。Python因其丰富的库支持和简洁的语法,成为了网络爬虫开发的热门选择。本文将深入探讨Python抓取的相关知识点,包括基础概念、常用库、爬虫架构...
【标题】"基于Python的百度云网盘爬虫"是一个项目,旨在教用户如何使用Python编程语言编写程序来抓取并下载百度云网盘上的公开资源。该项目涵盖了网络爬虫技术,结合了百度云盘的API接口,以及可能涉及的前端和后端...
通常,我们可以使用Python的网络爬虫库,如BeautifulSoup或Scrapy,来抓取网页上的实时热搜信息。这些库可以帮助我们解析HTML或JSON格式的数据,并将其存储为结构化的数据格式,如CSV或JSON文件,以便后续处理。需要...
python 抓取1688店铺产品详情,爬虫