- 浏览: 564715 次
- 性别:
- 来自: 杭州
文章分类
- 全部博客 (478)
- lucene (45)
- oracle (19)
- nutch (2)
- blog (2)
- 垂直搜索 (19)
- java综合 (89)
- spring (15)
- Hibernate (9)
- Struts (9)
- Hadoop (16)
- Mysql (12)
- nosql (10)
- Linux (3)
- MyEclipse (4)
- Ant (1)
- 设计模式 (19)
- JBPM (1)
- JSP (1)
- HtmlParser (5)
- SVN (2)
- 插件 (2)
- 收藏 (7)
- Others (1)
- Heritrix (18)
- Solr (4)
- 主题爬虫 (31)
- 内存数据库 (24)
- 分布式与海量数据 (32)
- httpclient (14)
- Tomcat (1)
- 面试宝典 (6)
- Python (14)
- 数据挖掘 (1)
- 算法 (6)
- 其他 (4)
- JVM (12)
- Redis (18)
最新评论
-
hanjiyun:
本人水平还有待提高,进步空间很大,看这些文章给我有很大的指导作 ...
JVM的内存管理 Ⅲ -
liuxinglanyue:
四年后的自己:这种方法 不靠谱。 使用javaagent的方式 ...
计算Java对象占用内存空间的大小(对于32位虚拟机而言) -
jaysoncn:
附件在哪里啊test.NoCertificationHttps ...
使用HttpClient过程中常见的一些问题 -
231fuchenxi:
你好,有redis,memlink,mysql的测试代码吗?可 ...
MemLink 性能测试 -
guyue1015:
[color=orange][/color][size=lar ...
JAVA同步机制
对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中,我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签。
一、从HTML文档中提取链接
Python语言还有一个非常有用的模块HTMLParser,该模块使我们能够根据HTML文档中的标签来简洁、高效地解析HTML文档。所以,在处理HTML文档的时候,HTMLParser是最常用的模块之一。
import urllib
class parseLinks(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'a':
for name,value in attrs:
if name == 'href':
print value
print self.get_starttag_text()
lParser = parseLinks()
lParser.feed(urllib.urlopen("http://www.python.org/index.html").read())
处理HTML文档的时候,我们常常需要从其中提取出所有的链接。使用HTMLParser模块后,这项任务将变得易如反掌。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_starttag()方法,我们将使用这个方法来显示所有标签的HRef属性值。
定义好新的HTMLParser类之后,需要创建一个实例来返回HTMLParser对象。然后,就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。
为了解析HTML文件的内容并显示包含其中的链接,可以使用read()函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据,并通过定义的HTMLParser对象对数据进行相应的解析。需要注意,如果传给HTMLParser的feed()函数的数据不完整的话,那么不完整的标签会保存下来,并在下一次调用feed()函数时进行解析。当HTML文件很大,需要分段发送给解析器的时候,这个功能就会有用武之地了。下面是一个具体的例子
import urllib
import sys
#定义HTML解析器
class parseLinks(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'a':
for name,value in attrs:
if name == 'href':
print value
print self.get_starttag_text()
#创建HTML解析器的实例
lParser = parseLinks()
#打开HTML文件
lParser.feed(urllib.urlopen( \
"http://www.python.org/index.html").read())
lParser.close()
上述代码的运行结果太长,在此省略,您可以自己运行代码试试。
二、从HTML文档中提取图像
处理HTML文档的时候,我们常常需要从其中提取出所有的图像。使用HTMLParser模块后,这项任务将变得易如反掌。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_starttag()方法,该方法的作用是查找img标签,并保存src属性值所指的文件。
import urllib
def getImage(addr):
u = urllib.urlopen(addr)
data = u.read()
class parseImages(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'img':
for name,value in attrs:
if name == 'src':
getImage(urlString + "/" + value)
u = urllib.urlopen(urlString)
lParser.feed(u.read())
定义好新的HTMLParser类之后,需要创建一个实例来返回HTMLParser对象。然后,就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。
为了解析HTML文件的内容并显示包含其中的图像,可以使用feed(data)函数将数据发送至HTMLParser对象。HTMLParser对象的feed函数将接收数据,并通过定义的HTMLParser对象对数据进行相应的解析。下面是一个具体的示例:
import urllib
import sys
urlString = "http://www.python.org"
#把图像文件保存至硬盘
def getImage(addr):
u = urllib.urlopen(addr)
data = u.read()
splitPath = addr.split('/')
fName = splitPath.pop()
print "Saving %s" % fName
f = open(fName, 'wb')
f.write(data)
f.close()
#定义HTML解析器
class parseImages(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'img':
for name,value in attrs:
if name == 'src':
getImage(urlString + "/" + value)
#创建HTML解析器的实例
lParser = parseImages()
#打开HTML文件
u = urllib.urlopen(urlString)
print "Opening URL\n===================="
print u.info()
#把HTML文件传给解析器
lParser.feed(u.read())
lParser.close()
上述代码的运行结果如下所示:
====================
Date: Fri, 26 Jun 2009 10:54:49 GMT
Server: Apache/2.2.9 (Debian) DAV/2 SVN/1.5.1 mod_ssl/2.2.9 OpenSSL/0.9.8g mod_wsgi/2.3 Python/2.5.2
Last-Modified: Thu, 25 Jun 2009 09:44:54 GMT
ETag: "105800d-46e7-46d29136f7180"
Accept-Ranges: bytes
Content-Length: 18151
Connection: close
Content-Type: text/html
Saving python-logo.gif
Saving trans.gif
Saving trans.gif
Saving afnic.fr.png
三、从HTML文档中提取文本
处理HTML文档的时候,我们常常需要从其中提取出所有的文本。使用HTMLParser模块后,这项任务将变得非常简单了。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_data()方法,该方法是用来解析并文本数据的。
import urllib
class parseText(HTMLParser.HTMLParser):
def handle_data(self, data):
if data != '\n':
urlText.append(data)
lParser = parseText()
lParser.feed(urllib.urlopen( \
http://docs.python.org/lib/module-HTMLParser.html).read())
定义好新的HTMLParser类之后,需要创建一个实例来返回HTMLParser对象。然后,就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。
为了解析HTML文件的内容并显示包含其中的文本,我们可以使用feed(data)函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据,并通过定义的HTMLParser对象对数据进行相应的解析。要注意的是,如果传给HTMLParser的feed()函数的数据不完整的话,那么不完整的标签会保存下来,并在下一次调用feed()函数时进行解析。当HTML文件很大,需要分段发送给解析器的时候,这个功能就会有用武之地了。下面是一个具体的代码示例:
import urllib
urlText = []
#定义HTML解析器
class parseText(HTMLParser.HTMLParser):
def handle_data(self, data):
if data != '\n':
urlText.append(data)
#创建HTML解析器的实例
lParser = parseText()
#把HTML文件传给解析器
lParser.feed(urllib.urlopen( \
“http://docs.python.org/lib/module-HTMLParser.html” \
).read())
lParser.close()
for item in urlText:
print item
上面代码的运行输出过长,在此略过
四、从HTML文档中提取Cookies
很多时候,我们都需要处理Cookie,幸运的是Python语言的cookielib模块为我们提供了许多自动处理在HTML中的HTTP Cookie的类。当处理要求为客户端设置Cookie的HTML文档的时候,这些类对我们非常有用。
import cookielib
from urllib2 import urlopen, Request
cJar = cookielib.LWPCookieJar()
opener=urllib2.build_opener( \
urllib2.HTTPCookieProcessor(cJar))
urllib2.install_opener(opener)
r = Request(testURL)
h = urlopen(r)
for ind, cookie in enumerate(cJar):
print "%d - %s" % (ind, cookie)
cJar.save(cookieFile)
为了从HTML文档提取cookies,首先得使用cookielib模块的LWPCookieJar()函数创建一个cookie jar的实例。LWPCookieJar()函数将返回一个对象,该对象可以从硬盘加载Cookie,同时还能向硬盘存放Cookie。
接下来,使用urllib2模块的build_opener([handler, . . .])函数创建一个opener对象,当HTML文件打开时该对象将处理cookies。函数build_opener可以接收零个或多个处理程序(这些程序将按照它们被指定的顺序连接在一起)作为参数并返回一个。
注意,如果想让urlopen()使用opener对象来打开HTML文件的话,可以调用install_opener(opener)函数,并将opener对象传给它。否则,请使用opener对象的open(url)函数来打开HTML文件。
一旦已经创建并安装了opener对象,就可以使用urllib2模块中的Request(url)函数来创建一个Request对象,然后就能使用urlopen(Request)函数来打开HTML文件了。
打开HTML页面后,该页面的所有Cookie将被存放到LWPCookieJar对象中,之后,您可以使用LWPCookieJar对象的save(filename)函数了。
import urllib2
import cookielib
from urllib2 import urlopen, Request
cookieFile = "cookies.dat"
testURL = 'http://maps.google.com/'
#为cookie jar 创建实例
cJar = cookielib.LWPCookieJar()
#创建HTTPCookieProcessor的opener对象
opener = urllib2.build_opener( \
urllib2.HTTPCookieProcessor(cJar))
#安装HTTPCookieProcessor的opener
urllib2.install_opener(opener)
#创建一个Request对象
r = Request(testURL)
#打开HTML文件
h = urlopen(r)
print "页面的头部\n======================"
print h.info()
print "页面的Cookies\n======================"
for ind, cookie in enumerate(cJar):
print "%d - %s" % (ind, cookie)
#保存cookies
cJar.save(cookieFile)
上述代码的运行结果如下所示:
======================
Cache-Control: private
Content-Type: text/html; charset=ISO-8859-1
Set-Cookie: PREF=ID=5d9692b55f029733:NW=1:TM=1246015608:LM=1246015608:S=frfx--b3xt73TaEA; expires=Sun, 26-Jun-2011 11:26:48 GMT; path=/; domain=.google.com
Date: Fri, 26 Jun 2009 11:26:48 GMT
Server: mfe
Expires: Fri, 26 Jun 2009 11:26:48 GMT
Transfer-Encoding: chunked
Connection: close
页面的Cookies
======================
0 -
补充:http://liuxinglanyue.iteye.com/admin/blogs/900758
发表评论
-
老王的Python教程-推荐
2011-02-02 22:46 1967强烈推荐,适合入门,适合深入 http://www.cnpy ... -
转贴一篇不错的Python入门教程 - Instant Hacking[译文]
2011-02-02 00:09 1936原文 http://www.hetland.org/ ... -
python快速入门教程
2011-02-01 23:41 1939python所支持的数据类型:整型、长整型、布尔型 ... -
python入门教程:语句和语法
2011-02-01 23:40 2244注释(#): python中的注 ... -
python教程:安装python运行环境以及简单程序
2011-02-01 23:38 2553python3.0已推出,但据说很多库都不能用了,建议 ... -
利用Python抓取和解析网页(二)补充
2011-02-01 23:34 1992五、为HTML文档中的属性值添加引号 前面我们 ... -
利用Python抓取和解析网页(一)
2011-02-01 23:25 8052对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用 ... -
Google Python 视频教程
2011-01-04 08:39 1625Google Python Class Day 1 Part ... -
Django学习笔记(收藏)
2011-01-01 15:43 1034Django笔记1 Django笔记2 ... -
用Redis存储好友关系-python版
2011-01-01 11:56 1423这是一个用Redis存储好友关系的python下使用Redis ... -
Python正则表达式指南
2010-12-23 12:12 12901. 正则表达式基础 1.1. 简单介绍 正则表达 ... -
Python 3 初探,第 2 部分: 高级主题
2010-12-07 20:00 1351转自:Cesar Otero 简介: Python 3 是 ... -
Python 3 初探,第 1 部分: Python 3 的新特性
2010-12-07 19:58 963转自:Cesar Otero 简介: Python 3 是 ...
相关推荐
在这个"python抓取淘宝天猫网页商品详情Demo"中,我们将探讨如何利用Python进行网页抓取,特别是针对淘宝和天猫的商品详情页面。 首先,我们需要理解网页抓取的基本原理。网页抓取,也称为网络爬虫,是通过模拟...
在Python编程中,有时我们需要将网页内容抓取下来并保存为PDF格式,以便于离线阅读或者方便打印。本篇将详细介绍如何使用Python来实现这一功能,主要涉及的库包括`requests`、`beautifulsoup4`、`pdfkit`以及`PyPDF2...
本项目"python抓取淘宝天猫网页商品详情Demo.zip"是一个利用Python进行网络数据抓取的示例,主要涉及到以下几个核心知识点: 1. **网络请求库**:在Python中,我们通常使用如`requests`库来发送HTTP请求,获取网页...
**Python网页信息抓取技术详解** 网页信息抓取,也称为网络爬虫或网页抓取,是通过自动化程序从互联网上获取大量数据的过程。在这个领域,Python语言因其强大的库支持和简洁的语法而成为首选工具。本教程将深入探讨...
本文将深入探讨一个基于Python的游戏协议数据抓取解析工具,该工具利用了wxWidgets、pywin32和WinPcap库来实现其功能。让我们逐一了解这些关键组件。 首先,`wxWidgets` 是一个跨平台的GUI工具包,用于帮助开发者...
本实例程序"python抓取网页到本地"将教你如何利用Python来抓取新闻页面上的所有新闻链接,并将这些链接对应的内容保存到本地。这涉及到的知识点主要包括Python基础、网络请求、HTML解析以及文件操作。 首先,我们...
本主题将深入探讨如何使用Python进行网页数据抓取,并介绍如何利用这些数据创建表格,同时涉及CSS文件的生成和字体的修改。 首先,网页数据抓取是通过Python中的库如BeautifulSoup或Scrapy来实现的。BeautifulSoup...
Python在Web抓取和爬虫领域有着广泛的应用,它的易学性和强大的库支持使得开发者能够高效地抓取和处理网页内容。以下是一些基于Python的网页抓取和...通过不断学习和实践,开发者可以利用Python实现高效的Web数据采集。
Python抓取,通常指的是使用Python进行网络数据抓取或网络爬虫的过程。Python因其丰富的库支持和简洁的语法,成为了网络爬虫开发的热门选择。...通过学习和实践,你可以利用Python高效地从互联网获取你需要的信息。
### Python抓取京东数据知识点详解 #### 一、项目背景与目标 本项目旨在通过Python爬虫技术抓取京东网站的商品评论数据,并将其存储至MySQL数据库中,方便后续的数据分析和挖掘工作。该项目重点关注京东图书商品的...
在这个主题中,我们将探讨如何使用Python来抓取百度云分享的数据,特别是利用百度云最新的API接口。这通常涉及到请求、解析HTML或JSON响应、处理验证码以及可能的反爬策略。 首先,要抓取百度云分享的数据,我们...
本篇内容将介绍如何利用Python爬虫抓取网页内容,并将其存储到MongoDB数据库中,形成可管理的文档型数据。 首先,Python中的`requests`库是用于发送HTTP请求的工具,它能够帮助我们获取网页的HTML源码。例如,在...
本文将深入探讨如何利用Python抓取高德地图的POI数据,并解决数据量限制的问题。通过提供的文件`GetAmapPOIbyPolygon.py`,我们可以看到一个Python脚本,它用于获取高德地图在特定区域内的POI数据。 首先,`...
在本项目实践中,我们主要探讨了如何利用Python进行数据抓取,特别关注了从上海证券交易所(简称上交所)和深圳证券交易所(简称深交所)获取上市公司信息。这些信息对于金融分析、投资决策以及市场研究至关重要。...
本项目提供了一套完整的解决方案,利用Python来抓取免费代理IP,并将其存储到MySQL数据库中,同时实现定期检查和排除失效的IP,构建自定义的代理IP池。 1. **Python抓取免费代理IP** `get_ips.py` 文件很可能是...
Python 编写的淘宝数据抓取工具是利用编程语言Python结合Scrapy框架来实现的一款高效、自动化的网络数据采集工具。Scrapy是一个强大的Python爬虫框架,适用于构建复杂的爬虫项目,能够快速地从网页中抓取所需信息。...
2. Python抓取库选择: - requests库:用于发送HTTP请求,如GET、POST,是抓取网页的基本工具。 - Beautiful Soup库:用于解析HTML和XML文档,能处理复杂的页面,方便地提取数据。 - Scrapy框架:是一个快速高...
使用 Python 进行网页抓取时,可以利用 Requests、Beautiful Soup、lxml、Scrapy 和 Selenium 等工具。在编写爬虫时,需要考虑遵守 Robots.txt、处理异常、用户代理旋转、法律和道德问题。此外,还可以通过分布式...