`
have_life
  • 浏览: 152310 次
社区版块
存档分类
最新评论

python抓取一个页面

阅读更多
#coding=utf-8
'''
Created on 2012-5-17

@author: chenhuiting
'''

import sys
import urllib2
import gzip
import StringIO
 
# 页面url
url = "http://www.915.com/news/201005/25-052512922010.html"
# 页面编码
page_encode = "utf8"
 
request = urllib2.Request(url)
request.add_header("Accept-encoding", "gzip")
usock = urllib2.urlopen(request)
page = usock.read()
# 处理gzip过的页面
if usock.headers.get('content-encoding', None) == 'gzip':
    page = gzip.GzipFile(fileobj=StringIO.StringIO(page)).read()
 
# 转unicode(gbk/utf8)
if not isinstance(page, unicode):
    page = unicode(page, page_encode)
 
print(page)
分享到:
评论

相关推荐

    python抓取并保存html页面时乱码问题的解决方法

    本篇文章将深入探讨Python抓取并保存HTML页面时乱码问题的解决方法。 首先,我们需要理解编码的基础知识。计算机内部存储和处理文本信息时使用的是二进制,而我们人类习惯的字符集如ASCII、UTF-8、GBK等则是为了将...

    python抓取

    Python抓取,通常指的是使用Python进行网络数据...综上所述,Python抓取是一个涵盖广泛的技术领域,涉及到网络请求、HTML解析、数据处理等多个方面。通过学习和实践,你可以利用Python高效地从互联网获取你需要的信息。

    python抓取淘宝天猫网页商品详情Demo

    在这个"python抓取淘宝天猫网页商品详情Demo"中,我们将探讨如何利用Python进行网页抓取,特别是针对淘宝和天猫的商品详情页面。 首先,我们需要理解网页抓取的基本原理。网页抓取,也称为网络爬虫,是通过模拟...

    python 抓取1688店铺产品详情爬虫

    python 抓取1688店铺产品详情,爬虫

    Python抓取京东数据

    ### Python抓取京东数据知识点详解 #### 一、项目背景与目标 本项目旨在通过Python爬虫技术抓取京东网站的商品评论数据,并将其存储至MySQL数据库中,方便后续的数据分析和挖掘工作。该项目重点关注京东图书商品的...

    Python抓取页面、Pthon爬虫参考资料

    例如,`urllib.request.urlopen(url)`用于打开一个网页并返回响应对象。 2. **网页内容提取**:在上述代码中,`SGMLParser`是Python标准库`sgmllib`的一部分,用于解析HTML或SGML文档。`Html2txt`类是自定义的解析...

    python爬虫 抓取页面图片

    python爬虫 抓取页面图片python爬虫 抓取页面图片python爬虫 抓取页面图片

    python 抓取一个网站所有图片并保存

    通过以上步骤,我们可以实现用Python抓取一个网站上的所有图片并保存到本地。这个过程涉及网络请求、HTML解析、文件操作等多个环节,是Python爬虫技术的综合应用。在实际项目中,可能还需要对代码进行优化,例如添加...

    Python爬虫抓取Ebay页面

    ### Python爬虫抓取Ebay页面 #### 概述 本篇内容主要介绍如何使用Python编写网络爬虫来抓取Ebay网站上的商品信息。在实际应用中,爬虫技术被广泛应用于数据挖掘、信息检索等领域,对于电商网站来说更是如此。通过...

    Python实现抓取HTML网页并以PDF文件形式保存的方法

    1. **PyPDF2模块**:PyPDF2是一个用于处理PDF文件的Python库,它可以读取PDF文件并进行各种操作,如合并、分割、提取页面等。在本文中,虽然我们并不直接使用PyPDF2来生成PDF,但它的功能强大,对于需要处理PDF的...

    python抓取网页到本地实例程序

    本实例程序"python抓取网页到本地"将教你如何利用Python来抓取新闻页面上的所有新闻链接,并将这些链接对应的内容保存到本地。这涉及到的知识点主要包括Python基础、网络请求、HTML解析以及文件操作。 首先,我们...

    Web-Scraping-with-Python_Python网页信息抓取_Python抓取网页_jupyter_Python抓

    网页抓取的另一个关键方面是处理JavaScript渲染的页面。许多现代网站使用AJAX技术动态加载内容,这些内容在原始HTML中不可见。为了抓取这种内容,可以使用`Selenium`库,它允许模拟浏览器行为。安装`Selenium`(通常...

    python抓取淘宝天猫网页商品详情Demo.zip

    本项目"python抓取淘宝天猫网页商品详情Demo.zip"是一个利用Python进行网络数据抓取的示例,主要涉及到以下几个核心知识点: 1. **网络请求库**:在Python中,我们通常使用如`requests`库来发送HTTP请求,获取网页...

    python抓取百度搜索的数据

    ### Python抓取百度搜索的数据 在本篇教程中,我们将详细介绍如何使用Python抓取百度搜索引擎返回的结果数据。此过程涉及到网络爬虫的基本概念和技术,包括HTTP请求、正则表达式匹配以及网页内容解析等。 #### ...

    python抓取网页上想要的任何数据.txt

    而在网络爬虫方面,Python也是一个非常强大的工具。本文将介绍如何使用Python抓取网页数据并解析。 1. Python抓取网页数据的基本流程 首先,我们需要明确一下Python抓取网页数据的基本流程。通常情况下,我们需要...

    Python数据抓取技术与实战.pdf

    2. Python抓取库选择: - requests库:用于发送HTTP请求,如GET、POST,是抓取网页的基本工具。 - Beautiful Soup库:用于解析HTML和XML文档,能处理复杂的页面,方便地提取数据。 - Scrapy框架:是一个快速高...

    Python网页数据抓取以及表格的制作

    至于字体的改变,Python的`fonttools`库是一个不错的选择。它允许你操作字体文件,包括改变字体大小、样式或创建新的字体组合。在实际应用中,这可能涉及到读取字体文件,修改字形信息,然后导出为新的字体格式。 ...

    python 爬虫之抓取页面图片

    通过阅读和学习这个文件,你可以更深入地理解如何编写一个简单的Python图片爬虫。记住,进行网络爬虫时应尊重网站的robots.txt协议,遵守道德规范,避免对服务器造成过大的负担。 总结一下,Python爬虫抓取页面图片...

    Python-抓取知乎V2EX等网站热榜信息

    本项目“Python-抓取知乎V2EX等网站热榜信息”旨在利用Python技术,实现对知乎和V2EX这两个热门互联网社区的热榜信息自动抓取,为数据分析和信息监控提供便利。 首先,我们需要了解Web爬虫的基本概念。Web爬虫是一...

    抓取页面正文python版

    本教程将重点关注如何使用Python的BeautifulSoup库来抓取页面正文。BeautifulSoup是一个强大的解析库,能够帮助开发者从HTML和XML文档中提取数据,非常适合进行网页抓取。 首先,我们需要导入必要的库。...

Global site tag (gtag.js) - Google Analytics