python抓取一个页面 - - ITeye博客

`

have_life

浏览: 154311 次

最近访客更多访客>>

siyu3223

dong_junshuai

thornbird313

xiaomabobo

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Rannn：我只是偶尔路过的。二叉树的深度为lg(n) 叶子为2^(L-1 ...
完全二叉树叶子节点个数计算问题
have_life：按住Ctrl+Shift 然后按 -> 这样的光标键， ...
eclipse快捷键
have_life：启动chrome隐身模式 Ctrl + Shift + N ...
快速恢复刚刚关闭的Chrome标签页的方法
have_life： Shift + Alt + A 光标会变成一个十字 ...
eclipse快捷键
have_life： Ctrl + Shift + X 把所有选中字母变大写Ctrl ...
eclipse快捷键

python抓取一个页面

博客分类：

python

python html 页面抓取

阅读更多

#coding=utf-8
'''
Created on 2012-5-17

@author: chenhuiting
'''

import sys
import urllib2
import gzip
import StringIO
 
# 页面url
url = "http://www.915.com/news/201005/25-052512922010.html"
# 页面编码
page_encode = "utf8"
 
request = urllib2.Request(url)
request.add_header("Accept-encoding", "gzip")
usock = urllib2.urlopen(request)
page = usock.read()
# 处理gzip过的页面
if usock.headers.get('content-encoding', None) == 'gzip':
    page = gzip.GzipFile(fileobj=StringIO.StringIO(page)).read()
 
# 转unicode(gbk/utf8)
if not isinstance(page, unicode):
    page = unicode(page, page_encode)
 
print(page)

分享到：

python 解析html | python 允许出现中文字符

2012-05-17 11:09
浏览 1178
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python抓取并保存html页面时乱码问题的解决方法: 本篇文章将深入探讨Python抓取并保存HTML页面时乱码问题的解决方法。首先，我们需要理解编码的基础知识。计算机内部存储和处理文本信息时使用的是二进制，而我们人类习惯的字符集如ASCII、UTF-8、GBK等则是为了将...

python抓取: Python抓取，通常指的是使用Python进行网络数据...综上所述，Python抓取是一个涵盖广泛的技术领域，涉及到网络请求、HTML解析、数据处理等多个方面。通过学习和实践，你可以利用Python高效地从互联网获取你需要的信息。

python抓取淘宝天猫网页商品详情Demo: 在这个"python抓取淘宝天猫网页商品详情Demo"中，我们将探讨如何利用Python进行网页抓取，特别是针对淘宝和天猫的商品详情页面。首先，我们需要理解网页抓取的基本原理。网页抓取，也称为网络爬虫，是通过模拟...

python 抓取1688店铺产品详情爬虫: python 抓取1688店铺产品详情，爬虫

Python抓取京东数据: ### Python抓取京东数据知识点详解 #### 一、项目背景与目标本项目旨在通过Python爬虫技术抓取京东网站的商品评论数据，并将其存储至MySQL数据库中，方便后续的数据分析和挖掘工作。该项目重点关注京东图书商品的...

Python抓取页面、Pthon爬虫参考资料: 例如，`urllib.request.urlopen(url)`用于打开一个网页并返回响应对象。 2. **网页内容提取**：在上述代码中，`SGMLParser`是Python标准库`sgmllib`的一部分，用于解析HTML或SGML文档。`Html2txt`类是自定义的解析...

python爬虫抓取页面图片: python爬虫抓取页面图片python爬虫抓取页面图片python爬虫抓取页面图片

python 抓取一个网站所有图片并保存: 通过以上步骤，我们可以实现用Python抓取一个网站上的所有图片并保存到本地。这个过程涉及网络请求、HTML解析、文件操作等多个环节，是Python爬虫技术的综合应用。在实际项目中，可能还需要对代码进行优化，例如添加...

Python爬虫抓取Ebay页面: ### Python爬虫抓取Ebay页面 #### 概述本篇内容主要介绍如何使用Python编写网络爬虫来抓取Ebay网站上的商品信息。在实际应用中，爬虫技术被广泛应用于数据挖掘、信息检索等领域，对于电商网站来说更是如此。通过...

Python实现抓取HTML网页并以PDF文件形式保存的方法: 1. **PyPDF2模块**：PyPDF2是一个用于处理PDF文件的Python库，它可以读取PDF文件并进行各种操作，如合并、分割、提取页面等。在本文中，虽然我们并不直接使用PyPDF2来生成PDF，但它的功能强大，对于需要处理PDF的...

python抓取网页到本地实例程序: 本实例程序"python抓取网页到本地"将教你如何利用Python来抓取新闻页面上的所有新闻链接，并将这些链接对应的内容保存到本地。这涉及到的知识点主要包括Python基础、网络请求、HTML解析以及文件操作。首先，我们...

Web-Scraping-with-Python_Python网页信息抓取_Python抓取网页_jupyter_Python抓: 网页抓取的另一个关键方面是处理JavaScript渲染的页面。许多现代网站使用AJAX技术动态加载内容，这些内容在原始HTML中不可见。为了抓取这种内容，可以使用`Selenium`库，它允许模拟浏览器行为。安装`Selenium`（通常...

python抓取淘宝天猫网页商品详情Demo.zip: 本项目"python抓取淘宝天猫网页商品详情Demo.zip"是一个利用Python进行网络数据抓取的示例，主要涉及到以下几个核心知识点： 1. **网络请求库**：在Python中，我们通常使用如`requests`库来发送HTTP请求，获取网页...

python抓取百度搜索的数据: ### Python抓取百度搜索的数据在本篇教程中，我们将详细介绍如何使用Python抓取百度搜索引擎返回的结果数据。此过程涉及到网络爬虫的基本概念和技术，包括HTTP请求、正则表达式匹配以及网页内容解析等。 #### ...

python抓取网页上想要的任何数据.txt: 而在网络爬虫方面，Python也是一个非常强大的工具。本文将介绍如何使用Python抓取网页数据并解析。 1. Python抓取网页数据的基本流程首先，我们需要明确一下Python抓取网页数据的基本流程。通常情况下，我们需要...

Python数据抓取技术与实战.pdf: 2. Python抓取库选择： - requests库：用于发送HTTP请求，如GET、POST，是抓取网页的基本工具。 - Beautiful Soup库：用于解析HTML和XML文档，能处理复杂的页面，方便地提取数据。 - Scrapy框架：是一个快速高...

Python网页数据抓取以及表格的制作: 至于字体的改变，Python的`fonttools`库是一个不错的选择。它允许你操作字体文件，包括改变字体大小、样式或创建新的字体组合。在实际应用中，这可能涉及到读取字体文件，修改字形信息，然后导出为新的字体格式。 ...

python 爬虫之抓取页面图片: 通过阅读和学习这个文件，你可以更深入地理解如何编写一个简单的Python图片爬虫。记住，进行网络爬虫时应尊重网站的robots.txt协议，遵守道德规范，避免对服务器造成过大的负担。总结一下，Python爬虫抓取页面图片...

Python-抓取知乎V2EX等网站热榜信息: 本项目“Python-抓取知乎V2EX等网站热榜信息”旨在利用Python技术，实现对知乎和V2EX这两个热门互联网社区的热榜信息自动抓取，为数据分析和信息监控提供便利。首先，我们需要了解Web爬虫的基本概念。Web爬虫是一...

抓取页面正文python版: 本教程将重点关注如何使用Python的BeautifulSoup库来抓取页面正文。BeautifulSoup是一个强大的解析库，能够帮助开发者从HTML和XML文档中提取数据，非常适合进行网页抓取。首先，我们需要导入必要的库。...

Global site tag (gtag.js) - Google Analytics