用Python 3000 写点有用的东西 - 解析网页 - JackyCheng2007 - ITeye博客

`

JackyCheng2007

浏览: 255102 次
性别:
来自: 上海

最近访客更多访客>>

囧囧有神

平民圣人

dongguangming88

漆佳峰

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

探索者_技术：不错讲解的比较详细
Java 执行过程详解 - JVM 生命周期
besterzhao：学习了
关于 sun.misc.Unsafe
lliiqiang：属性变量被设定为不可更改的，外界传递的对象复制一份再保存到对象 ...
不可变类(immutable class)
xunke515：有启发.感谢
Java System 类详解 - in, out, err
bo_hai：你说没错。问题是：怎么样把ClassA中的事务传播到Class ...
Spring 事务在多线程环境下的传播

用Python 3000 写点有用的东西 - 解析网页

博客分类：

Python

Python F#Google Java HTML

阅读更多

读网页

1. 打印出网页

import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
    for line in f.readlines():
        print(line)
finally:
    f.close()

显示出来的比较乱，尤其是中文没有显示出来。

2. 解决中文问题

引用

hello.txt
中文显示测试
中文！

f = open("c:/hello.txt")
try:
    for line in f:
        print(line)
finally:
    f.close()

看来直接显示中文没有问题。

3. 尝试decode

import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
    for line in f.readlines():
        print(line.decode('cp936'))
finally:
    f.close()

搞定！'cp936'是什么？有人说就是指系统里第936号编码格式，也就是GB2312。也有人说就是GBK。Anyway，正常显示出来了。下一步尝试用html.parser — Simple HTML and XHTML parser

4.用html.parser
顾名思义，html.parser就是用来解析HTML文本文件的。是Python标准库之一。

import urllib.request
from html.parser import HTMLParser

url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
source = f.read().decode("cp936")

parser = HTMLParser()
parser.feed(source)

分享到：

RPM 与 SRPM | 买二手房时的注意事项 - 留意上家户口是否 ...

2008-12-16 22:09
浏览 1826
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python网络爬虫项目实战-网页内容解析: “爬虫”是一种形象的说法。互联网比喻成一张大网，爬虫是一个程序或脚本在这种大网上爬走。碰到虫子（资源），若是所需的资源就获取或下载...本资源为Python网络爬虫项目实战---网页内容解析，有需要的可以下载学习

python爬虫学习，爬了乐高官网的说明书，给自己写点用得上的东西.zip: 这个名为"python爬虫学习，爬了乐高官网的说明书，给自己写点用得上的东西.zip"的压缩包文件显然包含了一次针对乐高官网的爬虫实践。在这个项目中，作者可能是为了获取乐高积木的说明书，以便于个人使用或学习。 ...

Python学习路径以及学习视频: "爬虫"部分是Python的一大应用场景，它涉及到网络请求、网页解析、数据提取和存储等方面。Python的BeautifulSoup、Scrapy等库使得爬虫开发变得简单高效。通过这部分的学习，你可以获取并分析大量网络数据，为数据...

python guide: ### Python Guide：全面掌握Python开发的关键知识点 #### 一、概览《Python Guide》是一份详尽且实用的手册，旨在为初学者乃至资深开发者提供关于Python编程语言的最佳实践指南。该文档由Kenneth Reitz编写，版本...

爬有道字典虫python: 初学者，使用python进行爬取网页上简单的东西，使用beautifulsoup工具进行html界面解析。

一个古老的编程游戏：Python-Challenge全通攻略.docx: ### Python Challenge全通关攻略知识点详解 #### 一、游戏简介 **Python Challenge**是一个专为程序员设计的独特在线挑战游戏。玩家需要通过解决一系列谜题来解锁新的关卡，这些谜题通常涉及到编程知识，尽管游戏名...

python深度解析之深入理解爬虫进阶.pdf: 互联网大型企业都有自己数据展示平台，都会想办法去保护自己的数据，标准的说法...理论上来说，只要你在网页上能看见的东西，都是可以爬下来的，为什么敢这么说，因为就是这么自信，自信的男孩运气往往都不会太好，囧。

基于Python的网络爬虫课程设计: 任务包括选择合适的开发环境（通常Python开发工具如PyCharm或VSCode），设计并实现一个网络爬虫程序，该程序能从特定的网页出发，按照一定的规则抓取链接，遍历网页结构，下载页面内容，并进行一定程度的解析和存储...

Automate-The-Boring-Stuff:Al Sweigart的“用Python自动化无聊的东西”的项目: "用Python自动化无聊的东西"是Al Sweigart所著的一本非常受欢迎的Python入门书籍，主要面向初学者，尤其适合那些希望通过编程来简化日常任务的人。这本书的核心理念是教会读者如何利用Python语言来处理日常生活和...

scrapy结合selenium解析动态页面的实现: 1. 问题虽然scrapy能够完美且快速的抓取静态页面，...然后你得去调ajax的接口，然后解析json啊，转成python字典啊，然后才能拿到你想要的东西妹的就不能对我们这些小爬爬友好一点吗？于是大家伙肯定想过，“为啥不

AutomateTheBoringStuff：Al Sweigart学习“用Python自动化无聊的东西”时编写的Python代码。也将尝试重现PowerShell中的所有练习: 《用Python自动化无聊的东西》是Al Sweigart编写的一本非常实用的Python编程教程，它旨在教读者如何利用Python来解决日常工作中繁琐、重复的任务，从而提高效率。这本书的实践性强，涵盖了各种实用的编程技巧和工具...

自己用java做的一个类似网页爬虫的东西: 6. **网页解析**：除了Jsoup，还可以使用其他库如Apache HttpClient和XPath进行更复杂的网页解析。XPath是一种在XML文档中查找信息的语言，对XML格式的网页尤其有用。 7. **数据存储**：抓取到的数据通常需要保存，...

automatetxtbk：使用“使用python自动处理无聊的东西”教科书时进行练习和编程: 标题中的"automatetxtbk"是一个项目或者工具的名称，显然与Python编程有关，而"使用'使用python自动处理无聊的东西'教科书时进行练习和编程"的描述表明，这个项目是基于一本名为《使用Python自动处理无聊的东西》的...

基于Python的scrapy的使用: 下载器的基础是twisted，一个Python网络引擎框架。爬虫(Spiders): 用于从特定的网页中提取自己需要的信息, 即Scrapy中所谓的实体(Item)。也可以从中提取出链接，让Scrapy继续抓取下一个页面管道(Pipeline): 负责...

doubanspiders-master豆瓣电影、书籍、小组、相册、东西等爬虫集.zip: 《豆瓣全方位数据爬虫实践与Python技术解析》在当今的大数据时代，网络信息的获取与分析变得至关重要，尤其对于娱乐、文化领域的研究者和爱好者来说，豆瓣平台提供了丰富的电影、书籍、小组、相册及商品等多元化的...

Python网络爬虫课程设计: 【Python网络爬虫课程设计】是一门以Python编程语言为基础，专注于网络数据抓取和分析的实践性课程。本课程的目标是通过爬取并分析特定网站的数据，例如“站长之家”上的分类信息网站排行榜，来了解各类网站的影响力...

双十一福利！爬取电商平台商品详情！买东西我们只买优质产品！.pdf: 这篇文章介绍了如何使用Python编程语言配合selenium工具包以及一些其他第三方模块来爬取电商平台商品详情，具体以淘宝平台为例。为了帮助读者更好地理解和应用，本文将详细介绍以下几个方面的知识点。知识点一：...

WeiboSuperSpider-master_微博爬虫_: 2. **Python爬虫框架**：微博爬虫通常使用Python语言开发，因为Python有丰富的爬虫库如Scrapy、BeautifulSoup和Requests等，它们可以简化网络请求、HTML解析和数据存储等工作。 3. **微博API**：微博平台提供了官方...

Global site tag (gtag.js) - Google Analytics