`
JackyCheng2007
  • 浏览: 252478 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

用Python 3000 写点有用的东西 - 解析网页

阅读更多
读网页

1. 打印出网页
import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
    for line in f.readlines():
        print(line)
finally:
    f.close()

显示出来的比较乱,尤其是中文没有显示出来。

2. 解决中文问题
引用
hello.txt
中文显示测试
中文!

f = open("c:/hello.txt")
try:
    for line in f:
        print(line)
finally:
    f.close()

看来直接显示中文没有问题。

3. 尝试decode
import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
    for line in f.readlines():
        print(line.decode('cp936'))
finally:
    f.close()

搞定!'cp936'是什么?有人说就是指系统里第936号编码格式,也就是GB2312。也有人说就是GBK。Anyway,正常显示出来了。下一步尝试用html.parser — Simple HTML and XHTML parser

4.用html.parser
顾名思义,html.parser就是用来解析HTML文本文件的。是Python标准库之一。
import urllib.request
from html.parser import HTMLParser

url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
source = f.read().decode("cp936")

parser = HTMLParser()
parser.feed(source)



分享到:
评论

相关推荐

    Python网络爬虫项目实战-网页内容解析

    “爬虫”是一种形象的说法。互联网比喻成一张大网,爬虫是一个程序或脚本在这种大网上爬走。碰到虫子(资源),若是所需的资源就获取或下载...本资源为Python网络爬虫项目实战---网页内容解析,有需要的可以下载学习

    python爬虫学习,爬了乐高官网的说明书,给自己写点用得上的东西.zip

    这个名为"python爬虫学习,爬了乐高官网的说明书,给自己写点用得上的东西.zip"的压缩包文件显然包含了一次针对乐高官网的爬虫实践。在这个项目中,作者可能是为了获取乐高积木的说明书,以便于个人使用或学习。 ...

    Python学习路径以及学习视频

    "爬虫"部分是Python的一大应用场景,它涉及到网络请求、网页解析、数据提取和存储等方面。Python的BeautifulSoup、Scrapy等库使得爬虫开发变得简单高效。通过这部分的学习,你可以获取并分析大量网络数据,为数据...

    python guide

    ### Python Guide:全面掌握Python开发的关键知识点 #### 一、概览 《Python Guide》是一份详尽且实用的手册,旨在为初学者乃至资深开发者提供关于Python编程语言的最佳实践指南。该文档由Kenneth Reitz编写,版本...

    爬有道字典虫python

    初学者,使用python进行爬取网页上简单的东西,使用beautifulsoup工具进行html界面解析。

    一个古老的编程游戏:Python-Challenge全通攻略.docx

    ### Python Challenge全通关攻略知识点详解 #### 一、游戏简介 **Python Challenge**是一个专为程序员设计的独特在线挑战游戏。玩家需要通过解决一系列谜题来解锁新的关卡,这些谜题通常涉及到编程知识,尽管游戏名...

    基于Python的网络爬虫课程设计

    任务包括选择合适的开发环境(通常Python开发工具如PyCharm或VSCode),设计并实现一个网络爬虫程序,该程序能从特定的网页出发,按照一定的规则抓取链接,遍历网页结构,下载页面内容,并进行一定程度的解析和存储...

    Automate-The-Boring-Stuff:Al Sweigart的“用Python自动化无聊的东西”的项目

    "用Python自动化无聊的东西"是Al Sweigart所著的一本非常受欢迎的Python入门书籍,主要面向初学者,尤其适合那些希望通过编程来简化日常任务的人。这本书的核心理念是教会读者如何利用Python语言来处理日常生活和...

    python深度解析之深入理解爬虫进阶.pdf

    互联网大型企业都有自己数据展示平台,都会想办法去保护自己的数据,标准的说法...理论上来说,只要你在网页上能看见的东西,都是可以爬下来的,为什么敢这么说,因为就是这么自信,自信的男孩运气往往都不会太好,囧。

    AutomateTheBoringStuff:Al Sweigart学习“用Python自动化无聊的东西”时编写的Python代码。 也将尝试重现PowerShell中的所有练习

    《用Python自动化无聊的东西》是Al Sweigart编写的一本非常实用的Python编程教程,它旨在教读者如何利用Python来解决日常工作中繁琐、重复的任务,从而提高效率。这本书的实践性强,涵盖了各种实用的编程技巧和工具...

    自己用java做的一个类似网页爬虫的东西

    6. **网页解析**:除了Jsoup,还可以使用其他库如Apache HttpClient和XPath进行更复杂的网页解析。XPath是一种在XML文档中查找信息的语言,对XML格式的网页尤其有用。 7. **数据存储**:抓取到的数据通常需要保存,...

    scrapy结合selenium解析动态页面的实现

    1. 问题 虽然scrapy能够完美且快速的抓取静态页面,...然后你得去调ajax的接口,然后解析json啊,转成python字典啊,然后才能拿到你想要的东西 妹的就不能对我们这些小爬爬友好一点吗? 于是大家伙肯定想过,“为啥不

    automatetxtbk:使用“使用python自动处理无聊的东西”教科书时进行练习和编程

    标题中的"automatetxtbk"是一个项目或者工具的名称,显然与Python编程有关,而"使用'使用python自动处理无聊的东西'教科书时进行练习和编程"的描述表明,这个项目是基于一本名为《使用Python自动处理无聊的东西》的...

    基于Python的scrapy的使用

    下载器的基础是twisted,一个Python网络引擎框架。 爬虫(Spiders): 用于从特定的网页中提取自己需要的信息, 即Scrapy中所谓的实体(Item)。也可以从中提取出链接,让Scrapy继续抓取下一个页面 管道(Pipeline): 负责...

    doubanspiders-master豆瓣电影、书籍、小组、相册、东西等爬虫集.zip

    《豆瓣全方位数据爬虫实践与Python技术解析》 在当今的大数据时代,网络信息的获取与分析变得至关重要,尤其对于娱乐、文化领域的研究者和爱好者来说,豆瓣平台提供了丰富的电影、书籍、小组、相册及商品等多元化的...

    Python网络爬虫课程设计

    【Python网络爬虫课程设计】是一门以Python编程语言为基础,专注于网络数据抓取和分析的实践性课程。本课程的目标是通过爬取并分析特定网站的数据,例如“站长之家”上的分类信息网站排行榜,来了解各类网站的影响力...

    双十一福利!爬取电商平台商品详情!买东西我们只买优质产品!.pdf

    这篇文章介绍了如何使用Python编程语言配合selenium工具包以及一些其他第三方模块来爬取电商平台商品详情,具体以淘宝平台为例。为了帮助读者更好地理解和应用,本文将详细介绍以下几个方面的知识点。 知识点一:...

    WeiboSuperSpider-master_微博爬虫_

    2. **Python爬虫框架**:微博爬虫通常使用Python语言开发,因为Python有丰富的爬虫库如Scrapy、BeautifulSoup和Requests等,它们可以简化网络请求、HTML解析和数据存储等工作。 3. **微博API**:微博平台提供了官方...

Global site tag (gtag.js) - Google Analytics