读网页
1. 打印出网页
import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
for line in f.readlines():
print(line)
finally:
f.close()
显示出来的比较乱,尤其是中文没有显示出来。
2. 解决中文问题
引用
hello.txt
中文显示测试
中文!
f = open("c:/hello.txt")
try:
for line in f:
print(line)
finally:
f.close()
看来直接显示中文没有问题。
3. 尝试decode
import urllib.request
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
try:
for line in f.readlines():
print(line.decode('cp936'))
finally:
f.close()
搞定!'cp936'是什么?有人说就是指系统里第936号编码格式,也就是GB2312。也有人说就是GBK。Anyway,正常显示出来了。下一步尝试用html.parser — Simple HTML and XHTML parser
4.用html.parser
顾名思义,html.parser就是用来解析HTML文本文件的。是Python标准库之一。
import urllib.request
from html.parser import HTMLParser
url = 'http://www.google.cn/'
f = urllib.request.urlopen(url)
source = f.read().decode("cp936")
parser = HTMLParser()
parser.feed(source)
分享到:
相关推荐
“爬虫”是一种形象的说法。互联网比喻成一张大网,爬虫是一个程序或脚本在这种大网上爬走。碰到虫子(资源),若是所需的资源就获取或下载...本资源为Python网络爬虫项目实战---网页内容解析,有需要的可以下载学习
这个名为"python爬虫学习,爬了乐高官网的说明书,给自己写点用得上的东西.zip"的压缩包文件显然包含了一次针对乐高官网的爬虫实践。在这个项目中,作者可能是为了获取乐高积木的说明书,以便于个人使用或学习。 ...
"爬虫"部分是Python的一大应用场景,它涉及到网络请求、网页解析、数据提取和存储等方面。Python的BeautifulSoup、Scrapy等库使得爬虫开发变得简单高效。通过这部分的学习,你可以获取并分析大量网络数据,为数据...
### Python Guide:全面掌握Python开发的关键知识点 #### 一、概览 《Python Guide》是一份详尽且实用的手册,旨在为初学者乃至资深开发者提供关于Python编程语言的最佳实践指南。该文档由Kenneth Reitz编写,版本...
初学者,使用python进行爬取网页上简单的东西,使用beautifulsoup工具进行html界面解析。
### Python Challenge全通关攻略知识点详解 #### 一、游戏简介 **Python Challenge**是一个专为程序员设计的独特在线挑战游戏。玩家需要通过解决一系列谜题来解锁新的关卡,这些谜题通常涉及到编程知识,尽管游戏名...
互联网大型企业都有自己数据展示平台,都会想办法去保护自己的数据,标准的说法...理论上来说,只要你在网页上能看见的东西,都是可以爬下来的,为什么敢这么说,因为就是这么自信,自信的男孩运气往往都不会太好,囧。
任务包括选择合适的开发环境(通常Python开发工具如PyCharm或VSCode),设计并实现一个网络爬虫程序,该程序能从特定的网页出发,按照一定的规则抓取链接,遍历网页结构,下载页面内容,并进行一定程度的解析和存储...
"用Python自动化无聊的东西"是Al Sweigart所著的一本非常受欢迎的Python入门书籍,主要面向初学者,尤其适合那些希望通过编程来简化日常任务的人。这本书的核心理念是教会读者如何利用Python语言来处理日常生活和...
1. 问题 虽然scrapy能够完美且快速的抓取静态页面,...然后你得去调ajax的接口,然后解析json啊,转成python字典啊,然后才能拿到你想要的东西 妹的就不能对我们这些小爬爬友好一点吗? 于是大家伙肯定想过,“为啥不
《用Python自动化无聊的东西》是Al Sweigart编写的一本非常实用的Python编程教程,它旨在教读者如何利用Python来解决日常工作中繁琐、重复的任务,从而提高效率。这本书的实践性强,涵盖了各种实用的编程技巧和工具...
6. **网页解析**:除了Jsoup,还可以使用其他库如Apache HttpClient和XPath进行更复杂的网页解析。XPath是一种在XML文档中查找信息的语言,对XML格式的网页尤其有用。 7. **数据存储**:抓取到的数据通常需要保存,...
标题中的"automatetxtbk"是一个项目或者工具的名称,显然与Python编程有关,而"使用'使用python自动处理无聊的东西'教科书时进行练习和编程"的描述表明,这个项目是基于一本名为《使用Python自动处理无聊的东西》的...
下载器的基础是twisted,一个Python网络引擎框架。 爬虫(Spiders): 用于从特定的网页中提取自己需要的信息, 即Scrapy中所谓的实体(Item)。也可以从中提取出链接,让Scrapy继续抓取下一个页面 管道(Pipeline): 负责...
《豆瓣全方位数据爬虫实践与Python技术解析》 在当今的大数据时代,网络信息的获取与分析变得至关重要,尤其对于娱乐、文化领域的研究者和爱好者来说,豆瓣平台提供了丰富的电影、书籍、小组、相册及商品等多元化的...
【Python网络爬虫课程设计】是一门以Python编程语言为基础,专注于网络数据抓取和分析的实践性课程。本课程的目标是通过爬取并分析特定网站的数据,例如“站长之家”上的分类信息网站排行榜,来了解各类网站的影响力...
这篇文章介绍了如何使用Python编程语言配合selenium工具包以及一些其他第三方模块来爬取电商平台商品详情,具体以淘宝平台为例。为了帮助读者更好地理解和应用,本文将详细介绍以下几个方面的知识点。 知识点一:...
2. **Python爬虫框架**:微博爬虫通常使用Python语言开发,因为Python有丰富的爬虫库如Scrapy、BeautifulSoup和Requests等,它们可以简化网络请求、HTML解析和数据存储等工作。 3. **微博API**:微博平台提供了官方...