最近在研究Python,熟悉了一些基本语法和模块的使用;现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的,自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。
Python爬虫主要使用的是urllib模块,Python2.x版本是urllib2,很多博客里面的示例都是使用urllib2的,因为我使用的是Python3.3.2,所以在文档里面没有urllib2这个模块,import的时候会报错,找不到该模块,应该是已经将他们整合在一起了。
下面是一个简单的代码示例:
#encoding:UTF-8
import urllib.request
def getdata():
url="http://www.baidu.com"
data=urllib.request.urlopen(url).read()
print(data)
getdata()
结果:

中文转码,修改一下代码:
#encoding:UTF-8
import urllib.request
def getdata():
url="http://www.baidu.com"
data=urllib.request.urlopen(url).read()
z_data=data.decode('UTF-8')
print(z_data)
getdata()
结果如下:

研究Python到现在有差不多一周的时间这样,由于是刚入门,所以还有多东西需要学习的。比如这里需要使用正则表达式提取数据还需要进一步学习。
好了,以后再慢慢研究。欢各路前辈指导。
分享到:
相关推荐
Python的urllib3库是Python标准库...总的来说,urllib3是Python中一个强大且灵活的HTTP客户端工具,无论是简单的网页抓取还是复杂的网络应用,它都能胜任。了解并掌握urllib3,将有助于提升你的Python网络编程能力。
`urllib` 是 Python 的一个标准库,主要用于处理 URL 操作,比如抓取网页内容、解析 URL 和处理异常情况等。对于从事 Web 开发或者需要从互联网上抓取数据的开发者来说,`urllib` 提供了一系列强大的工具和功能。 #...
urllib 学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看....@ urllib为python自带的一个网络库 @ urlo
这段代码会连接到指定的URL并读取其内容。值得注意的是,urlopen不仅支持HTTP协议,还可以处理FTP、FILE等其他类型的URL。 Request对象是urllib2中另一个重要的概念,它代表了一个HTTP请求。你可以通过创建一个...
本文将详细介绍如何使用Python3的`urllib`库来抓取百度贴吧中的帖子内容,并从中提取邮箱和QQ号码等信息。该过程涉及到网络爬虫的基础知识、正则表达式匹配以及网页数据解析等关键技能。 #### 主要组件 为了实现这...
在Python编程中,处理URL编码和解码是常见的任务,特别是在网络请求和网页抓取时。`urllib`模块提供了一系列工具,使得开发者能够方便地处理URL中的编码问题。本篇将详细介绍`urllib`模块中的`quote`和`unquote`函数...
### Python利用urllib实现爬取京东网站商品图片的爬虫实例 #### 一、概述 在Web开发领域,网络爬虫技术是一项非常重要的技能。它能够帮助开发者从互联网上自动抓取所需的数据或资源。本篇文章将详细介绍如何使用...
总结来说,对于使用Python爬虫进行数据抓取时,掌握urllib模块中URL编码的处理方法是非常重要的。它不仅可以帮助我们避免在爬虫过程中出现编码错误,而且也是保证爬虫程序稳定运行的关键步骤之一。通过上述示例和...
3. **urllib.parse**:用于URL的解析、编码和解码。它可以帮助我们将URL分解成组件,便于理解和操作。 ```python from urllib.parse import urlparse, parse_qs url = '...
1. **基础抓取**:首先,Python中的`urllib.request`库提供了基本的HTTP请求功能,如`urlopen`函数可以用来获取指定URL的响应内容。例如,`urllib.request.urlopen(url)`用于打开一个网页并返回响应对象。 2. **...
在Python的网络编程领域,`urllib`是一个重要的库,它包含了处理URL的多个功能模块。本篇将深入探讨`urllib`库及其主要组成部分,包括`robots`协议的运用。 首先,`urllib`库是Python的标准库之一,主要用于处理URL...
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载,导入即可使用) urllib2官网...
1. **urllib**: 是Python标准库中最基础的URL处理模块,它提供了打开URL的基本功能。例如,`urllib.urlopen(url)`可以直接打开一个URL并读取其内容。在上述代码中,`use_urllib2()`函数就展示了这一点。 2. **...
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 在Python中,我们...
现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。 ...
在Python 2.x中,`urlparse`模块用于URL解析,而Python 3.x中,这个功能被整合到`urllib.parse`模块。例如,你可以使用`urlparse.urljoin()`来组合URL,`urlparse.urlsplit()`来分解URL,或者`urlparse.urlencode()`...
总的来说,Python 3.X的urllib库提供了更强大且易用的功能,简化了对URL的处理,使得网络请求变得更加便捷。通过了解这些核心概念和用法,开发者可以更好地利用urllib库进行网页抓取、数据交互等任务。
Python3中的`urllib`库是一个内置的模块,主要用于处理URL相关的任务,包括网络请求、数据编码和解码、URL解析以及处理robots.txt文件。在本文中,我们将深入探讨`urllib`的主要组件以及如何解决在使用过程中可能...