Python3 urllib抓取指定URL的内容 - Mr_Tank_ - ITeye博客

`

Mr_Tank_

浏览: 22543 次
性别:

最近访客更多访客>>

wukun_kevin

javacold

w592376568

lu3180

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Python3 urllib抓取指定URL的内容

阅读更多

最近在研究Python，熟悉了一些基本语法和模块的使用；现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的，自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。

Python爬虫主要使用的是urllib模块，Python2.x版本是urllib2，很多博客里面的示例都是使用urllib2的，因为我使用的是Python3.3.2，所以在文档里面没有urllib2这个模块，import的时候会报错，找不到该模块，应该是已经将他们整合在一起了。

下面是一个简单的代码示例：

#encoding:UTF-8
import urllib.request
def getdata():
    url="http://www.baidu.com"
    data=urllib.request.urlopen(url).read()
    print(data)

getdata()

结果：

中文转码，修改一下代码：

#encoding:UTF-8
import urllib.request
def getdata():
    url="http://www.baidu.com"
    data=urllib.request.urlopen(url).read()
    z_data=data.decode('UTF-8')
    print(z_data)

getdata()

结果如下：

研究Python到现在有差不多一周的时间这样，由于是刚入门，所以还有多东西需要学习的。比如这里需要使用正则表达式提取数据还需要进一步学习。

好了，以后再慢慢研究。欢各路前辈指导。

分享到：

Python3 urllib GET方式获取数据 | 使用Maven构建Spring MVC项目的简单示例

2013-11-03 11:16
浏览 2028
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python urllib3: Python的urllib3库是Python标准库...总的来说，urllib3是Python中一个强大且灵活的HTTP客户端工具，无论是简单的网页抓取还是复杂的网络应用，它都能胜任。了解并掌握urllib3，将有助于提升你的Python网络编程能力。

「Python系列」Python urllib库（操作网页URL对网页的内容进行抓取处理）.md: `urllib` 是 Python 的一个标准库，主要用于处理 URL 操作，比如抓取网页内容、解析 URL 和处理异常情况等。对于从事 Web 开发或者需要从互联网上抓取数据的开发者来说，`urllib` 提供了一系列强大的工具和功能。 #...

使用Python的urllib和urllib2模块制作爬虫的实例教程: urllib 学习python完基础,有些迷茫.眼睛一闭,一种空白的窒息源源不断而来.还是缺少练习,遂拿爬虫来练练手.学习完斯巴达python爬虫课程后,将心得整理如下,供后续翻看....@ urllib为python自带的一个网络库 @ urlo

pythonurllib2模块实例简介.pdf: 这段代码会连接到指定的URL并读取其内容。值得注意的是，urlopen不仅支持HTTP协议，还可以处理FTP、FILE等其他类型的URL。 Request对象是urllib2中另一个重要的概念，它代表了一个HTTP请求。你可以通过创建一个...

python3用urllib抓取贴吧邮箱和QQ实例: 本文将详细介绍如何使用Python3的`urllib`库来抓取百度贴吧中的帖子内容，并从中提取邮箱和QQ号码等信息。该过程涉及到网络爬虫的基础知识、正则表达式匹配以及网页数据解析等关键技能。 #### 主要组件为了实现这...

Python使用urllib模块对URL网址中的中文编码与解码实例详解: 在Python编程中，处理URL编码和解码是常见的任务，特别是在网络请求和网页抓取时。`urllib`模块提供了一系列工具，使得开发者能够方便地处理URL中的编码问题。本篇将详细介绍`urllib`模块中的`quote`和`unquote`函数...

python利用urllib实现爬取京东网站商品图片的爬虫实例: ### Python利用urllib实现爬取京东网站商品图片的爬虫实例 #### 一、概述在Web开发领域，网络爬虫技术是一项非常重要的技能。它能够帮助开发者从互联网上自动抓取所需的数据或资源。本篇文章将详细介绍如何使用...

python爬虫 urllib模块url编码处理详解: 总结来说，对于使用Python爬虫进行数据抓取时，掌握urllib模块中URL编码的处理方法是非常重要的。它不仅可以帮助我们避免在爬虫过程中出现编码错误，而且也是保证爬虫程序稳定运行的关键步骤之一。通过上述示例和...

Python爬虫（二）urllib库: 3. **urllib.parse**：用于URL的解析、编码和解码。它可以帮助我们将URL分解成组件，便于理解和操作。 ```python from urllib.parse import urlparse, parse_qs url = '...

Python抓取页面、Pthon爬虫参考资料: 1. **基础抓取**：首先，Python中的`urllib.request`库提供了基本的HTTP请求功能，如`urlopen`函数可以用来获取指定URL的响应内容。例如，`urllib.request.urlopen(url)`用于打开一个网页并返回响应对象。 2. **...

python爬虫之初入urllib（csdn）————程序.pdf: 在Python的网络编程领域，`urllib`是一个重要的库，它包含了处理URL的多个功能模块。本篇将深入探讨`urllib`库及其主要组成部分，包括`robots`协议的运用。首先，`urllib`库是Python的标准库之一，主要用于处理URL...

Python爬虫 urllib2的使用方法详解: 所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。 urllib2是Python2.x自带的模块(不需要下载，导入即可使用) urllib2官网...

Python urllib、urllib2、httplib抓取网页代码实例: 1. **urllib**: 是Python标准库中最基础的URL处理模块，它提供了打开URL的基本功能。例如，`urllib.urlopen(url)`可以直接打开一个URL并读取其内容。在上述代码中，`use_urllib2()`函数就展示了这一点。 2. **...

零基础写python爬虫之使用urllib2组件抓取网页内容: 所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。在Python中，我们...

Python3简单爬虫抓取网页图片代码实例: 现在网上有很多python2写的爬虫抓取网页图片的实例，但不适用新手（新手都使用python3环境，不兼容python2），所以我用Python3的语法写了一个简单抓取网页图片的实例，希望能够帮助到大家，并希望大家批评指正。 ...

python爬虫开发之urllib模块详细使用方法与实例全解: 在Python 2.x中，`urlparse`模块用于URL解析，而Python 3.x中，这个功能被整合到`urllib.parse`模块。例如，你可以使用`urlparse.urljoin()`来组合URL，`urlparse.urlsplit()`来分解URL，或者`urlparse.urlencode()`...

Python2.X/Python3.X中urllib库区别讲解: 总的来说，Python 3.X的urllib库提供了更强大且易用的功能，简化了对URL的处理，使得网络请求变得更加便捷。通过了解这些核心概念和用法，开发者可以更好地利用urllib库进行网页抓取、数据交互等任务。

python3 中使用urllib问题以及urllib详解: Python3中的`urllib`库是一个内置的模块，主要用于处理URL相关的任务，包括网络请求、数据编码和解码、URL解析以及处理robots.txt文件。在本文中，我们将深入探讨`urllib`的主要组件以及如何解决在使用过程中可能...

Global site tag (gtag.js) - Google Analytics