python网络爬虫（一，抓取网页的含义和URL基本构成） -

xiaojingjing

浏览: 247969 次
性别:
来自: 上海

最近访客更多访客>>

Demo_

Shum1n

NOthingAj

zlf3865072

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

python网络爬虫（一，抓取网页的含义和URL基本构成）

博客分类：

Python
Python爬虫

网络爬虫 URL URI

1，网络爬虫的定义

网络爬虫（Web Spider），把互联网比作一张蜘蛛网，Spider就是在这张蜘蛛网上面爬来爬去的蜘蛛。Spider从网站的某一个页面开始读取网页内容，找到这个网页的链接地址，然后通过这个链接地址找下一个网页内容，这样一直循环直到将整个网站的所有网页抓取完为止。

2，浏览网页的过程

浏览器中输入“www.baidu.com”后，向服务器发送了一次请求，把服务端的文件抓取过来，浏览器再进行解析、展现出来给我们看。HTML是一种标记语言，用标签标记内容并加以解析和区分。

3，URI的理解

我们通常看到的是类似“www.baidu.com”这样的是URL，这样在浏览器里面输入的字符串。

那么URI是什么呢？Web上每种资源，如html文档、图像、视频、程序等都是一个通用资源标识符（Universal Resource Identifier，简称URI）进行定位。

URI分为三个部分组成：

①，访问资源的命名机制

②，存放资源的主机名

③，资源自身的名称，由路径表示。

比如：http://xiaojingjing.iteye.com/admin/blogs/new ，这个就是URI。我们可以这样解释：

①，这是通过http协议访问的资源

②，位于主机xiaojingjing.iteye.com上

③，通过路径“/admin/blogs/new”来访问

4,URL的理解

URL是URI的一个子集，它是Uniform Resource Locator的缩写，意思是“统一资源定位符”。

可以说URL是Internet上描述信息资源的字符串，采用URL可以用统一的格式来描述各种信息资源，包括文件、服务器地址和目录等，主要用在www客户端和服务器程序上。

URL分为三个部分组成：

①请求协议（或称为服务方式）

②存放该资源主机的IP地址，有时候也包括端口号。

③主机资源的具体位置，如目录和文件名等。

爬虫最重要的处理对象是URL，它根据URL地址取得所需要的文件内容，然后对它进一步处理。因此，准确的理解URL对理解网络爬虫至关重要。

分享到：

jemter基本使用（一） | 用python做http接口自动化测试框架

2015-11-18 10:22
浏览 1333
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python网络爬虫（一，抓取网页的含义和URL基本构成）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

python网络爬虫（一，抓取网页的含义和URL基本构成）

评论

发表评论

相关推荐

python更新yaml文件保留注释内容和换行缩进办法

python等份切割数组

python3使用request来post文件请求

python命名规范（转载）

计算指定时间前后固定时长结果，天，小时，分钟

python3下的RSA加解密

python求数组交集、并集、差集

100多行python代码实现贪吃蛇游戏

python对token的有效期校验简单例子

python检查list是否有重复的数据

python轻量级定时任务

flask_restful API 模块化示例

test

webdriver自动化测试_键盘事件 python

python的logging模块简单应用

python3使用蓝本Blueprint

Python实现excel测试用例转xml导入到TestLink

appium+Python环境准备

Python3调用阿里短信api发送短信

selenium+python更改Firefox浏览器路径

最近访客更多访客>>