如何在ForeSpider数据采集器中设置代理IP -

qianxiu

浏览: 47114 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

如何在ForeSpider数据采集器中设置代理IP

博客分类：

教程
技术干货

数据挖掘

作者 | 前嗅来源 | 前嗅大数据（www.forenose.com）

今天为大家介绍一下：如何在ForeSpider数据采集器中设置代理IP。

前嗅ForeSpider数据采集引擎，一款通用的数据采集系统，还带有数据挖掘、清洗分类及筛选导出的功能，能够满足绝大多数客户的数据采集及数据挖掘需求。

ForeSpider爬虫软件采集速度可高达8000万条/天，支持多线程并行采集。采集限制IP的网站时，为保证采集质量及速度需要设置代理IP。

ForeSpider数据采集系统有成熟的代理IP接口，可接入市场上绝大多数的代理IP，兼容性强，操作简单，可自行设置调用IP的频率，灵活控制调用频率，有效降低成本，提高采集效率。

-01- 创建代理IP

打开ForeSpider数据采集引擎，IP代理设置，如下图所示创建代理IP。

1.名称：自定义即可，可由文字、字母、其他符号等组成；

2.类型：有静态代理和动态代理，ForeSpider采集系统中动静态与市场上不同，ForeSpider爬虫软件中代理IP动静态代理可以通过代理IP接入形式来区分静态和动态。

①动态代理：爬虫使用的代理IP是变化的，一般情况是通过代理IP服务商提供的一个API链接来获取代理IP，这种情况是动态代理。在系统中，在如下图标记位置填入API链接。

②静态代理：爬虫使用的代理IP是固定一个/多个IP地址，一般代理IP服务商会提供IP地址、端口、用户名、密码，这种情况是静态代理IP。有的代理IP服务商只有IP地址和端口，这类也是属于静态代理，遇到这种情况时用户名和密码为空即可。

3.请求频率：是指ForeSpider运行时调用每个代理IP的频率，爬虫运行时，线程数目=请求频率*代理IP数。

比如：接入了一个每秒请求10个IP的代理，设置的请求频率为5。那么爬虫运行时，每秒请求50次代理IP，这时候采集运行速度中的线程数目最佳为50。

-02- 代理IP设置

1.动态代理IP设置

在ForeSpider爬虫中，新建一个动态代理IP后，填写以下几个基本参数:

①协议类型：默认http/https，两种协议均支持；

②返回格式：是指返回IP格式，包括TXT和未知格式，选择TXT格式即可返回TXT格式，TXT格式可以不用写脚本获取IP；

③刷新周期：请求调用API的频率，单位是毫秒，根据实际购买情况来填写即可。

④请求地址：填写API链接即可。

填写完以上信息后可点击【测试】按钮进行测试，测试结果会显示在屏幕下方。测试成功后，确认勾选所用代理IP，点击保存按钮，如下图所示：

保存好之后，就可以开始进行数据采集了。

2.静态代理IP设置

在ForeSpider爬虫中，新建一个静态代理IP后，需要填写以下参数：

①IP地址：由代理IP服务商提供。

②端口：由代理IP服务商提供。

③类型：根据要采集网站类型来选择，有http和https类型；

④有效时长：可理解为到期时长，非必填。

当同时使用多个代理IP且到期时长不一致时可以根据实际情况填写，有效期到则自动停止使用该代理IP；

当有效时间在1天以内时，建议填写，防止出现代理IP到期，ForeSpider爬虫还在运行而导致采集失败的情况。

如果不填写，需要在代理IP到期之前手动关闭，否则会导致采集失败。如下图所示：

⑤用户名：由代理IP服务商提供。

⑥密码：由代理IP服务商提供。

填写完之后在需要使用的代理IP前打上对勾，打开代理IP按钮，后保存。如下图所示：

-03- 脚本设置

在ForeSpider数据采集系统中，当代理IP接入情况不属于以上描述静态/动态接入方式时，使用脚本设置代理IP。

脚本设置与动态设置类似，需要先把以下几项根据实际情况来进行设置，具体如下：

①协议类型：默认http/https，两种协议均支持；

②返回格式：选择未知格式即可，脚本可获取TXT格式。

③刷新周期：请求调用API的频率，单位是毫秒，根据实际购买情况来填写即可。

④请求地址：填写代理商提供的API链接。

⑤POST DATA：根据代理不同，post请求的情况下填写该内容。

⑥代码编辑区：需要填写一段脚本，以调用代理IP。代码如下：

ips = DOWNDATA.Split('\n');vart;for(i=0;i

将以上的代码粘贴到编辑框后，通常仅需修改最后一句脚本，括号里分别填写：IP地址+端口、用户名、密码、有效时长、http/https即可。

-04- 其他设置

ForeSpider爬虫系统中，代理IP混用策略有以下三个：

1.采集禁用本地IP

设置后采集只用代理IP，如果代理IP失效或未开启，则会采集失败。

2.代理失败使用本地IP

代理IP失效或者失败后会直接使用本地IP进行采集。

3.只使用本地IP

设置后采集时仅用本地IP。

注意事项

①在采集过程中修改代理IP，需要暂停/停止采集然后再修改。

②当请求代理IP的api地址是变化的，比如链接地址中有时间戳的情况时，ForeSpider中代理IP暂不支持接入。

③当返回内容不带密码，但要求必须提供密码时，可以使用脚本设置来接入。

④在不知道代理IP的请求数时，请求频率最好填1，也可填写1-10中任意数。

⑤请求到一批新的代理IP时，在有效期内的旧代理IP依然可以使用。

作者简介

前嗅，企业级大数据供应商，多年来致力于大数据技术研究与开发，自主研发了一套数据采集、挖掘、清洗、分析及可视化的数据处理系统，拥有上万家企业用户。热衷于为大家解决各种数据问题，服务号“前嗅”，微博“@前嗅大数据”，欢迎关注。

分享到：

前嗅教你大数据：常见的网站反爬策略与解决 ... | 前嗅ForeSpider数据采集教程：采集【中国证 ...

2020-11-24 17:21
浏览 468
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

如何在ForeSpider数据采集器中设置代理IP

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

如何在ForeSpider数据采集器中设置代理IP

评论

发表评论

相关推荐

从零学爬虫：采集房天下二手房信息

建网站/APP最全准备攻略

前嗅教你大数据：常见几种编码介绍

前嗅教你大数据：常见的网站反爬策略与解决方案

前嗅教你大数据——史上最全代理IP服务商对比

钱嗅教你大数据——什么是代理IP？

看完之后，不要再说不懂代理IP了！

前嗅ForeSpider采集教程：通过关键词的【检索列表】采集【检索结果】

前嗅大数据—ForeSpider教你如何采集【列表数据】

前嗅forespider教程：关键词采集【检索结果】

ForeSpider采集教程：如何采集网页中附件数据

ForeSpider采集教程：如何采集图片及链接地址

ForeSpider采集教程发布（论坛类）：零基础轻松获取数据

ForeSpider采集教程发布（表格类）：零基础轻松获取数据

爬虫软件真的可以获取隐私数据？真相只有一个

大数据告诉你，五一出行，性价比最高的酒店是它

【技术干货】老程序员亲绘漫画：1分钟读懂Session会话机制

前嗅教程：如何获取精准客源，提高销量

字段在源码的html标签里

小心手里的“饼干” 它会泄露你的隐私

最近访客更多访客>>