作者 | 前嗅
来源| 前嗅大数据(www.forenose.com)
大家在采集数据的过程中经常会遇到网站反爬的情况,不同网站反爬策略也不尽相同。
今天,前嗅为大家总结了我们平时经常碰到的几种反爬策略,以及解决方法。
网站反爬,原理是服务器通过访问者请求中夹带的一些访问者的信息,来识别访问者,并对访问者进行限制。
比如服务器通过请求识别到访问者IP,对同一个IP访问频率做出了限制,那么当同一个IP访问频率超过限制时,访问就会出现问题。
前嗅ForeSpider数据采集引擎根据网站常见的几种反爬策略,研发了对应解决的设置,用户在使用过程中可以针对不同反爬,进行对应的设置,常见的反爬策略及解决方案有以下几种:
-01- 限制用户IP访问频率
通常表现为:
当使用本地IP采集速度高于某频率时,就会出现采集错误,页面重定向等情况。
当访问者IP信息存储在cookie中时,会增加爬虫难度。
解决方案:
1.cookie中没有记录IP时
需要使用动态短效代理IP/隧道代理IP,根据网站限制IP强度,调整采集速度,购买适量代理IP,在ForeSpider爬虫IP代理处设置即可。
2.cookie中记录IP时
需要使用静态长效代理IP,根据网站限制IP强度,调整采集速度,购买适量代理IP,在ForeSpider数据采集系统IP代理处设置即可。
-02- 限制用户ID访问频率
通常表现为:
采集一段时间后,停止采集/采集错误,浏览器中该页面显示不出来(页面重定向、有验证码、错误页面等情况),清空浏览器浏览记录后,再次打开又可以正常显示。
遇到这种情况时,可以通过观察页面的cookie来确认服务器是否限制用户ID。
当访问页面的cookie中有UID或其他ID字符串时,表示服务器对用户ID有识别。还有一种对UID加密的情况,这时cookie中有一串加密后的字符串。
解决方案:
使用ForeSpider采集器高级设置中的多通道采集功能,并设置最大登录用户数,设置代理IP(使用静态长效代理IP),通过模拟多用户浏览网站,来解决网站对ID的限制。
-03- IP&ID双重限定
通常表现为:
采集一段时间后,停止采集/采集错误,浏览器中该页面显示不出来(页面重定向、有验证码、错误页面等情况),清空浏览器浏览记录后,再次打开又可以正常显示。
爬虫设置为多通道采集后采集一段时间发现IP被封了。也可通过观察页面cookie中是否既有IP又有UID/UID加密的信息,来进行判断。
解决方案:
使用ForeSpider数据采集系统高级设置中的多通道采集功能,同时打开动态IP锁定,设置好代理IP(使用静态长效代理IP),并设置最大登录用户数,来解决网站对账号的限制。如下图所示:
-04- 限制用户账号访问频率
通常表现为:
网站需要登录,登录后采集账号被封。这种情况一般是由于服务器识别用户账号,并限制用户账号访问频率导致的。
解决方案:
注册多个账号,供封号后替换使用。
-05- 用户账号&用户IP双重限制
通常表现为:
网站需要登录,登录后采集账号被封,IP也被封。使用多通道或者用代理IP采集均无效果。这种情况是由于服务器对用户账号和访问IP双重限制导致的。
解决方案:
注册多个账号,供封号后替换使用;降低采集速度,使用静态长效代理IP进行采集。
作者简介
前嗅,企业级大数据供应商,多年来致力于大数据技术研究与开发,自主研发了一套数据采集、挖掘、清洗、分析及可视化的数据处理系统,拥有上万家企业用户。热衷于为大家解决各种数据问题,服务号“前嗅”,微博“@前嗅大数据”,欢迎关注。
相关推荐
"大数据:技术与应用实践指南" 大数据是当前最为热门的信息技术应用领域,本书《大数据:技术与应用实践指南(第2版)》是电子工业出版社于2016年3月出版的图书,作者赵刚。本书从浅入深,概述了大数据的发展背景、...
智慧工厂大数据解决方案是智能制造的核心,它将大数据技术与物联网、云计算、人工智能等先进技术相结合,打造一个高度灵活、自我优化、环境友好的新型工厂。通过这些解决方案,企业可以实现生产过程的精细化管理,...
大数据湖体系规划与建设方案是当前大数据领域最重要的解决方案之一,该方案旨在解决企业面临的大数据发展背景和建设理念的挑战。该方案涵盖了大数据湖的发展背景、建设理念、大数据湖体系规划与建设思路、数据架构与...
大数据治理平台是现代企业信息化建设的关键组成部分,它旨在管理和优化海量数据,确保数据的质量、安全性和可用性。在这个数字化时代,大数据已经成为企业竞争优势的重要来源,因此,构建高效的大数据治理平台至关...
智慧农业产业园大数据平台建设和运营整体解决方案 智慧农业产业园大数据平台建设和运营整体解决方案是指通过整合信息技术和农业生产,创建一个智能化、自动化的农业生产模式,以提高农业生产效率、降低生产成本、...
### Oracle:企业大数据解决方案 #### 执行摘要 随着信息技术的发展,大数据已经成为当今企业不可或缺的一部分。在这一背景下,Oracle推出了其企业级大数据解决方案,旨在帮助企业更好地处理、分析非传统且结构...
Oracle 大数据解决方案和案例介绍 Oracle 大数据解决方案是指利用 Oracle 的技术和产品来处理和分析大数据,以提高企业的洞察力和决策力。大数据是指大量的、高速增长的、多样性的信息资产,它需要以高效、创新的...
《深入理解大数据:大数据处理与编程实践》是一本全面探讨大数据技术、原理及其实战应用的书籍。在当今数字化时代,大数据已经成为了企业决策、科学研究、社会管理等领域的关键驱动力。这本书旨在帮助读者深入理解...
智慧水厂大数据可视化云平台整体解决方案 水务公司大数据可视化云平台整体解决方案
基于大数据的网络安全态势感知解决方案 一、网络安全态势感知解决方案的必要性 当前网络安全形势下,传统的老三样边界防护根本无法应对今天的安全问题。安全能力从“防范”为主转向“融合各种信息快速检测和响应...
大数据平台建设技术解决方案 大数据平台建设技术解决方案是指在企业或组织中,为了满足业务需求而建设的大数据处理和分析平台。该平台的建设需要涵盖多个方面的技术,包括数据采集、数据存储、数据处理和分析、数据...
大数据:推动中国智慧家庭进入全新生态时代.docx
智慧解决方案实例合集:大数据+行业解决方案(75份)包含如下文档: 智慧大数据解决方案 大数据助力码头设施运维数字化 2015-大数据与智慧医疗系统的数据备份、容灾技术及实践经验 BDS大数据安全态势感知解决方案-...
留学大数据:《中国留学发展报告()》.docx
### 大数据时代存储解决方案 #### 一、大数据带来的技术变革 随着信息技术的快速发展,大数据已成为推动各行各业发展的关键因素之一。大数据不仅改变了我们处理信息的方式,也催生了一系列新的技术和解决方案。...
1. 安全大数据:收集并整合各类安全设备的日志和网络流信息,通过规则判断和分析建模,识别潜在的安全威胁。 2. 应用大数据:快速响应系统负责人的查询需求,提供准确的上下文信息,优化业务流程。 3. 监控大数据:...
智慧化工园区大数据云平台建设和运营整体解决方案 智慧化工园区大数据云平台建设和运营整体解决方案是指通过集约化、物联网接入、GIS 地图集成、大数据可视化分析等技术手段,构建一个统一、高效、智能的信息化管理...
旅游大数据解决方案-旅游大数据解决方案-旅游大数据解决方案
大数据管理与监控:Ambari:大数据安全与Ambari策略配置.docx