爬虫访问中,如何解决网站限制IP的问题? 开发了一个爬虫,布置在自己的服务器上,请求某网站的查询功能,然后抓取查询结果,结果访问才一会儿,就被提示封IP了。有什么好的解决方法吗? 感谢各位的回答,都挺好的! 添加评论 分享 按票数排序 按时间排序 10 个回答 赞同 8 反对,不会显示你的姓名 江振兴,4年java 2年python 陈爽、闫响、王方 等人赞同 之前由于公司项目需要,采集过google地图数据,还有一些大型网站数据。 经验如下: 1.IP必须需要,像@alswl 说的非常正确,ADSL。如果有条件,其实可以跟机房多申请外网IP。 2.在有外网IP的机器上,部署代理服务器。 3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。 好处: 1.程序逻辑变化小,只需要代理功能。 2.根据对方网站屏蔽规则不同,你只需要添加更多的代理就行了。 3.就算具体IP被屏蔽了,你可以直接把代理服务器下线就OK,程序逻辑不需要变化。 发布于 2012-08-01 添加评论 赞同 3 反对,不会显示你的姓名 alswl,码农热爱互联网 闫响、王方、an7 赞同 •ADSL + 脚本,监测是否被封,然后不断切换 ip •设置查询频率限制 正统的做法是调用该网站提供的服务接口。 发布于 2012-08-01 2 条评论 赞同 4 反对,不会显示你的姓名 Zero,SEO前线论坛 http://www.seoqx.com 张叶华、闫响、知乎用户 等人赞同 有小部分网站的防范措施比较弱,可以伪装下IP,修改X-Forwarded-for(貌似这么拼。。。)即可绕过。 大部分网站么,如果要频繁抓取,一般还是要多IP。我比较喜欢的解决方案是国外VPS再配多IP,通过默认网关切换来实现IP切换,比HTTP代理高效得多,估计也比多数情况下的ADSL切换更高效。 国外IP均价是$1/IP/Month,像Burst等卖得便宜些,0.3刀左右。 最后,最简单最根本也最厚道的防封禁方法是,把抓取频率降低些。。。 发布于 2012-08-02 2 条评论 赞同 3 反对,不会显示你的姓名 专业爬虫wulf 知乎用户、Ganko Tech、闫响 赞同 8年多爬虫经验的人告诉你,国内ADSL是王道,多申请些线路,分布在多个不同的电信区局,能跨省跨市更好,自己写好断线重拨组件,自己写动态IP追踪服务,远程硬件重置(主要针对ADSL猫,防止其宕机),其余的任务分配,数据回收,都不是大问题。我的已经稳定运行了好几年了,妥妥的! 发布于 2013-06-18 3 条评论 赞同 1 反对,不会显示你的姓名 Jacob,真有必要写那么长吗又不是小学生作文 闫响 赞同 1 user agent 伪装和轮换 2 使用代理 ip 和轮换 3 cookies 的处理,有的网站对登陆用户政策宽松些 友情提示:考虑爬虫给人家网站带来的负担,be a responsible crawler :) 发布于 2012-08-01 添加评论 赞同 1 反对,不会显示你的姓名 知乎用户,爱编程的设计师 闫响 赞同 尽可能的模拟用户行为: 1、UserAgent经常换一换; 2、访问时间间隔设长一点,访问时间设置为随机数; 3、访问页面的顺序也可以随机着来 发布于 2013-05-29 添加评论 赞同 0 反对,不会显示你的姓名 晓曦,软件,搜索技术 , 数据采集 , 挖掘, 网站封的依据一般是单位时间内特定IP的访问次数. 我是将采集的任务按 目标站点的IP进行分组 通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了. 发布于 2012-08-01 添加评论 赞同 0 反对,不会显示你的姓名 Dan Peng 1. 对爬虫抓取进行压力控制; 2. 可以考虑使用代理的方式访问目标站点。 发布于 2013-05-29 添加评论 赞同 0 反对,不会显示你的姓名 程会勇,Not power-based technology developers 总结下: -降低抓取频率,时间设置长一些,访问时间采用随机数 -频繁切换UserAgent(模拟浏览器访问) -多页面数据,随机访问然后抓取数据 -更换用户IP -网站提供API,减少风险 -多线程 发布于 2014-04-21 添加评论
动态切换IP的实现主是也由Windows的rasdial命令提供的,其实不是java的功劳,java只是调用一下bat脚本而已:
rasdial命令:
拨号
- 语法: rasdial 连接名称 username password
- 实例: rasdial 我的宽带 hzhz1234567890 dfdfdfdfdf
断网
- 语法:rasdial 连接名称 /disconnect
- 实例: rasdial 宽带 /disconnect
java程序调用rasdial命令:
- package com.sesame.network;
- import java.io.BufferedReader;
- import java.io.InputStreamReader;
- public class ConnectNetWork {
- /**
- * 执行CMD命令,并返回String字符串
- */
- public static String executeCmd(String strCmd) throws Exception {
- Process p = Runtime.getRuntime().exec("cmd /c " + strCmd);
- StringBuilder sbCmd = new StringBuilder();
- BufferedReader br = new BufferedReader(new InputStreamReader(p
- .getInputStream()));
- String line;
- while ((line = br.readLine()) != null) {
- sbCmd.append(line + "\n");
- }
- return sbCmd.toString();
- }
- /**
- * 连接ADSL
- */
- public static boolean connAdsl(String adslTitle, String adslName, String adslPass) throws Exception {
- System.out.println("正在建立连接.");
- String adslCmd = "rasdial " + adslTitle + " " + adslName + " "
- + adslPass;
- String tempCmd = executeCmd(adslCmd);
- // 判断是否连接成功
- if (tempCmd.indexOf("已连接") > 0) {
- System.out.println("已成功建立连接.");
- return true;
- } else {
- System.err.println(tempCmd);
- System.err.println("建立连接失败");
- return false;
- }
- }
- /**
- * 断开ADSL
- */
- public static boolean cutAdsl(String adslTitle) throws Exception {
- String cutAdsl = "rasdial " + adslTitle + " /disconnect";
- String result = executeCmd(cutAdsl);
- if (result.indexOf("没有连接")!=-1){
- System.err.println(adslTitle + "连接不存在!");
- return false;
- } else {
- System.out.println("连接已断开");
- return true;
- }
- }
- public static void main(String[] args) throws Exception {
- connAdsl("宽带","hzhz**********","******");
- Thread.sleep(1000);
- cutAdsl("宽带");
- Thread.sleep(1000);
- //再连,分配一个新的IP
- connAdsl("宽带","hzhz**********","******");
- }
- }
相关推荐
易语言ADSL拨号API是针对ADSL(Asymmetric Digital Subscriber Line)拨号连接的一种编程接口,主要用于在易语言环境中实现ADSL的自动拨号、断线和连接状态管理等功能。这一API通常由一系列函数组成,允许开发者通过...
Java是一种广泛使用的编程语言,它不仅用于开发复杂的服务器应用程序,还可以用于编写脚本,实现自动化任务,例如在Windows操作系统中进行ADSL拨号。ADSL(Asymmetric Digital Subscriber Line)是一种宽带接入技术...
ADSL拨号小精灵简化了这一过程,让用户无需手动操作即可实现IP的自动切换。 描述中提到的“最好用的自动更换IP软件,不用安装,超级简单”,意味着这款软件不仅功能强大,而且易于使用。用户无需经过复杂的安装步骤...
### ADSL拨号上网配置详解 ...通过上述步骤,不仅能够实现单机拨号上网,还能通过ADSL Modem和路由器轻松实现多用户共享上网,大大提高了网络资源的利用率。这种配置方法简单易行,适合家庭及小型办公环境使用。
5. **错误处理和日志记录**:在实现拨号功能时,错误处理是必不可少的。易语言提供了异常处理机制,确保程序在遇到问题时能正常运行。同时,日志记录有助于调试和排查问题。 6. **多线程应用**:为了保证用户体验,...
综合以上信息,我们可以推测这是一个用于ADSL宽带连接的拨号软件,其特色在于能帮助用户频繁更换IP地址,尤其适用于需要大量IP资源的活动,如网络投票。软件的操作界面和具体功能细节未知,但通常这类软件会包括连接...
【标签】包括"ADSL切换IP"、"ADSL拨号器"、"自动拨号器"、"自动换IP"以及"免费ADSL拨号器",这些标签清晰地定义了软件的主要功能。"ADSL切换IP"和"ADSL拨号器"表明这款软件可以处理ADSL网络环境下的IP地址更换;...
这是因为ADSL是一种动态IP分配方式,每次断开再连接时,ISP会分配新的IP。 2. 换IP需求:用户可能需要频繁更换IP,比如网络营销中避免被目标网站识别和限制,或者进行网络测试,模拟不同地区的访问情况。 3. 工具...
【圣者ADSL换IP拨号器】是一款专为网络用户设计的软件工具,主要用于自动进行ADSL拨号,以实现IP地址的快速切换。在互联网世界中,IP地址是每个设备独一无二的标识,而ADSL(Asymmetric Digital Subscriber Line)是...
标题中的“ADSL拨号上网加速补丁”指的是针对ADSL(Asymmetric Digital Subscriber Line)宽带连接的一种优化工具。ADSL是一种广泛应用于家庭和小型企业的宽带接入技术,它利用现有的电话线基础设施提供高速数据传输...
使用这些接口,开发者可以编写出控制ADSL Modem进行拨号上网的程序。 精易模块是易语言的一个扩展库,它提供了大量的底层函数和组件,增强了易语言的功能,特别是在系统操作、网络通信、文件处理等方面。在这个ADSL...
在Linux系统中,使用USB ADSL拨号上网是一种常见的连接方式,尤其对于那些没有内置调制解调器或者想要在不同地点便捷上网的用户来说。本文将深入探讨如何在Linux环境下配置USB ADSL拨号上网,包括所需的技术背景、...
在本文中,我们将深入探讨如何在Windows Server 2003 (Win2003) 操作系统中利用网络地址转换(NAT)技术来实现家庭用户基于ADSL(Asymmetric Digital Subscriber Line)拨号上网的教程。首先,我们需要了解NAT的基本...
5. **VB实现自动拨号**:在VB中,可以使用Winsock控件或者API函数(如RASDial)来实现拨号功能。通常需要设置拨号参数(如ISP名称、用户名、密码),然后调用相应的函数进行连接。当网络断开时,可以通过定时检查...
3. **ADSL拨号**:ADSL(Asymmetric Digital Subscriber Line)是非对称数字用户线技术,是宽带上网的一种方式。ADSL拨号是指通过ADSL调制解调器连接到Internet服务提供商(ISP)的过程,用户需要输入用户名和密码进行...
通过学习这个项目的源代码,开发者可以学习如何在Delphi中进行网络编程,如何使用RAS API进行ADSL连接管理,如何设计用户界面以实现自动拨号和IP地址切换,以及如何记录和显示日志信息。对于初学者,这是一个了解...
- 连接管理:实现拨号、断线的逻辑,可能包括处理用户输入、检查网络状态、调用API函数等。 - 错误处理:当API调用失败时,捕获错误并给出相应提示。 - 日志记录:记录拨号过程中的关键信息,便于分析问题和优化程序...
一旦连接到互联网,ADSL拨号助手v1.2会实时展示用户的外网IP地址,这通常是由ISP(Internet Service Provider,互联网服务提供商)分配的,用于标识用户在互联网上的唯一位置。此外,它还会显示当前的拨号名称,这...
在Java编程环境下,实现ADSL自动拨号和网页刷新功能是一项实用的技术,尤其对于网络自动化测试或者远程管理网络设备时非常有用。本篇将详细解析这个“adsl-java.rar”项目中的核心知识点。 首先,我们要了解Dial....
在标题中提到的“易语言多线程adsl宽带拨号源码”是一个使用易语言编写的程序,该程序实现了多线程环境下ADSL(Asymmetric Digital Subscriber Line)宽带的拨号功能。在多线程编程中,每个线程可以独立执行不同的...