通过爬虫代理IP快速增加博客阅读量——亲测有效

全部 Ruby Python PHP Flash C++ .net Rails Flex C C# Django

浏览 669 次

锁定老帖子主题：通过爬虫代理IP快速增加博客阅读量——亲测有效精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
小taomi_77 等级: 性别: 文章: 51 积分: 660 来自: 成都	发表时间：2019-11-13 相关推荐: 通过爬虫代理IP快速增加博客阅读量——亲测CSDN有效！ python访问网页增加阅读量_通过Python爬虫代理IP快速增加博客阅读量【日常】利用代理IP伪装进行多进程爬虫爬虫技术——一篇全搞定！获取代理ip池更多相关推荐 Python 首先题目所说的并不是目的，本文主要是为了更详细的了解网站的反爬机制。而真的想要更高的阅读量还是需要有真正优质的才可以达到的。 1. 通过Headers反爬虫从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测，还有一部分网站会对Referer进行检测（一些资源网站的防盗链就是检测Referer）。如果遇到了这类反爬虫机制，可以直接在爬虫中添加Headers，将浏览器的User-Agent复制到爬虫的Headers中；或者将Referer值修改为目标网站域名。对于检测Headers的反爬虫，在爬虫中修改或者添加Headers就能很好的绕过。 2. 基于用户行为反爬虫还有一部分网站是通过检测用户行为，例如同一IP短时间内多次访问同一页面，或者同一账户短时间内多次进行相同操作。大多数网站都是前一种情况，对于这种情况，使用IP代理就可以解决。我们可以将代理IP检测之后保存在文件当中,但这种方法并不可取，代理IP失效的可能性很高，因此从专门的提供代理ip的商家购买代理是个比较好的方法。对于第二种情况，可以在每次请求后随机间隔几秒再进行下一次请求。有些有逻辑漏洞的网站，可以通过请求几次，退出登录，重新登录，继续请求来绕过同一账号短时间内不能多次进行相同请求的限制。还有针对cookies，通过检查cookies来判断用户是否是有效用户，需要登录的网站常采用这种技术。更深入一点的还有，某些网站的登录会动态更新验证， 4. 限定某些IP访问的代理IP可以从很多网站获取到，既然爬虫可以利用这些代理IP进行网站抓取，网站也可以利用这些代理IP反向限制，通过抓取这些IP保存在服务器上来限制利用代理IP进行抓取的爬虫。好了，现在实际操作一下，编写一个通过代理IP访问网站的爬虫。首先获取代理IP，用来抓取。 def Get_proxy_ip(): headers = { 'Host': 'www.16yun.cn.',#亿牛云优质代理# 'User-Agent':'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)', 'Accept': r'application/json, text/javascript, /; q=0.01', 'Referer': r'http://www.xicidaili.com/', } req = request.Request(r'http://www.16yun.cn/nn/', headers=headers) #亿牛云优质代理= response = request.urlopen(req) html = response.read().decode('utf-8') proxy_list = [] ip_list = re.findall(r'\d+\.\d+\.\d+\.\d+',html) port_list = re.findall(r'<td>\d+</td>',html) for i in range(len(ip_list)): ip = ip_list[i] port = re.sub(r'<td>\|</td>', '', port_list[i]) proxy = '%s:%s' %(ip,port) proxy_list.append(proxy) return proxy_list 经过测试，访问的成功率还是很高的，提高访问成功率的关键点在于选择优质代理。以上只是浅显的分享。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → 编程语言技术版

跳转论坛: