`
lovnet
  • 浏览: 6865836 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
文章分类
社区版块
存档分类
最新评论

10条防采集建议

 
阅读更多

笔者自己是写采集器的,所以对网站防采集有一些心得体会。因为是在上班时间,各种方法只是简单的提及。

很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。
相同点:a. 两者都需要直接抓取到网页源码才能有效工作,b. 两者单位时间内会多次大量抓取被访问的网站内容;c. 宏观上来讲两者IP都会变动;d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等。

不同点:搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然后对剩下的文字部分进行切词语法句法分析等一系列的复杂处理。而采集器一般是通过html标签特点来抓取需要的数据,在制作采集规则时需要填写目标内容的开始标志何结束标志,这样就定位了所需要的内容;或者采用对特定网页制作特定的正则表达式,来筛选出需要的内容。无论是利用开始结束标志还是正则表达式,都会涉及到html标签(网页结构分析)。

然后再来提出一些防采集方法
1、限制IP地址单位时间的访问次数
分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。
弊端:一刀切,这同样会阻止搜索引擎对网站的收录
适用网站:不太依靠搜索引擎的网站
采集器会怎么做:减少单位时间的访问次数,减低采集效率

2、屏蔽ip
分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可疑Ip。
弊端:似乎没什么弊端,就是站长忙了点
适用网站:所有网站,且站长能够知道哪些是google或者百度的机器人
采集器会怎么做:打游击战呗!利用ip代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。

3、利用js加密网页内容
Note:这个方法我没接触过,只是从别处看来
分析:不用分析了,搜索引擎爬虫和采集器通杀
适用网站:极度讨厌搜索引擎和采集器的网站
采集器会这么做:你那么牛,都豁出去了,他就不来采你了

4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中
分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。
适用网站:所有网站
采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。

5、用户登录才能访问网站内容
分析:搜索引擎爬虫不会对每个这样类型的网站设计登录程序。听说采集器可以针对某个网站设计模拟用户登录提交表单行为。
适用网站:极度讨厌搜索引擎,且想阻止大部分采集器的网站
采集器会怎么做:制作拟用户登录提交表单行为的模块

6、利用脚本语言做分页(隐藏分页)
分析:还是那句,搜索引擎爬虫不会针对各种网站的隐藏分页进行分析,这影响搜索引擎对其收录。但是,采集者在编写采集规则时,要分析目标网页代码,懂点脚本知识的人,就会知道分页的真实链接地址。
适用网站:对搜索引擎依赖度不高的网站,还有,采集你的人不懂脚本知识
采集器会怎么做:应该说采集者会怎么做,他反正都要分析你的网页代码,顺便分析你的分页脚本,花不了多少额外时间。

7、防盗链措施(只允许通过本站页面连接查看,如:Request.ServerVariables(“HTTP_REFERER“) )
分析:ASP/' target='_blank' class='infotextkey'>asp和php可以通过读取请求的HTTP_REFERER属性,来判断该请求是否来自本网站,从而来限制采集器,同样也限制了搜索引擎爬虫,严重影响搜索引擎对网站部分防盗链内容的收录。
适用网站:不太考虑搜索引擎收录的网站
采集器会怎么做:伪装HTTP_REFERER嘛,不难。

8、全flash、图片或者pdf来呈现网站内容
分析:对搜索引擎爬虫和采集器支持性不好,这个很多懂点seo的人都知道
适用网站:媒体设计类并且不在意搜索引擎收录的网站
采集器会怎么做:不采了,走人

9、网站随机采用不同模版
分析:因为采集器是根据网页结构来定位所需要的内容,一旦先后两次模版更换,采集规则就失效,不错。而且这样对搜索引擎爬虫没影响。
适用网站:动态网站,并且不考虑用户体验。
采集器会怎么做:一个网站模版不可能多于10个吧,每个模版弄一个规则就行了,不同模版采用不同采集规则。如果多于10个模版了,既然目标网站都那么费劲的更换模版,成全他,撤。

10、采用动态不规则的html标签
分析:这个比较变态。考虑到html标签内含空格和不含空格效果是一样的,所以< div >和< div >对于页面显示效果一样,但是作为采集器的标记就是两个不同标记了。如果每次页面的html标签内空格数随机,那么
采集规则就失效了。但是,这对搜索引擎爬虫没多大影响。
适合网站:所有动态且不想遵守网页设计规范的网站。
采集器会怎么做:还是有对策的,现在html cleaner还是很多的,先清理了html标签,然后再写采集规则;应该用采集规则前先清理html标签,还是能够拿到所需数据。


总结:
一旦要同时搜索引擎爬虫和采集器,这是很让人无奈的事情,因为搜索引擎第一步就是采集目标网页内容,这跟采集器原理一样,所以很多防止采集的方法同时也阻碍了搜索引擎对网站的收录,无奈,是吧?以上10条建议虽然不能百分之百防采集,但是几种方法一起适用已经拒绝了一大部分采集器了。

分享到:
评论

相关推荐

    十点防采集黄金建议

    以下是对标题和描述中提到的“十点防采集黄金建议”的详细解读: 1. **限制IP地址单位时间的访问次数**: 这种方法基于正常用户不会频繁访问同一页面的假设。限制过于频繁的访问可以有效阻止采集器,但可能会影响...

    肌电信号前端采集电路及波形图和注意事项

    理想情况下,当未接入采集导线时,输出信号应为一条稳定的2.5V左右的直流电。而在实际采集过程中,当肌肉收缩时,输出波形会发生明显变化,且变化幅度与肌肉收缩程度成正比。 ##### 2.2 信号采集环境 考虑到肌电...

    域名C采集神器

    域名C采集神器是一款专用于收集和整理网络资源的工具,主要针对DDoS(Distributed Denial of Service,分布式拒绝服务)攻击所需的IP地址或网址。DDoS攻击是通过大量请求淹没目标服务器,使其无法正常服务的一种网络...

    IIS信息采集器

    10. **自动化监控**:可能支持定时任务,定期自动执行信息采集,及时发现任何变动。 使用IIS信息采集器时,需注意遵守相关法律法规和道德准则,避免非法入侵或侵犯他人隐私。同时,确保在拥有权限的环境中使用,...

    恒亿1708HS采集卡驱动

    恒亿1708HS采集卡驱动是一款专为恒亿公司生产的1708HS型号采集卡设计的驱动程序,其主要目的是确保该硬件设备在计算机系统中能够正常识别和运行,发挥其应有的功能。采集卡是计算机硬件系统中用于捕获、处理和输出...

    采集器 育儿健康采集器

    4. **数据分析**:对于收集的大量数据,采集器可能包含数据分析功能,如统计儿童各阶段的平均体重、身高,对比儿童发育状况,提供个性化建议。 5. **个性化推荐**:根据用户的特定需求(如孩子的年龄、性别、健康...

    圆钢 视频采集卡驱动 通用版本

    在安装前,建议先备份原有驱动,以防万一出现问题可以及时恢复。 安装步骤如下: 1. 下载驱动:确保从官方网站或可信的下载源获取驱动程序,以防止安装带有恶意软件的假冒驱动。 2. 关闭防护软件:为了确保安装...

    bujusheji.rar_NC_fanuc c_fanuc 报警采集_focas_nc数据采集

    【标题】"FANUC CNC数据采集与报警监控——基于FOCAS NC数据采集技术" 【内容】: 在工业自动化领域,FANUC是全球领先的数控系统(CNC)制造商,其产品广泛应用于各类机床和机器人系统。FANUC数控系统的报警采集与...

    图片漫画采集v2.5.3.zip

    需要注意的是,从未知来源下载并运行exe文件可能存在安全风险,因此建议在安装前确保来源可靠,并且拥有良好的防病毒软件保护。 总的来说,《图片漫画采集v2.5.3.zip》是一款结合了网络爬虫技术的图片批量采集工具...

    视频采集卡万能驱动

    6. **备份原有驱动**:在更新驱动前,建议备份原有的驱动程序,以防新驱动出现问题,可以快速恢复到原来的版本。 7. **安装过程**:通常,驱动安装过程包括解压文件、运行安装程序、按照提示操作、重启计算机等步骤...

    雨哲防采集策略之列表篇

    ### 雨哲防采集策略之列表篇 随着互联网的发展,网站内容的原创性和独特性变得尤为重要。然而,网络上存在大量的数据爬虫和采集工具,它们会非法抓取其他网站的内容并发布到自己的平台上,这不仅侵犯了原作者的版权...

    巴枪/数据采集器CASIO DT900/930/940中文操作说明书

    卡西欧DT900/930/940系列巴枪/数据采集器是专门用于数据收集和管理的专业设备,广泛应用于仓储管理、物流配送、库存盘点等多个领域。这些设备能够快速准确地扫描条码信息,并通过特定的软件界面实现数据的上传、下载...

    非常好的网站生成静态页面防采集策略与方法

    ### 非常好的网站生成静态页面防采集策略与方法 #### 一、引言 在互联网时代,网站内容的安全性越来越受到重视。对于许多原创网站而言,如何防止其他站点非法采集自己的内容成为了一个亟待解决的问题。一方面,...

    亚为USB ADIO迷你采集卡技术手册

    - 使用时应避免使用NI的硬件管理工具或VISA提供的USB驱动工具,建议使用亚为提供的DLL。 - 严格按照手册操作,确保采集卡的正常使用。 - 关注官方网站或指定链接下载最新的手册和技术文档。 **故障排除**: - 提供...

    品牌CONEXANT FUSISO 8787 25878-13芯片组采集卡

    ### 品牌CONEXANT FUSISO 8787 25878-13芯片组采集卡 #### 一、产品概述 **CONEXANT FUSISO 8787 25878-13芯片组采集卡**是一款专门用于视频监控系统的硬件设备,它被广泛应用于各类视频监控场景之中。该采集卡...

    OA系统及价格采集系统方案建议书.docx

    ### OA系统及价格采集系统方案建议书知识点梳理 #### 一、项目背景及目标 - **项目背景**:为了提高中心的信息化管理水平和服务质量,某网络公司被邀请参与中心的OA系统及数据统计信息系统项目的建设。 - **项目...

    宏视700系列采集卡驱动

    2. **备份原有数据**:在进行任何系统级别的更改前,建议备份重要数据,以防意外情况发生。 3. **关闭防火墙和杀毒软件**:安装过程中,暂时关闭防火墙和杀毒软件,以避免它们干扰驱动程序的安装。 4. **按照提示...

Global site tag (gtag.js) - Google Analytics