`
yajie
  • 浏览: 210717 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

应对网络爬虫的解决方法

阅读更多

不遵守robots.txt里协议的爬虫确实有点过分,每秒并发量太大,对服务器是一种致命的消耗。

我测试过tomcat6.018这个版本的应用服务器,每秒一万并发的时候就Heap out of Memory了,不是我我的机器不行吧?嘻嘻,如果用来攻击那些小型的网站,真合适不过。不过没那心情,也没那意思。

说了这么多废话,怎么解决呢?很简单,首页做成flash格式的。

爬虫通过网页源码来解析,好像爬虫不会解析flash吧?嘿嘿

第二种方式,首页用JavaScript载入网页。如果爬虫能执行JavaScript,就没办法了吗?

尼尼,呵呵。

还有其他解决方案,暂时保密。O(∩_∩)O哈哈哈~

0
2
分享到:
评论
4 楼 execoo 2011-10-11  
首页做成flash,别逗了~如果是个企业的网站,可能还有点谱~要是信息门户。。咳。。
3 楼 yajie 2009-07-21  
night_stalker 写道
google 有解析 flash 的算法,爬----墙看 googleblog ……

据Google官方博客报道,Google已经开发了一种新的索引算法,可以索引Flash菜单、按钮以及横幅,或者其他有内容的Flash文件,最近,由Adobe公司提供的Flash技术,Google正在改善搜索引擎索引SWF文件的效果,新的Flash索引算法整合来Adobe的Flash Player技术。这将大为改善Flash内容的搜索效果。不过,尽管搜索引擎现在已经可以索引SWF文件中的静态文字和超级连接,但是复杂的动态Flash内容目前搜索引擎依旧无法索引。
目前,只能识别和索引Flash文件中的文本内容。如果您的Flash文件里只有图片,将不能识别和索引出现在这些图片中的任何文字。类似地,如果一个Flash按钮没有任何附属的文字的话,我们将无法对这类指向特定链接的Flash按钮生成任何錨文本
不足之处:
 1、Googlebot不能执行某些类型的JavaScript程序。因此,如果您的网页通过JavaScript加载Flash文件的话,Google可能无法识别该Flash文件,在这种情况下,它将不会被索引到。

  2、目前,我们还无法把那些通过您的Flash文件加载的外来内容和您的Flash文件整合起来。也就是说,如果您的Flash文件加载了一个HTML文件,或一个XML文件,或另一个SWF文件等等,Google将分别索引这些资源,但是它们将不会被认为是您Flash文件内容的一部分。

  3、虽然我们能够索引在网络上出现的几乎所有语种的Flash,但在识别用双向语言书写的Flash内容还有一定困难。在这个问题解决之前,我们将无法识别和索引Flash文件中的希伯来文或阿拉伯文的内容。

唯一能解析flash的google也只不过解析点皮毛而已。
2 楼 night_stalker 2009-07-21  
google 有解析 flash 的算法,爬----墙看 googleblog ……
1 楼 yajie 2009-07-21  
我想各位的智商都比我高,都发表意见吧

相关推荐

    网络爬虫作业练习_爬虫_python学习_网络爬虫_python_

    在IT领域,网络爬虫是一项重要的技术,尤其对于数据挖掘、数据分析和自动化信息获取来说更是不可或缺。本主题围绕“网络爬虫作业练习”,主要涉及Python编程语言和相关的爬虫技术,我们将深入探讨这些知识点。 首先...

    Python入门网络爬虫之精华版

    总结而言,本篇入门网络爬虫的精华文章覆盖了网络爬虫的基础知识,介绍了三个核心的工作版块,反爬虫策略的应对方法,并且简单提及了Scrapy框架。此外,还提供了进一步学习的资源参考。通过本篇内容,初学者可以快速...

    Python网络爬虫技术-教学大纲.pdf

    通过这门课程,学生将具备基础的网络爬虫开发能力,能够应对各种网页结构和反爬虫策略,为后续的数据分析和挖掘工作奠定坚实基础。同时,课程还将培养学生的实际操作能力和问题解决能力,使他们能够在实践中不断进步...

    Python网络爬虫讲义201808.doc

    本讲义不仅涵盖了基础的爬虫概念和实现,还针对网络爬虫可能遇到的问题和解决方案进行了详细阐述。通过实际案例,如豆瓣、猫眼电影和今日头条等网站的数据抓取,来展示爬虫技术的应用。然而,由于网站不断更新,部分...

    《自己动手写网络爬虫》PDF书及源码

    作者会讲解如何识别和应对网站的反爬措施,如验证码、IP限制、User-Agent变化等,并介绍相应的解决方法,如使用代理IP池、设置动态User-Agent等。 此外,书中还会涉及数据存储和清洗。爬取的数据通常需要存储在...

    Python网络爬虫实战

    根据提供的信息,《Python网络爬虫实战》是一本适合初学者使用的Python爬虫技术书籍,它不仅能够帮助读者巩固基础知识,还能够作为一本实用工具书在实际工作中发挥作用。下面将详细介绍该书中可能涵盖的关键知识点。...

    拉勾教育《52讲轻松搞定网络爬虫》讲师:崔庆才.rar

    在爬虫进阶部分,崔庆才老师会讲解反爬虫策略和应对方法,如IP代理池、User-Agent随机化、验证码识别等,帮助学员解决在实际爬取过程中可能遇到的问题。同时,课程还会涉及多线程、异步IO(如asyncio库)以及分布式...

    基于Python的网络爬虫-开题报告.pdf

    综上所述,通过以上技术和策略,基于Python的网络爬虫能够有效地应对复杂的网络环境,实现高效的数据抓取和处理,为用户提供定制化的信息检索服务。在遵循合法和道德的网络爬虫实践原则下,这样的爬虫系统将大大提升...

    手写网络爬虫

    《手写网络爬虫》 网络爬虫是互联网上的数据挖掘工具,它们自动地遍历网页,抓取信息,为数据分析、搜索引擎优化等提供大量原始...通过亲手实现,不仅能提升技能,还能更好地理解和应对网络爬虫可能遇到的各种挑战。

    c#网络爬虫程序设计.zip

    《C#网络爬虫程序设计》是一份深入探讨如何利用C#语言开发高效网络爬虫的资源包。网络爬虫,又称网页蜘蛛或网络机器人,是自动抓取互联网信息的一种程序,广泛应用于搜索引擎优化、数据分析等领域。在计算机科学尤其...

    自己动手写网络爬虫PDF+源码.zip自己动手写网络爬虫PDF+源码.zip自己动手写网络爬虫PDF+源码.zip自己动手写网络爬虫PDF+源码.zip

    《自己动手写网络爬虫》是一本专注于网络爬虫技术的书籍,旨在通过实践的方式让读者深入了解并掌握...通过阅读PDF和研究源码,读者不仅可以深入理解网络爬虫的工作原理,还能锻炼实际操作技能,提升解决问题的能力。

    基于网络爬虫技术的网络新闻分析

    学生可以通过该项目学习到如何规划和实现一个实际的网络爬虫系统,包括错误处理、速率限制、反爬策略应对等方面的知识。 在实际操作中,网络爬虫还需要遵循Robots协议,这是一个网站管理员与爬虫之间的约定,用于...

    python网络爬虫开发实战

    Python网络爬虫开发实战是一个深度学习和实践的资源集合,主要针对使用Python语言进行网络数据抓取的技术。这个资源包包含了大量的实例,旨在帮助初学者和有一定基础的开发者从基础知识开始,逐步掌握到高级的网络...

    网络爬虫网络爬虫

    网络爬虫,也被称为网页蜘蛛或网络机器人,是自动化地浏览互联网并抓取网页信息的程序。在IT领域,网络爬虫是数据挖掘和信息获取的重要工具,广泛应用于搜索引擎优化、市场分析、竞争情报和社交媒体监测等多个场景。...

    网络爬虫开发工具

    网络爬虫,又称为网页蜘蛛或网络机器人,是信息技术领域中的一个重要工具,它主要用于自动化地在网络上遍历网页,抓取所需的数据。这个过程被称为网络抓取或数据挖掘,是搜索引擎、数据分析公司以及许多在线服务背后...

    网络游戏-基于宝藏图的链接与内容结合的聚焦网络爬虫搜索方法.zip

    在实际应用中,这样的聚焦网络爬虫可能需要解决以下几个关键技术问题: 1. 目标领域定义:明确要爬取的游戏类型或特定游戏,以便构建合适的宝藏图。 2. 相关性评估:设计有效的算法来衡量网页内容与目标主题的相关性...

    一种新型网络爬虫的设计与实现

    【网络爬虫技术详解】 网络爬虫,也称为网络蜘蛛或Web抓取器,是用于自动遍历互联网并抓取网页信息的程序。...同时,面对不断变化的网络环境,网络爬虫技术也需要持续创新,以应对新的挑战和需求。

    自己手动写网络爬虫 随书光盘

    《自己动手写网络爬虫》是一本由罗刚编著的专业书籍,主要针对Java编程语言进行网络爬虫的实现。本书旨在帮助读者深入理解网络爬虫的工作原理,并通过实际编程练习提升技能。光盘附带的高效代码解决方案是书中的实践...

    Python网络爬虫与数据采集-代码.rar

    Python网络爬虫与数据采集是现代数据驱动决策和分析中的重要技能。Python语言因其简洁的语法和丰富的库支持,成为了爬虫开发者的首选工具。在这个主题中,我们将深入探讨Python爬虫的基础、进阶技巧以及如何进行数据...

Global site tag (gtag.js) - Google Analytics