`
nesta13
  • 浏览: 116287 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

搜索引擎爬虫程序一览表大全

阅读更多

高<nobr>强度</nobr>爬虫程序
Baiduspider+(+http://www.baidu.com/search/spider.htm)
百度爬虫
高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
由于算法问题,百度爬虫对相同页面会多次发出请求(尤其是首页),令人烦恼。
推广<nobr>效果</nobr>好。
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
雅虎爬虫,分别是雅虎中国和美国总部的爬虫
高强度爬虫,有时会从多个IP地址启动多个爬虫程序!
比较规范的爬虫,看参考其网址,设定爬虫访问间隔。(但需要考虑同时出现多个yahoo爬虫)
推广效果尚可。
iaskspider/2.0(+http://iask.com/help/help_index.html)
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
新浪爱问爬虫
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
推广效果差。
sogou spider
搜狗爬虫
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大
推广效果差。


中等强度爬虫程序
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.<nobr>google</nobr>.com/bot.html)
Google爬虫
算法优秀,多为访问有实际内容的页面
推广效果好。
Mediapartners-Google/2.1
google点击<nobr>广告</nobr>爬虫
特点未知
OutfoxBot/0.5 (for internet experiments; http://; <script language="JavaScript" type="text/javascript"> <!----> </script>outfoxbot@gmail.comoutfoxbot@gmail.com <noscript></noscript>)
网易爬虫
其搜索算法需要改进
推广效果差。
ia_archiver
Alexa排名爬虫
作用未知


其他搜索引擎的爬虫
msnbot/1.0 (+http://search.msn.com/msnbot.htm)
MSN爬虫
特点未知
msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
(欢迎补充资料)
特点未知
Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)
Mozilla/4.0 (compatible; MSIE 5.0; <nobr>Windows NT</nobr>; DigExt; DTS Agent
Mozilla/4.0 (compatible; MSIE 5.00; Windows 98; DigExt)
(欢迎补充资料)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)
名字上看来是Qihoo的
特点未知
Gigabot
Gigabot/2.0 (http://www.gigablast.com/spider.html)
Gigabot搜索引擎爬虫。已被google收购?(欢迎补充资料)
eApolloBot/1.0 (eApollo search engine robot; http://www.eapollo.com; eapollo at global-opto dot com)
lanshanbot/1.0
据说是中搜爬虫。(欢迎补充资料)
iearthworm/1.0, <script language="JavaScript" type="text/javascript"> <!----> </script>iearthworm@yahoo.com.cniearthworm@yahoo.com.cn <noscript></noscript>
TMCrawler
WebNews http.pl


RSS扫描器
\rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU)
这是用foxmail6.0订阅了你的rss
\rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html)
google的rss搜索扫描器
\rss.asp feedsky_spider http://www.feedsky.com
一款rss扫描器,有兴趣者进入此网站添加您的rss

 

转载自:CSDN

分享到:
评论

相关推荐

    搜索引擎爬虫(支持自定目录)

    搜索引擎爬虫是网络数据抓取的关键工具,它们自动地遍历互联网上的网页,收集信息,以便于搜索引擎构建索引,从而提高搜索效率和准确性。在这个特定的案例中,"搜索引擎爬虫(支持自定目录)" 提供了定制化的目标...

    搜索引擎爬虫外文翻译文献.docx

    搜索引擎爬虫外文翻译文献 搜索引擎爬虫是网络信息检索的重要工具,随着网络的急剧扩张,爬虫逐渐成为一种受欢迎的途径。这是由于网络的便利和丰富的信息。通常需要使用基于网络爬行的搜索引擎来找到我们需要的网页...

    垂直搜索引擎网络爬虫的研究与实现.pdf

    ### 垂直搜索引擎网络爬虫的研究与实现 #### 概述 《垂直搜索引擎网络爬虫的研究与实现》是一篇由苏州大学计算机应用技术专业的硕士研究生刘忠撰写的硕士学位论文,指导教师为刘全教授。该论文主要研究了基于强化...

    搜索引擎爬虫代码

    【搜索引擎爬虫代码】是利用Python的Scrapy-Redis框架编写的一种网络爬虫程序,用于自动化地抓取中国各地的景点信息。Scrapy是一个强大的、模块化的爬虫框架,而Scrapy-Redis则是其扩展,增加了分布式爬虫的功能,...

    搜索引擎原理 爬虫技术

    搜索引擎是互联网上不可或缺的信息检索工具,它通过爬虫技术遍历网络,收集并处理大量网页信息,然后通过一系列复杂的预处理步骤,为用户提供快速、准确的搜索结果。在这个过程中,Perl语言经常被用来实现简单的搜索...

    Spider_java.zip_Java spider_java 爬虫_spider_搜索引擎 爬虫_网络爬虫

    【标题】"Spider_java.zip" 是一个包含Java实现的网络爬虫项目的压缩包,主要针对搜索引擎数据抓取。这个项目的核心在于使用Java编程语言来构建一个能够自动化浏览网页、解析HTML内容并收集所需信息的程序。网络爬虫...

    论文研究-基于图书搜索引擎爬虫系统的关键技术研究和实现 .pdf

    在爬虫技术方面,网络爬虫(Web Crawler)是一种自动获取网页内容的程序或脚本,其工作流程一般包括:获取初始URL列表、解析网页内容、提取出新的URL、更新URL列表、重复执行上述步骤,直到满足某些停止条件为止。...

    人工智能-项目实践-搜索引擎-底层使用puppeteer对配置项目进行预渲染的一个过程,提供给后续搜索引擎爬虫消费 埋点规范平台

    在本项目实践中,我们主要探讨的是如何利用人工智能技术,特别是JavaScript库Puppeteer,来优化搜索引擎的性能,并为搜索引擎爬虫提供友好的预渲染内容。这个项目被称为“breeze-prerender”,它是一个埋点规范平台...

    人工智能-项目实践-搜索引擎-多线程爬虫与ES新闻搜索引擎的实现

    在实现过程中,Java作为主要编程语言,用于开发爬虫程序。Java拥有丰富的网络爬虫库,如Jsoup用于解析HTML,Apache HttpClient或OkHttp用于发送HTTP请求。同时,Java的多线程模型可以方便地实现爬虫的并发执行。 ...

    C# 搜索引擎和网络爬虫的实现

    在IT领域,网络爬虫和搜索引擎是两个非常关键的技术,特别是在大数据分析和信息提取中。本文将深入探讨如何使用C#这一编程语言来实现这两项技术。 首先,让我们从网络爬虫开始。网络爬虫,也称为网页抓取器或蜘蛛,...

    JAVA网络爬虫数据库jsp搜索引擎

    Java网络爬虫、数据库、JSP以及搜索引擎是构建高效网站数据采集和检索系统的关键技术。在互联网信息爆炸的时代,搜索引擎的使用已经变得无处不在,它们帮助用户快速找到所需的信息。而作为开发者,掌握这些技术可以...

    简析搜索引擎中网络爬虫的搜索策略

    搜索引擎是互联网信息获取的核心工具,而网络爬虫作为搜索引擎的基础组成部分,其搜索策略至关重要。本文将深入探讨网络爬虫的工作原理、搜索策略以及优化方法。 网络爬虫,又称为网页蜘蛛或机器人,是一种自动遍历...

    爬虫搜索引擎实例有兴趣的朋友可以研究一哈

    我这里所说的爬虫就是传统的搜索引擎,因为我们一度把YAHOO一类的目录也称作搜索引擎,所以这个概念已经有些混乱了。 搜索引擎:也叫 "蜘蛛"或 "网络爬虫",为了能产生web页的目录册,搜索引擎持续不停的访问...

    搜索引擎的分析与程序设计,网络爬虫抓URL的原理,基于C#

    在这个主题中,我们将深入探讨搜索引擎的分析与程序设计,以及网络爬虫抓取URL的原理,这些内容都将基于C#编程语言进行讨论。 首先,搜索引擎的核心功能是索引和搜索网页。它的工作流程可以分为四个主要步骤:爬取...

    爬虫脚本项目源码-模拟百度搜索引擎

    这个项目提供了实践这些知识点的机会,通过编写和运行源代码,你可以更好地理解和掌握搜索引擎的工作流程,以及Python在网络爬虫开发中的应用。同时,这个项目也鼓励开发者进行持续改进,比如优化爬取速度、增加反...

    搜索引擎原理之网络爬虫

    搜索引擎是现代互联网中不可或缺的一部分,它们通过网络爬虫技术从庞大的互联网中收集、处理和索引信息,使得用户能够快速找到所需的内容。网络爬虫,又称为网页蜘蛛或机器人,是搜索引擎的重要组成部分,负责自动...

    lucene.net及.net爬虫实现的简单搜索引擎

    1. **设计爬虫**:使用.NET框架,结合HtmlAgilityPack或AngleSharp等库,编写爬虫程序,设定目标网站,解析网页,提取关键词和其他相关信息。 2. **数据预处理**:对爬取到的数据进行清洗和规范化,例如去除HTML...

    别人写的一个工程 网络爬虫搜索引擎

    网络爬虫是自动化地遍历互联网并下载网页的程序,而搜索引擎则负责处理抓取的数据,使其可用于高效的搜索。这个项目对于学习和理解网络爬虫与搜索引擎的工作原理非常有价值。 【标签】"java 网络爬虫"表明该项目...

    搜索引擎源代码中国搜搜索引擎

    综上所述,中国搜搜索引擎的源代码研究涵盖了网络爬虫、信息处理、索引构建、查询处理等多个关键领域,这些技术是所有搜索引擎的核心组成部分。通过深入学习和理解,我们可以更好地构建和优化中文搜索引擎,提升用户...

Global site tag (gtag.js) - Google Analytics