`
#rethink#
  • 浏览: 46937 次
  • 性别: Icon_minigender_1
  • 来自: 厦门
社区版块
存档分类
最新评论

搜索引擎spider整理

阅读更多

百度

百度的spider的user agent都会包含 Baiduspider 字符串。

相关资料:http://www.baidu.com/search/spider.htm

google

google的spider的user agent都会包含  Googlebot 字符串。

相关资料:http://www.google.com/bot.html

soso

soso的spider的user agent都会包含 Sosospider 字符串

相关资料:http://help.soso.com/webspider.htm 

sogou

sogou的spider的user agent都会包含 Sogou web spider 字符串

相关资料:http://www.sogou.com/docs/help/webmasters.htm#07

 

其他的也都差不多。。。可以自行查看下网站的access log。

 

如何通过php程序控制 spider 的行为?

通过 $_SERVER["HTTP_USER_AGENT"] 获取来访者的 user agent,然后判断是否含有相应的搜索引擎spider的特定字符串,再采取后续动作就可以了。

 

<!--<br /><br />Code highlighting produced by Actipro CodeHighlighter (freeware)<br />http://www.CodeHighlighter.com/<br /><br />--><?php
$user_agent = $_SERVER["HTTP_USER_AGENT"];

if ( eregi("Googlebot",$user_agent) )
{
    
// is google's spider access, you can do something for it~
}
?> 

 

分享到:
评论

相关推荐

    搜索引擎,spider抓取

    搜索引擎是互联网上的一种重要工具,它的核心功能是通过爬虫(Spider)技术抓取网络上的信息,然后对抓取的数据进行处理和索引,以便用户能够快速、准确地找到所需内容。在这里,我们将深入探讨“搜索引擎,spider...

    DIV+CSS网页制作对搜索引擎优化的优势分析整理.pdf

    DIV+CSS网页制作对搜索引擎优化的优势分析整理 DIV+CSS网页制作技术的优势在于其符合W3C国际标准,能够将表现与内容分离,提高搜索引擎对网页的索引效率,提高页面浏览速度,易于维护和改版。同时,DIV+CSS网页...

    搜索引擎 工作原理

    1. **信息的抓取**:搜索引擎通过一种称为“爬虫”(Spider 或 Web Crawler)的程序自动访问网站,抓取网页数据。爬虫按照一定的规则浏览网页,收集HTML代码和其他相关内容。 2. **索引的构建**:抓取到的数据会被...

    搜索引擎工作原理

    网页抓取是搜索引擎工作的第一步,它主要依靠网络爬虫(Spider)来完成。网络爬虫是一种自动程序,用于访问互联网上的各个网站并抓取页面内容。具体来说: 1. **跟踪链接访问页面**:爬虫会从一些预先设定的URL开始...

    浅析搜索引擎原理及使用技巧

    1. **搜集信息**:搜索引擎通过自动化的网络爬虫程序(Spider)在网络上爬取网页信息。爬虫程序会沿着网页间的链接不断深入,理论上可以覆盖互联网上的大部分网页。 2. **整理信息**(建立索引):搜集来的信息会被...

    搜索引擎整理

    根据给定文件的标题“搜索引擎整理”及描述“一些对搜索引擎有帮助的概念,对于搜索引擎的编程有帮助”,我们可以深入探讨一系列关键知识点,包括搜索引擎的工作原理、网络爬虫技术、HTTP协议的理解、以及如何利用...

    [搜索引擎-信息检索实践].pdf

    搜索引擎的工作原理通常包括网络爬虫(Crawler)或蜘蛛(Spider)对网页进行索引,搜索引擎算法对索引的内容进行处理和排序,以及查询接口展示结果给用户。核心组成部分包含网页抓取、索引构建、查询处理、搜索算法...

    搜索引擎工作原理.pdf

    全文搜索引擎如Google、百度,它们的核心是网络机器人(Spider或Crawlers)。这些软件在互联网上遍历网页,通过链接从一个页面跳转到另一个,收集大量网页信息。收集到的网页数据会被分析处理,运用相关度算法建立...

    第1章 搜索引擎概述

    搜索引擎并非直接搜索整个互联网,而是通过预先整理的网页索引数据库来提供搜索服务。一个完整的搜索引擎通常包括四个主要步骤:首先,使用爬虫程序(Spider System)自动抓取互联网上的网页;接着,分析系统程序...

    搜索引擎-本科毕业论文(20210809123423).pdf

    文中深入探讨了搜索引擎的技术细节,比如网络爬虫(Web spider)的设计和实现、搜索引擎索引的构建以及搜索结果的排序算法。网络爬虫用于在互联网上搜集网页内容,是搜索引擎数据收集的基础。 在技术实现方面,本...

    关于辩论问题解析:如何在辩论与工作中中应用搜索引擎.pdf

    分类目录型搜索引擎通过人工分类整理网络资源,而基于关键词的搜索引擎允许用户输入逻辑组合的关键词,通过算法返回包含这些关键词的网址。 搜索引擎的工作方式之一是使用蜘蛛程序(Spider)自动爬取网页,提取每个...

    搜索引擎工作原理简单模拟

    总的来说,搜索引擎的工作就像中医整理草药,采集网页信息,剔除非本质部分,提炼关键词,根据其价值进行分类存储,最后根据用户的需求快速准确地提供相关信息。这一过程涉及到大量技术和策略,旨在提供最相关、最有...

    搜索引擎代码

    E桶金行业搜索引擎系统(包含多线程客户端蜘蛛系统) V1.6 版发布! E桶金行业搜索引擎 特别适用于超大、中型信息门户、行业门户、电子商务等网站使用。 它是一款真正意义上的搜索引擎:具有自己的蜘蛛、分词、索引...

    搜索引擎工作原理三个阶段简介.docx

    ### 搜索引擎工作原理三个阶段简介 #### 一、爬行和抓取 搜索引擎的工作流程首先从爬行和抓取开始,这是整个搜索系统数据采集的基础。在这个阶段,搜索引擎会派出特殊的程序,俗称“蜘蛛”或“爬虫”,来访问...

    小型个人搜索引擎的研究与分析开题报告

    - **Spider技术**:研究爬虫技术在搜索引擎中的应用方式及其重要性。 - **现有搜索引擎方法**:对比分析国内外主流搜索引擎的特点和技术路线。 ##### 2. 研究阶段 - **算法选择**:通过对现有搜索引擎算法的比较,...

    SEO(搜索引擎优化)中级进阶知识1

    SEO的核心在于优化网站,以便于搜索引擎蜘蛛(Spider)能够更好地抓取和索引网站的内容。由于搜索引擎蜘蛛主要读取HTML代码,因此如果网站的导航或文本内容采用了框架(Frames)、图片、JavaScript或Flash等形式,可能...

Global site tag (gtag.js) - Google Analytics