百度
百度的spider的user agent都会包含 Baiduspider 字符串。
相关资料:http://www.baidu.com/search/spider.htm
google
google的spider的user agent都会包含 Googlebot 字符串。
相关资料:http://www.google.com/bot.html
soso
soso的spider的user agent都会包含 Sosospider 字符串
相关资料:http://help.soso.com/webspider.htm
sogou
sogou的spider的user agent都会包含 Sogou web spider 字符串
相关资料:http://www.sogou.com/docs/help/webmasters.htm#07
其他的也都差不多。。。可以自行查看下网站的access log。
如何通过php程序控制 spider 的行为?
通过 $_SERVER["HTTP_USER_AGENT"] 获取来访者的 user agent,然后判断是否含有相应的搜索引擎spider的特定字符串,再采取后续动作就可以了。
<!--<br /><br />Code highlighting produced by Actipro CodeHighlighter (freeware)<br />http://www.CodeHighlighter.com/<br /><br />--><?php
$user_agent = $_SERVER["HTTP_USER_AGENT"];
if ( eregi("Googlebot",$user_agent) )
{
// is google's spider access, you can do something for it~
}
?>
分享到:
相关推荐
搜索引擎是互联网上的一种重要工具,它的核心功能是通过爬虫(Spider)技术抓取网络上的信息,然后对抓取的数据进行处理和索引,以便用户能够快速、准确地找到所需内容。在这里,我们将深入探讨“搜索引擎,spider...
DIV+CSS网页制作对搜索引擎优化的优势分析整理 DIV+CSS网页制作技术的优势在于其符合W3C国际标准,能够将表现与内容分离,提高搜索引擎对网页的索引效率,提高页面浏览速度,易于维护和改版。同时,DIV+CSS网页...
1. **信息的抓取**:搜索引擎通过一种称为“爬虫”(Spider 或 Web Crawler)的程序自动访问网站,抓取网页数据。爬虫按照一定的规则浏览网页,收集HTML代码和其他相关内容。 2. **索引的构建**:抓取到的数据会被...
网页抓取是搜索引擎工作的第一步,它主要依靠网络爬虫(Spider)来完成。网络爬虫是一种自动程序,用于访问互联网上的各个网站并抓取页面内容。具体来说: 1. **跟踪链接访问页面**:爬虫会从一些预先设定的URL开始...
1. **搜集信息**:搜索引擎通过自动化的网络爬虫程序(Spider)在网络上爬取网页信息。爬虫程序会沿着网页间的链接不断深入,理论上可以覆盖互联网上的大部分网页。 2. **整理信息**(建立索引):搜集来的信息会被...
根据给定文件的标题“搜索引擎整理”及描述“一些对搜索引擎有帮助的概念,对于搜索引擎的编程有帮助”,我们可以深入探讨一系列关键知识点,包括搜索引擎的工作原理、网络爬虫技术、HTTP协议的理解、以及如何利用...
搜索引擎的工作原理通常包括网络爬虫(Crawler)或蜘蛛(Spider)对网页进行索引,搜索引擎算法对索引的内容进行处理和排序,以及查询接口展示结果给用户。核心组成部分包含网页抓取、索引构建、查询处理、搜索算法...
全文搜索引擎如Google、百度,它们的核心是网络机器人(Spider或Crawlers)。这些软件在互联网上遍历网页,通过链接从一个页面跳转到另一个,收集大量网页信息。收集到的网页数据会被分析处理,运用相关度算法建立...
搜索引擎并非直接搜索整个互联网,而是通过预先整理的网页索引数据库来提供搜索服务。一个完整的搜索引擎通常包括四个主要步骤:首先,使用爬虫程序(Spider System)自动抓取互联网上的网页;接着,分析系统程序...
文中深入探讨了搜索引擎的技术细节,比如网络爬虫(Web spider)的设计和实现、搜索引擎索引的构建以及搜索结果的排序算法。网络爬虫用于在互联网上搜集网页内容,是搜索引擎数据收集的基础。 在技术实现方面,本...
分类目录型搜索引擎通过人工分类整理网络资源,而基于关键词的搜索引擎允许用户输入逻辑组合的关键词,通过算法返回包含这些关键词的网址。 搜索引擎的工作方式之一是使用蜘蛛程序(Spider)自动爬取网页,提取每个...
蜘蛛程序(Spider),又称网络爬虫,是搜索引擎中最基础的部分之一。它的主要任务是遍历互联网上的所有可访问网页,并将这些网页的信息存储下来。蜘蛛程序的工作流程如下: 1. **起始URL**:蜘蛛程序从一组预先设定...
总的来说,搜索引擎的工作就像中医整理草药,采集网页信息,剔除非本质部分,提炼关键词,根据其价值进行分类存储,最后根据用户的需求快速准确地提供相关信息。这一过程涉及到大量技术和策略,旨在提供最相关、最有...
E桶金行业搜索引擎系统(包含多线程客户端蜘蛛系统) V1.6 版发布! E桶金行业搜索引擎 特别适用于超大、中型信息门户、行业门户、电子商务等网站使用。 它是一款真正意义上的搜索引擎:具有自己的蜘蛛、分词、索引...
网络蜘蛛(又称为Web Spider或搜索引擎机器人)是搜索引擎不可或缺的组成部分。其作用在于通过互联网上的链接自动遍历和抓取网页内容。网络蜘蛛的抓取策略分为深度优先和广度优先两种。深度优先策略着重于深入探索...
### 搜索引擎工作原理三个阶段简介 #### 一、爬行和抓取 搜索引擎的工作流程首先从爬行和抓取开始,这是整个搜索系统数据采集的基础。在这个阶段,搜索引擎会派出特殊的程序,俗称“蜘蛛”或“爬虫”,来访问...
- **Spider技术**:研究爬虫技术在搜索引擎中的应用方式及其重要性。 - **现有搜索引擎方法**:对比分析国内外主流搜索引擎的特点和技术路线。 ##### 2. 研究阶段 - **算法选择**:通过对现有搜索引擎算法的比较,...
SEO的核心在于优化网站,以便于搜索引擎蜘蛛(Spider)能够更好地抓取和索引网站的内容。由于搜索引擎蜘蛛主要读取HTML代码,因此如果网站的导航或文本内容采用了框架(Frames)、图片、JavaScript或Flash等形式,可能...