搜索引擎spider整理 - rethink log - ITeye博客

`

#rethink#

浏览: 47437 次
性别:
来自: 厦门

最近访客更多访客>>

ashem

newpear8794

yztzz

fangfumin

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

tpsnake：帮助很大，非常感谢，好贴一生要顶
IE浏览器：定义文档兼容性

搜索引擎spider整理

搜索引擎百度 Google PHP Access

阅读更多

百度

百度的spider的user agent都会包含 Baiduspider 字符串。

相关资料：http://www.baidu.com/search/spider.htm

google

google的spider的user agent都会包含 Googlebot 字符串。

相关资料：http://www.google.com/bot.html

soso

soso的spider的user agent都会包含 Sosospider 字符串

相关资料：http://help.soso.com/webspider.htm

sogou

sogou的spider的user agent都会包含 Sogou web spider 字符串

相关资料：http://www.sogou.com/docs/help/webmasters.htm#07

其他的也都差不多。。。可以自行查看下网站的access log。

如何通过php程序控制 spider 的行为？

通过 $_SERVER["HTTP_USER_AGENT"] 获取来访者的 user agent，然后判断是否含有相应的搜索引擎spider的特定字符串，再采取后续动作就可以了。

<?php
$user_agent = $_SERVER["HTTP_USER_AGENT"];

if ( eregi("Googlebot",$user_agent) )
{
// is google's spider access, you can do something for it~
}
?>

分享到：

zf.bat命令 | Content-Type问题总结

2009-11-09 17:07
浏览 537
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

搜索引擎，spider抓取: 搜索引擎是互联网上的一种重要工具，它的核心功能是通过爬虫（Spider）技术抓取网络上的信息，然后对抓取的数据进行处理和索引，以便用户能够快速、准确地找到所需内容。在这里，我们将深入探讨“搜索引擎，spider...

DIV+CSS网页制作对搜索引擎优化的优势分析整理.pdf: DIV+CSS网页制作对搜索引擎优化的优势分析整理 DIV+CSS网页制作技术的优势在于其符合W3C国际标准，能够将表现与内容分离，提高搜索引擎对网页的索引效率，提高页面浏览速度，易于维护和改版。同时，DIV+CSS网页...

搜索引擎工作原理: 1. **信息的抓取**：搜索引擎通过一种称为“爬虫”（Spider 或 Web Crawler）的程序自动访问网站，抓取网页数据。爬虫按照一定的规则浏览网页，收集HTML代码和其他相关内容。 2. **索引的构建**：抓取到的数据会被...

搜索引擎工作原理: 网页抓取是搜索引擎工作的第一步，它主要依靠网络爬虫（Spider）来完成。网络爬虫是一种自动程序，用于访问互联网上的各个网站并抓取页面内容。具体来说： 1. **跟踪链接访问页面**：爬虫会从一些预先设定的URL开始...

浅析搜索引擎原理及使用技巧: 1. **搜集信息**：搜索引擎通过自动化的网络爬虫程序（Spider）在网络上爬取网页信息。爬虫程序会沿着网页间的链接不断深入，理论上可以覆盖互联网上的大部分网页。 2. **整理信息**（建立索引）：搜集来的信息会被...

搜索引擎整理: 根据给定文件的标题“搜索引擎整理”及描述“一些对搜索引擎有帮助的概念，对于搜索引擎的编程有帮助”，我们可以深入探讨一系列关键知识点，包括搜索引擎的工作原理、网络爬虫技术、HTTP协议的理解、以及如何利用...

[搜索引擎-信息检索实践].pdf: 搜索引擎的工作原理通常包括网络爬虫（Crawler）或蜘蛛（Spider）对网页进行索引，搜索引擎算法对索引的内容进行处理和排序，以及查询接口展示结果给用户。核心组成部分包含网页抓取、索引构建、查询处理、搜索算法...

搜索引擎工作原理.pdf: 全文搜索引擎如Google、百度，它们的核心是网络机器人（Spider或Crawlers）。这些软件在互联网上遍历网页，通过链接从一个页面跳转到另一个，收集大量网页信息。收集到的网页数据会被分析处理，运用相关度算法建立...

第1章搜索引擎概述: 搜索引擎并非直接搜索整个互联网，而是通过预先整理的网页索引数据库来提供搜索服务。一个完整的搜索引擎通常包括四个主要步骤：首先，使用爬虫程序（Spider System）自动抓取互联网上的网页；接着，分析系统程序...

搜索引擎-本科毕业论文(20210809123423).pdf: 文中深入探讨了搜索引擎的技术细节，比如网络爬虫（Web spider）的设计和实现、搜索引擎索引的构建以及搜索结果的排序算法。网络爬虫用于在互联网上搜集网页内容，是搜索引擎数据收集的基础。在技术实现方面，本...

关于辩论问题解析：如何在辩论与工作中中应用搜索引擎.pdf: 分类目录型搜索引擎通过人工分类整理网络资源，而基于关键词的搜索引擎允许用户输入逻辑组合的关键词，通过算法返回包含这些关键词的网址。搜索引擎的工作方式之一是使用蜘蛛程序（Spider）自动爬取网页，提取每个...

搜索引擎原理: 蜘蛛程序（Spider），又称网络爬虫，是搜索引擎中最基础的部分之一。它的主要任务是遍历互联网上的所有可访问网页，并将这些网页的信息存储下来。蜘蛛程序的工作流程如下： 1. **起始URL**：蜘蛛程序从一组预先设定...

搜索引擎工作原理简单模拟: 总的来说，搜索引擎的工作就像中医整理草药，采集网页信息，剔除非本质部分，提炼关键词，根据其价值进行分类存储，最后根据用户的需求快速准确地提供相关信息。这一过程涉及到大量技术和策略，旨在提供最相关、最有...

搜索引擎代码: E桶金行业搜索引擎系统（包含多线程客户端蜘蛛系统） V1.6 版发布！ E桶金行业搜索引擎特别适用于超大、中型信息门户、行业门户、电子商务等网站使用。它是一款真正意义上的搜索引擎:具有自己的蜘蛛、分词、索引...

管理学SEO相关的搜索引擎技术PPT学习教案.pptx: 网络蜘蛛（又称为Web Spider或搜索引擎机器人）是搜索引擎不可或缺的组成部分。其作用在于通过互联网上的链接自动遍历和抓取网页内容。网络蜘蛛的抓取策略分为深度优先和广度优先两种。深度优先策略着重于深入探索...

搜索引擎工作原理三个阶段简介.docx: ### 搜索引擎工作原理三个阶段简介 #### 一、爬行和抓取搜索引擎的工作流程首先从爬行和抓取开始，这是整个搜索系统数据采集的基础。在这个阶段，搜索引擎会派出特殊的程序，俗称“蜘蛛”或“爬虫”，来访问...

小型个人搜索引擎的研究与分析开题报告: - **Spider技术**：研究爬虫技术在搜索引擎中的应用方式及其重要性。 - **现有搜索引擎方法**：对比分析国内外主流搜索引擎的特点和技术路线。 ##### 2. 研究阶段 - **算法选择**：通过对现有搜索引擎算法的比较，...

SEO(搜索引擎优化)中级进阶知识1: SEO的核心在于优化网站，以便于搜索引擎蜘蛛（Spider）能够更好地抓取和索引网站的内容。由于搜索引擎蜘蛛主要读取HTML代码，因此如果网站的导航或文本内容采用了框架(Frames)、图片、JavaScript或Flash等形式，可能...

Global site tag (gtag.js) - Google Analytics