记录蜘蛛爬行历史--PHP版 - soledede - ITeye博客

`

wbj0110

浏览: 1645229 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wahahachuang5： web实时推送技术使用越来越广泛，但是自己开发又太麻烦了，我觉 ...
使用 HTML5 WebSocket 构建实时 Web 应用
秦时明月黑：
Jetty 服务器架构分析
chenghaitao111111：楼主什么时候把gecko源码分析一下呢，期待
MetaQ技术内幕——源码分析(转)
qqggcc：为什么还要写代码啊，如果能做到不写代码就把功能实现就好了
快速构建--Spring-Boot (quote)
yongdi2：好厉害！求打包代码
Hadoop日志文件分析系统

记录蜘蛛爬行历史--PHP版

博客分类：

爬虫
php
搜索引擎

PHP版记录蜘蛛爬行历史 php 爬虫搜索引擎

阅读更多

<? function get_naps_bot()
{
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);

if (strpos($useragent, 'googlebot') !== false){
return 'Google';
}

if (strpos($useragent, 'baiduspider') !== false){
return 'Baidu';
}
if (strpos($useragent, 'msnbot') !== false){
return 'Bing';
}

if (strpos($useragent, 'slurp') !== false){
return 'Yahoo';
}

if (strpos($useragent, 'sosospider') !== false){
return 'Soso';
}

if (strpos($useragent, 'sogou spider') !== false){
return 'Sogou';
}

if (strpos($useragent, 'yodaobot') !== false){
return 'Yodao';
}
return false;
}

function nowtime(){
$date=date("Y-m-d.G:i:s");
return $date;
}

$searchbot = get_naps_bot();

if ($searchbot) {
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
$url=$_SERVER['HTTP_REFERER'];
$file="robotlog.txt";
$time=nowtime();
$data=fopen($file,"a");
fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispage\n");
fclose($data);
}
?>

分享到：

深入 Lucene 索引机制 | 百度site指令查收录的问题汇总

2013-09-04 12:31
浏览 997
评论(0)
分类:Web前端
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

ExpoCMS展览行业网站系统 v2.0 build 20120126.rar: 1.本次升级把记录搜索引擎蜘蛛爬行记录写到数据库中 2.采用了EasyASP类库 2010-12-12 1.本次升级增加了记录搜索引擎蜘蛛爬行时间和页面 2.把前端页面需要用到的函数封装到一个文件里面 2010-12-2 1.在文章分类...

PHP商城系统 V2.0.5 beta 2.rar: 调整若是蜘蛛爬行不记录访问统计不记录访问我的浏览历史记录调整商品搜索,订单搜索调整未登陆状态下且必须要会员登录才能支付的情况下会员登陆后由直接跳转到会员中心改为跳转到购物车调整购物车购买->...

第三章-网站建设与SEO.pptx: - **网站日志**：记录服务器运行和访问情况，对SEO工作有指导作用，可了解搜索引擎蜘蛛的爬行情况。 - **301重定向**：用于永久转移网页地址，防止因网站结构调整等原因导致流量流失，确保用户和搜索引擎找到正确...

SEO网络工具介绍: - **PageRank 更新记录**：如http://www.seocompany.ca/pagerank/page-rank-update-list.html，提供Google PageRank 更新的历史记录，有助于了解Google算法的变化趋势。 #### 10. 其他工具 - **Xenu Link Sleuth**...

网站领导常用工具集中国排行100强: - **功能描述:** 模拟搜索引擎蜘蛛爬行，检测网页是否正常被抓取。 - **使用场景:** 调试网站代码，确保搜索引擎友好。 **3.5 搜索引擎抓取页面数量统计器** - **网址:** [http://www.marketleap.com/publinkpop/]...

完整版Python网络爬虫之Scrapy爬虫框架使用案例教程含源代码共18页.pdf: 小刮刮是一个为遍历爬行网站、分解获取数据而设计的应用程序框架，它可以应用在广泛领域：数据挖掘、信息处理和或者历史片（历史记录）打包等等。尽管小刮刮原本是设计用来屏幕抓取（更精确的说，是网络抓取）的...

《书安》-第六期_安全冷兵器.pdf: 手动映射阶段包括通过浏览器映射应用程序，填充代理历史和站点地图的内容，自动蜘蛛爬行以推断未映射内容等。自动化映射阶段使用BurpSuite的自动蜘蛛功能来遍历应用程序的链接。最后，分析阶段会填充代理服务器的...

burp使用说明: 2. **历史记录选项卡(History tab)**：记录所有通过代理的请求和响应，方便后续分析。 3. **Spider控制选项(Control tab)**：配置爬虫参数，如爬行深度、速度限制等，控制Burp Spider的爬行过程。 4. **Spider结果**...

XXXX年网站优化方案汇总.docx: 2. 网站IIS日志维护：分析网站IIS日志，蜘蛛爬行日志，对网站进行相应调整。知识点：网站IIS日志维护的重要性、蜘蛛爬行日志的作用。 3. 网站流量监控：通过对网站IP、PV量的统计，分析流量来源，制定下一步优化...

北师大版八年级生物下册期末试题及答案.doc: 3. 化石在生物进化中的证据作用：化石是研究生物进化最直接的证据，它们记录了生物历史的变迁。 4. 生物分类系统：生物分类的基本单位是种，最高单位是界。林耐的双命名法规定每个物种的学名由属名和种名两部分组成...

SEO优化执行方案.pdf: 通过分析历史数据，包括LOG日志、蜘蛛爬行记录、搜索引擎流量以及特定关键词的流量，可以了解网站当前的表现和用户行为模式。根据这些数据，需要进行关键词研究，找出行业相关的关键词并估算其每日搜索量，以便制定...

优化网站SEO方案.pdf: 2. IIS日志维护：分析日志，了解搜索引擎蜘蛛的爬行行为，进行必要调整。 3. 流量监控：统计IP和PV，分析流量来源，为后续优化提供数据支持。这个优化方案覆盖了从基础诊断到深入优化再到推广和维护的全过程，...

搜索引擎的小测试关于抓取网址的: 爬行是整个流程的起点，搜索引擎通过一组被称为“网络爬虫”或“蜘蛛”的自动化程序来遍历互联网上的网页。这些爬虫遵循网站间的链接关系，从一个网页跳转到另一个网页，抓取页面内容并记录URL。当爬虫访问一个...

酷睿股票私募网站管理系统 V2011.rar: 独有利于Alexa收录的info.txt文件和搜索引擎蜘蛛爬行文件Robots.txt 模板程序分离，网站频道、栏目、内容页META关键词、网站META网页描述均为调用标签，利于网站的收录量并大大缩短了页面收录的时间更便于网站的...

2019八年级生物会考试题及答案.pdf: 3. 生物进化的证据：化石是研究生物进化最直接、最重要的证据，它们记录了生物的历史，展示了生物形态和生活方式的变化。 4. 自然选择与人工选择的区别：自然选择是由环境因素驱动的，而人工选择是人类根据需求对...

酷睿股票私募网站管理系统 V2011: 独有利于Alexa收录的info.txt文件和搜索引擎蜘蛛爬行文件Robots.txt 模板程序分离，网站频道、栏目、内容页META关键词、网站META网页描述均为调用标签，利于网站的收录量并大大缩短了页面收录的时间更便于网站的自动...

酷睿股票私募网站管理系统V2010 SP3: 独有利于Alexa收录的info.txt文件和搜索引擎蜘蛛爬行文件Robots.txt 模板程序分离，网站频道、栏目、内容页META关键词、网站META网页描述均为调用标签，利于网站的收录量并大大缩短了页面收录的时间更便于网站的自动...

酷睿股票私募网站管理系统 V2010 SP2: 独有利于Alexa收录的info.txt文件和搜索引擎蜘蛛爬行文件Robots.txt 模板程序分离，网站频道、栏目、内容页META关键词、网站META网页描述均为调用标签，利于网站的收录量并大大缩短了页面收录的时间更便于网站的自动...

Google搜索技术: 这个过程中，Google的“爬虫”程序（也称为网络蜘蛛）无休止地在网络中爬行，寻找新的、更新的内容。它们遵循URL链接，但也会受到robots.txt文件的限制，避免访问网站主人不希望被索引的部分。同时，Google会根据...

Global site tag (gtag.js) - Google Analytics