<? function get_naps_bot() { $useragent = strtolower($_SERVER['HTTP_USER_AGENT']); if (strpos($useragent, 'googlebot') !== false){ return 'Google'; } if (strpos($useragent, 'baiduspider') !== false){ return 'Baidu'; } if (strpos($useragent, 'msnbot') !== false){ return 'Bing'; } if (strpos($useragent, 'slurp') !== false){ return 'Yahoo'; } if (strpos($useragent, 'sosospider') !== false){ return 'Soso'; } if (strpos($useragent, 'sogou spider') !== false){ return 'Sogou'; } if (strpos($useragent, 'yodaobot') !== false){ return 'Yodao'; } return false; } function nowtime(){ $date=date("Y-m-d.G:i:s"); return $date; } $searchbot = get_naps_bot(); if ($searchbot) { $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']); $url=$_SERVER['HTTP_REFERER']; $file="robotlog.txt"; $time=nowtime(); $data=fopen($file,"a"); fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispage\n"); fclose($data); } ?>
- 浏览: 1604773 次
- 性别:
- 来自: 上海
文章分类
- 全部博客 (1585)
- Http Web (18)
- Java (194)
- 操作系统 (2)
- 算法 (30)
- 计算机 (45)
- 程序 (2)
- 性能 (50)
- php (45)
- 测试 (12)
- 服务器 (14)
- Linux (42)
- 数据库 (14)
- 管理 (9)
- 网络 (3)
- 架构 (83)
- 安全 (2)
- 数据挖掘 (16)
- 分析 (9)
- 数据结构 (2)
- 互联网 (6)
- 网络安全 (1)
- 框架 (9)
- 视频 (2)
- 计算机,SEO (3)
- 搜索引擎 (31)
- SEO (18)
- UML (1)
- 工具使用 (2)
- Maven (41)
- 其他 (7)
- 面向对象 (5)
- 反射 (1)
- 设计模式 (6)
- 内存数据库 (2)
- NoSql (9)
- 缓存 (7)
- shell (9)
- IQ (1)
- 源码 (1)
- Js (23)
- HttpClient (2)
- excel (1)
- Spring (7)
- 调试 (4)
- mysql (18)
- Ajax (3)
- JQuery (9)
- Comet (1)
- 英文 (1)
- C# (1)
- HTML5 (3)
- Socket (2)
- 养生 (1)
- 原理 (2)
- 倒排索引 (4)
- 海量数据处理 (1)
- C (2)
- Git (59)
- SQL (3)
- LAMP (1)
- 优化 (2)
- Mongodb (20)
- JMS (1)
- Json (15)
- 定位 (2)
- Google地图 (1)
- memcached (10)
- 压测 (4)
- php.性能优化 (1)
- 励志 (1)
- Python (7)
- 排序 (3)
- 数学 (3)
- 投票算法 (2)
- 学习 (1)
- 跨站攻击 (1)
- 前端 (8)
- SuperFish (1)
- CSS (2)
- 评论挖掘分析 (1)
- Google (13)
- 关键词分析 (1)
- 地图 (1)
- Gzip (1)
- 压缩 (1)
- 爬虫 (13)
- 流量统计 (1)
- 采集 (1)
- 日志分析 (2)
- 浏览器兼容 (1)
- 图片搜索引擎技术 (2)
- 空间 (1)
- 用户体验 (7)
- 免费空间 (1)
- 社交 (2)
- 图片处理 (2)
- 前端工具 (1)
- 商业 (3)
- 淘宝 (3)
- 站内搜索 (1)
- 网站收藏 (1)
- 理论 (1)
- 数据仓库 (2)
- 抓包 (1)
- Hadoop (105)
- 大数据 (6)
- Lucene (34)
- Solr (31)
- Drupal (1)
- 集群 (2)
- Lu (2)
- Mac (4)
- 索引 (9)
- Session共享 (1)
- sorl (10)
- JVM (9)
- 编码 (1)
- taobao (14)
- TCP/IP (4)
- 你可能會感興趣 (3)
- 幽默笑话 (7)
- 服务器整合 (1)
- Nginx (9)
- SorlCloud (4)
- 分佈式搜索 (1)
- ElasticSearch (30)
- 網絡安全 (1)
- MapReduce (8)
- 相似度 (1)
- 數學 (1)
- Session (3)
- 依賴注入 (11)
- Nutch (8)
- 云计算 (6)
- 虚拟化 (3)
- 财务自由 (1)
- 开源 (23)
- Guice (1)
- 推荐系统 (2)
- 人工智能 (1)
- 环境 (2)
- Ucenter (1)
- Memcached-session-manager (1)
- Storm (54)
- wine (1)
- Ubuntu (23)
- Hbase (44)
- Google App Engine (1)
- 短信 (2)
- 矩阵 (1)
- MetaQ (34)
- GitHub &Git &私/公有库 (8)
- Zookeeper (28)
- Exception (24)
- 商务 (1)
- drcp (1)
- 加密&解密 (1)
- 代码自动生成 (1)
- rapid-framework (1)
- 二次开发 (1)
- Facebook (3)
- EhCache (1)
- OceanBase (1)
- Netlog (1)
- 大数据量 (2)
- 分布式 (3)
- 事物 (2)
- 事务 (2)
- JPA (2)
- 通讯 (1)
- math (1)
- Setting.xml (3)
- 络驱动器 (1)
- 挂载 (1)
- 代理 (0)
- 日本語の (1)
- 花生壳 (7)
- Windows (1)
- AWS (2)
- RPC (11)
- jar (2)
- 金融 (1)
- MongDB (2)
- Cygwin (1)
- Distribute (1)
- Cache (1)
- Gora (1)
- Spark (31)
- 内存计算 (1)
- Pig (2)
- Hive (21)
- Mahout (17)
- 机器学习 (34)
- Sqoop (1)
- ssh (1)
- Jstack (2)
- Business (1)
- MapReduce.Hadoop (1)
- monitor (1)
- Vi (1)
- 高并发 (6)
- 海量数据 (2)
- Yslow (4)
- Slf4j (1)
- Log4j (1)
- Unix (3)
- twitter (2)
- yotube (0)
- Map-Reduce (2)
- Streaming (1)
- VMware (1)
- 物联网 (1)
- YUI (1)
- LazyLoad (1)
- RocketMQ (17)
- WiKi (1)
- MQ (1)
- RabbitMQ (2)
- kafka (3)
- SSO (8)
- 单点登录 (2)
- Hash (4)
- Redis (20)
- Memcache (2)
- Jmeter (1)
- Tsung (1)
- ZeroMQ (1)
- 通信 (7)
- 开源日志分析 (1)
- HDFS (1)
- zero-copy (1)
- Zero Copy (1)
- Weka (1)
- I/O (1)
- NIO (13)
- 锁 (3)
- 创业 (11)
- 线程池 (1)
- 投资 (3)
- 池化技术 (4)
- 集合 (1)
- Mina (1)
- JSMVC (1)
- Powerdesigner (1)
- thrift (6)
- 性能,架构 (0)
- Web (3)
- Enum (1)
- Spring MVC (15)
- 拦截器 (1)
- Web前端 (1)
- 多线程 (1)
- Jetty (1)
- emacs (1)
- Cookie (2)
- 工具 (1)
- 分布式消息队列 (1)
- 项目管理 (2)
- github (21)
- 网盘 (1)
- 仓库 (3)
- Dropbox (2)
- Tsar (1)
- 监控 (3)
- Argo (2)
- Atmosphere (1)
- WebSocket (5)
- Node.js (6)
- Kraken (1)
- Cassandra (3)
- Voldemort (1)
- VoltDB (2)
- Netflix (2)
- Hystrix (1)
- 心理 (1)
- 用户分析 (1)
- 用户行为分析 (1)
- JFinal (1)
- J2EE (1)
- Lua (2)
- Velocity (1)
- Tomcat (3)
- 负载均衡 (1)
- Rest (2)
- SerfJ (1)
- Rest.li (1)
- KrakenJS (1)
- Web框架 (1)
- Jsp (2)
- 布局 (2)
- NowJs (1)
- WebSoket (1)
- MRUnit (1)
- CouchDB (1)
- Hiibari (1)
- Tiger (1)
- Ebot (1)
- 分布式爬虫 (1)
- Sphinx (1)
- Luke (1)
- Solandra (1)
- 搜素引擎 (1)
- mysqlcft (1)
- IndexTank (1)
- Erlang (1)
- BeansDB (3)
- Bitcask (2)
- Riak (2)
- Bitbucket (4)
- Bitbuket (1)
- Tokyo Cabinet (2)
- TokyoCabinet (2)
- Tokyokyrant (1)
- Tokyo Tyrant (1)
- Memcached协议 (1)
- Jcrop (1)
- Thead (1)
- 详设 (1)
- 问答 (2)
- ROM (1)
- 计算 (1)
- epoll (2)
- libevent (1)
- BTrace (3)
- cpu (2)
- mem (1)
- Java模板引擎 (1)
- 有趣 (1)
- Htools (1)
- linu (1)
- node (3)
- 虚拟主机 (1)
- 闭包 (1)
- 线程 (1)
- 阻塞 (1)
- LMAX (2)
- Jdon (1)
- 乐观锁 (1)
- Disruptor (9)
- 并发 (6)
- 为共享 (1)
- volatile (1)
- 伪共享 (1)
- Ringbuffer (5)
- i18n (2)
- rsync (1)
- 部署 (1)
- 压力测试 (1)
- ORM (2)
- N+1 (1)
- Http (1)
- web开发脚手架 (1)
- Mybatis (1)
- 国际化 (2)
- Spring data (1)
- R (4)
- 网络爬虫 (1)
- 条形码 (1)
- 等比例缩放 (1)
- java,面向接口 (1)
- 编程规范 (1)
- CAP (1)
- 论文 (1)
- 大数据处理 (1)
- Controller (3)
- CDN (2)
- 程序员 (1)
- Spring Boot (3)
- sar (1)
- 博弈论 (1)
- 经济 (1)
- Scrapy (1)
- Twistedm (1)
- cron (1)
- quartz (1)
- Debug (1)
- AVO (1)
- 跨语言 (1)
- 中间服务 (2)
- Dubbo (4)
- Yarn (1)
- Spring OSGI (1)
- bundle (1)
- OSGI (1)
- Spring-Boot (1)
- CA证书 (1)
- SSL (1)
- CAS (7)
- FusionCharts (5)
- 存储过程 (3)
- 日志 (2)
- OOP (2)
- CentOS (5)
- JSONP (2)
- 跨域 (5)
- P3P (1)
- Java Cas (1)
- CentOS 6.5 Released – Installation Guide with Screenshots (1)
- Android (1)
- 队列 (2)
- Multitail (1)
- Maout (1)
- nohup (1)
- AOP (1)
- 长连接 (3)
- 轮循 (2)
- 聊天室 (1)
- Zeus (1)
- LSM-Tree (1)
- Slope One (1)
- 协同过滤 (1)
- 服务中间件 (1)
- KeyMeans (1)
- Bitmap (1)
- 实时统计 (1)
- B-Tree+ (1)
- PageRank (1)
- 性能分析 (1)
- 性能测试 (1)
- CDH (10)
- 迭代计算 (1)
- Jubatus (1)
- Hadoop家族 (8)
- Cloudera (2)
- RHadoop (1)
- 广告定价 (1)
- 广告系统 (9)
- 广告系统,架构 (1)
- Tag推荐算法 (1)
- 相似度算法 (1)
- 页面重构 (2)
- 高性能 (6)
- Maven3 (3)
- Gradle (11)
- Apache (1)
- Java并发 (1)
- Java多进程 (1)
- Rails (1)
- Ruby (3)
- 系统架构 (1)
- 运维 (36)
- 网页设计 (1)
- TFS (0)
- 推荐引擎 (0)
- Tag提取算法 (1)
- 概率统计 (1)
- 自然语言处理 (2)
- 分词 (1)
- Ruby.Python (1)
- 语义相似度 (0)
- Chukwa (0)
- 日志收集系统 (0)
- Data Mining (4)
- 开放Api (1)
- Scala (28)
- Ganglia (2)
- mmap (1)
- 贝叶斯分类 (1)
- 运营 (1)
- Mdrill (1)
- Lambda (2)
- Netty (5)
- Java8 (1)
- Solr4 (1)
- Akka (12)
- 计算广告 (2)
- 聊天系统 (1)
- 服务发现 (1)
- 统计指标 (1)
- NLP (1)
- 深度学习 (0)
最新评论
-
wahahachuang5:
web实时推送技术使用越来越广泛,但是自己开发又太麻烦了,我觉 ...
使用 HTML5 WebSocket 构建实时 Web 应用 -
秦时明月黑:
Jetty 服务器架构分析 -
chenghaitao111111:
楼主什么时候把gecko源码分析一下呢,期待
MetaQ技术内幕——源码分析(转) -
qqggcc:
为什么还要写代码啊,如果能做到不写代码就把功能实现就好了
快速构建--Spring-Boot (quote) -
yongdi2:
好厉害!求打包代码
Hadoop日志文件分析系统
发表评论
-
海量数据相似度计算之simhash和海明距离
2014-05-24 09:31 417通过 采集系统 我们采集了大量文本数据,但是文本中有很多重 ... -
实战低成本服务器搭建千万级数据采集系统
2014-05-26 00:36 629上一篇文章《社会化海量数据采集框架搭建》提到如何搭建一个社 ... -
基于HttpClient4.0的网络爬虫基本框架(Java实现)
2014-05-26 00:36 1387实现语言:Java 模拟HT ... -
社会化海量数据采集爬虫框架搭建
2014-05-26 00:37 858随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采 ... -
搜索引擎技术之概要预览(转)
2014-05-01 13:07 234前言 近些天在学 ... -
搜索引擎技术内幕之索引
2014-05-03 12:52 665搜索引擎中索引的好坏直接影响着搜索引擎的性能,最终影响到用 ... -
ubuntu13.10安装apache+svn+mysql+jdk+tomcat+php开发环境
2014-05-09 20:25 1004系统:Ubuntu 13.10 需要安装软件版本: ap ... -
分布式搜索方案选型(转)
2014-03-27 14:25 940分布式搜索方案选型 ... -
ubuntu12.04 卸载和安装mysql
2014-02-16 11:20 869卸载mysql 第一步 -
Ubuntu 12.04 搭建php开发环境
2014-02-16 11:21 893安装MySQL sudo apt-get inst ... -
Ubuntu 10.04 安装Twisted、Scrapy爬虫框架
2014-01-25 22:54 2065Ubuntu 10.04 安装Twisted、Scrapy爬 ... -
Java的索引-搜索引擎 IndexTank
2014-01-24 08:11 745IndexTank, 一套基于Java的索引-实时全文搜索 ... -
Lucene索引查看工具 Luke
2013-12-09 10:08 1073Luke 是查询LUCENE索引文件的工具, 而且用 Lu ... -
全文检索引擎 Sphinx
2013-12-05 09:36 1115Sphinx是一个基于SQL的全文检索引擎,可以结合MyS ... -
搜索引擎 Nutch
2013-12-31 14:52 1062Nutch 是一个开源Jav ... -
开源爬虫Labin,Nutch,Neritrix介绍和对比
2013-11-27 12:23 1351Larbin开发语言:C++http: ... -
Nutch相关框架安装使用最佳指南(转)
2013-12-02 09:34 1372Chinese installing and using ... -
使用Java调用百度搜索(转)
2014-03-17 17:27 1052search-demo托管于github ... -
使用Java调用谷歌搜索(转)
2014-03-19 08:53 1380search-demo托管于github ... -
分布式搜索算法,算法
2014-03-25 09:48 770对于搜索引擎来说,索引存放在成千上万台机器上,如何进行分布 ...
相关推荐
1.本次升级把记录搜索引擎蜘蛛爬行记录写到数据库中 2.采用了EasyASP类库 2010-12-12 1.本次升级增加了记录搜索引擎蜘蛛爬行时间和页面 2.把前端页面需要用到的函数封装到一个文件里面 2010-12-2 1.在文章分类...
调整 若是蜘蛛爬行不记录访问统计 不记录访问我的浏览历史记录 调整 商品搜索,订单搜索 调整 未登陆状态下且必须要会员登录才能支付的情况下会员登陆后 由直接跳转到会员中心改为跳转到购物车 调整 购物车购买->...
- **PageRank 更新记录**:如http://www.seocompany.ca/pagerank/page-rank-update-list.html,提供Google PageRank 更新的历史记录,有助于了解Google算法的变化趋势。 #### 10. 其他工具 - **Xenu Link Sleuth**...
- **功能描述:** 模拟搜索引擎蜘蛛爬行,检测网页是否正常被抓取。 - **使用场景:** 调试网站代码,确保搜索引擎友好。 **3.5 搜索引擎抓取页面数量统计器** - **网址:** [http://www.marketleap.com/publinkpop/]...
小刮刮是一个为遍历爬行网站、分解获取数据而设计的应用程序框架,它可以应用在广泛领域:数据挖掘、信息处理和或者历史片(历史记录)打包等等。 尽管小刮刮原本是设计用来屏幕抓取(更精确的说,是网络抓取)的...
手动映射阶段包括通过浏览器映射应用程序,填充代理历史和站点地图的内容,自动蜘蛛爬行以推断未映射内容等。自动化映射阶段使用BurpSuite的自动蜘蛛功能来遍历应用程序的链接。最后,分析阶段会填充代理服务器的...
2. **历史记录选项卡(History tab)**:记录所有通过代理的请求和响应,方便后续分析。 3. **Spider控制选项(Control tab)**:配置爬虫参数,如爬行深度、速度限制等,控制Burp Spider的爬行过程。 4. **Spider结果**...
2. 网站IIS日志维护:分析网站IIS日志,蜘蛛爬行日志,对网站进行相应调整。 知识点:网站IIS日志维护的重要性、蜘蛛爬行日志的作用。 3. 网站流量监控:通过对网站IP、PV量的统计,分析流量来源,制定下一步优化...
3. 化石在生物进化中的证据作用:化石是研究生物进化最直接的证据,它们记录了生物历史的变迁。 4. 生物分类系统:生物分类的基本单位是种,最高单位是界。林耐的双命名法规定每个物种的学名由属名和种名两部分组成...
通过分析历史数据,包括LOG日志、蜘蛛爬行记录、搜索引擎流量以及特定关键词的流量,可以了解网站当前的表现和用户行为模式。根据这些数据,需要进行关键词研究,找出行业相关的关键词并估算其每日搜索量,以便制定...
2. IIS日志维护:分析日志,了解搜索引擎蜘蛛的爬行行为,进行必要调整。 3. 流量监控:统计IP和PV,分析流量来源,为后续优化提供数据支持。 这个优化方案覆盖了从基础诊断到深入优化再到推广和维护的全过程,...
爬行是整个流程的起点,搜索引擎通过一组被称为“网络爬虫”或“蜘蛛”的自动化程序来遍历互联网上的网页。这些爬虫遵循网站间的链接关系,从一个网页跳转到另一个网页,抓取页面内容并记录URL。 当爬虫访问一个...
独有利于Alexa收录的info.txt文件和搜索引擎蜘蛛爬行文件Robots.txt 模板程序分离,网站频道、栏目、内容页META关键词、网站META网页描述均为调用标签,利于网站的收录量并大大缩短了页面收录的时间更便于网站的...
3. 生物进化的证据:化石是研究生物进化最直接、最重要的证据,它们记录了生物的历史,展示了生物形态和生活方式的变化。 4. 自然选择与人工选择的区别:自然选择是由环境因素驱动的,而人工选择是人类根据需求对...
独有利于Alexa收录的info.txt文件和搜索引擎蜘蛛爬行文件Robots.txt 模板程序分离,网站频道、栏目、内容页META关键词、网站META网页描述均为调用标签,利于网站的收录量并大大缩短了页面收录的时间更便于网站的自动...
独有利于Alexa收录的info.txt文件和搜索引擎蜘蛛爬行文件Robots.txt 模板程序分离,网站频道、栏目、内容页META关键词、网站META网页描述均为调用标签,利于网站的收录量并大大缩短了页面收录的时间更便于网站的自动...
独有利于Alexa收录的info.txt文件和搜索引擎蜘蛛爬行文件Robots.txt 模板程序分离,网站频道、栏目、内容页META关键词、网站META网页描述均为调用标签,利于网站的收录量并大大缩短了页面收录的时间更便于网站的自动...
这个过程中,Google的“爬虫”程序(也称为网络蜘蛛)无休止地在网络中爬行,寻找新的、更新的内容。它们遵循URL链接,但也会受到robots.txt文件的限制,避免访问网站主人不希望被索引的部分。同时,Google会根据...