浏览 2649 次
精华帖 (0) :: 良好帖 (0) :: 灌水帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2007-12-07
A: http://www.iteye.com/topic/39 B: http://www.iteye.com/t/39.html A: http://www.iteye.com/article/9258 B: http://www.iteye.com/a/9258.html 。。。 虽然xxx.html为静态的页面,不会根据判断请求用户是否登录,但是 类似的,同一资源的uri地址还是应该考虑固定下来一个,不要提供多种形式, 否则搜索引擎将视为不同的资源进行抓取,无故给自己加大了好些压力。(翻倍啊) 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2007-12-07
静态化...?
|
|
返回顶楼 | |
发表时间:2007-12-07
是静态页面吧,不过你是怎么发现这些.html链接的?
|
|
返回顶楼 | |
发表时间:2007-12-07
Readonly 写道 是静态页面吧,不过你是怎么发现这些.html链接的?
“无意”中, http://www.iteye.com/a/t1.html 补充: 网站如果要把某些做静态化,这是没问题的。但是可以考虑他们使用的是同一个url, 服务器根据topicid或cookie信息判断实际是请求静态的html,还是从database计算出来: 比如:topicid<xxx的,或cookie显示还没有登录的到静态的地方去请求? 爬虫对网站的压力不可谓不小,所以可以考虑改善改善 或者再次之: 为这样的页面:http://www.iteye.com/a/t1.html,加上noindex,nofollow的标志 同时也为http://www.iteye.com/t/7462.html,加上noindex,nofollow的标志 |
|
返回顶楼 | |
发表时间:2007-12-07
补充2:
对这样的地址:http://www.iteye.com/post/426109 可以考虑,服务器判断post 426109对应的topic id xxx后 然后redirect给用户: http://www.iteye.com/topic/xxxx#426109 从而避免爬虫分别从http://www.iteye.com/topic/xxxx和http://www.iteye.com/post/426109 这2个入口爬同一个资源 这也能减少爬虫对网站的一些压力 ----------------- 我即得Robbin曾说被爬虫烦死了,以上作为自己的看法提供参考 |
|
返回顶楼 | |
发表时间:2007-12-07
早期考虑过动态页面静态化技术,所以做了一些静态页面。但是后来发现其实JavaEye的服务器完全支撑得起来几十万到上百万的访问量,所以静态化没有什么必要性,而且带来很多麻烦的问题,所以就弃之不用了。但是因为有些静态页面已经被搜索引擎索引,因此一直没有删除。等3.0上线以后,就清理掉吧。
静态页面由lighttpd直接处理掉,不会对服务器造成什么压力。就算垃圾爬虫,也不怕它爬静态页面,lighttpd支持上万的连接都没问题。 |
|
返回顶楼 | |
发表时间:2007-12-07
robbin 写道 因为有些静态页面已经被搜索引擎索引,因此一直没有删除 3.0删除之后,也不担心从搜索引擎过来的链接不会404 发现是/a/xxx.html,/t/xxx.html的,直接回送redirect请求到 /article/xxx, /topic/xxxx 不过既然是早期的做法,可能这些也不多了,渐渐也就从搜索引擎中沉了 |
|
返回顶楼 | |
发表时间:2007-12-07
几年前服务器POWER太弱, 所以都往STATIC PAGE方面优化.
现在CUP+RAM都UP了N倍, DYNAMIC PAGE可以应付了... |
|
返回顶楼 | |