精华帖 (0) :: 良好帖 (1) :: 新手帖 (0) :: 隐藏帖 (6)
|
|
---|---|
作者 | 正文 |
发表时间:2011-03-07
Hi All,
这次代码就不公开了, 毕竟是抓取别人的内容....,其实也没啥, 都是普通的东西:
gem 'rails' gem 'mysql2' gem 'capistrano' gem 'devise' gem 'em-http-request' gem 'haml' gem 'resque' gem 'will_paginate', '~> 3.0.pre2' gem 'acts_as_commentable', '~> 3.0.1' gem 'paperclip' gem 'sitemap_generator' PS: 怎么增加网站的PR ? 这个站都挂了有20多天了吧 ? PR 还是 0 .... google 也太不给面子了 , 我白提交了100多w的 sitemap , 一点儿都不照顾....
声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2011-03-08
支持一下,有没有办法爬天涯,
专门针对天涯做一个搜索引擎, 现在的天涯搜索太不好用了。 |
|
返回顶楼 | |
发表时间:2011-03-08
ps,试用了一下,
complaint一下 首页一直向下倒的功能, 当我想仔细看一个帖子的时候, 需要找到停止这种向下倒的功能, 这种向下倒的功能对于新手来说, 使得注意到,是一个方式,当时 对于老手,确是一个hindrance. |
|
返回顶楼 | |
发表时间:2011-03-08
@femto, 你说的对, 这个首页确实有问题, 不少人跟我抱怨了, 我准备改成更简单的方式 , 谢谢! 对于天涯论坛的搜索, 确实存在问题, 其实用google搜也很难得到想要的结果, 这跟天涯的内容结构有关系, 以前每页200个发言, 现在改成了 100个, 每个发言都是独立的, 每个都有自己的重点(keywords), 这种到处是关键词导致了没有关键词, 呵呵, 估计 搜索也无解...
|
|
返回顶楼 | |
发表时间:2011-03-10
你把天涯的爬下来啊,然后针对之做个搜索。
其实就是等于做个google,不过全站就是天涯。。 |
|
返回顶楼 | |
发表时间:2011-03-11
femto 写道
你把天涯的爬下来啊,然后针对之做个搜索。
其实就是等于做个google,不过全站就是天涯。。 天涯这么多年的数据量也是够大的,没有大的存储没法实现.我做了个变通, 只抓关心的帖子, 对帖子的内容做了处理.然后把需要搜索的内容放到 /robots.txt 的 sitemap 里, google 搜索时对 sitemap 有优化, 现在天涯路搜索的那个链接实际上是 Google 自定义搜索, 这样 比直接搜索天涯要准确些...
User-Agent: * Disallow: /system/ Disallow: /javascripts/ Disallow: /images/ Disallow: /stylesheets/ Sitemap: http://tianya.lu/sitemap_index.xml.gz
|
|
返回顶楼 | |
发表时间:2011-03-12
注册后总收不到确认邮件
|
|
返回顶楼 | |
发表时间:2011-03-12
不见得 写道
femto 写道
你把天涯的爬下来啊,然后针对之做个搜索。
其实就是等于做个google,不过全站就是天涯。。 天涯这么多年的数据量也是够大的,没有大的存储没法实现.我做了个变通, 只抓关心的帖子, 对帖子的内容做了处理.然后把需要搜索的内容放到 /robots.txt 的 sitemap 里, google 搜索时对 sitemap 有优化, 现在天涯路搜索的那个链接实际上是 Google 自定义搜索, 这样 比直接搜索天涯要准确些...
User-Agent: * Disallow: /system/ Disallow: /javascripts/ Disallow: /images/ Disallow: /stylesheets/ Sitemap: http://tianya.lu/sitemap_index.xml.gz 买几个几T的硬盘,嘿嘿
|
|
返回顶楼 | |
发表时间:2011-03-12
pr 通常三个月更新一次,上次更新是在过年前后。所以你还要再等等了。
|
|
返回顶楼 | |
发表时间:2011-03-14
买几个几T的硬盘,嘿嘿
|
|
返回顶楼 | |