论坛首页 海阔天空论坛

有没有什么rss crawl,或者web crawl也行

浏览 7117 次
精华帖 (0) :: 良好帖 (0) :: 灌水帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2007-02-28  
公司想要做个 rss crawl去www上的爬所有的rss link的地址,这个想法跟web crawl类似。把爬得的rss地址保存起来。

不知道有没有人知道没有现成的open source的rss crawl或者 web crawl也行呀

谢谢
   发表时间:2007-02-28  
nutch。。。
0 请登录后投票
   发表时间:2007-06-11  
nutch 可做不了
自己做一个吧
0 请登录后投票
   发表时间:2007-06-11  
javaeyes 写道
nutch 可做不了
自己做一个吧
什么时候的帖子。  按文档  nutch是可以做的。有自己的parse。 不过公司没有搞这个东西了。。
0 请登录后投票
   发表时间:2007-06-11  
open source的parse一大把啊。基于Java就有几个,你搜搜看。

larbin不错,不过是基于C语言的。

nutch还是可以借鉴一下,它的Web Crawler实现起来代码还是很简洁。不过前提条件是你要对Hadoop熟。

0 请登录后投票
   发表时间:2007-07-02  
不知道你是要找到rss源,还是要把RSS里面的链接找出来用spider下载 ?
0 请登录后投票
   发表时间:2007-07-02  
javaeyes 写道
不知道你是要找到rss源,还是要把RSS里面的链接找出来用spider下载 ?


呵呵  两个都需要。 通过filter找到网页中的rss 地址, 然后再把这些rss 地址的内容index出来
0 请登录后投票
   发表时间:2007-07-07  
你说的那个filter比较难实现一点,全网获取RSS源一些策略啊,一张网页上的连接很难确定是否RSS的链接,感觉就如大海捞针
0 请登录后投票
   发表时间:2007-07-08  
呵呵  不知道你有没有用过一些浏览器, 他会自动提示你本页中有rss feed问你要不要添加。。


你可以看看
http://dengyin2000.iteye.com/admin/show/47431

这篇文章导入javaeye上完全变乱了。  建议你搜索下  RSS Feed autodiscovery。 你就会明白了。

0 请登录后投票
   发表时间:2007-07-13  
RSS Feed autodiscovery这需要提供RSS链接点的网站在网页上加上额外标签,使RSS阅读器能自动的识别这些标签并添加。但是在中国有多少提供了RSS的网站页提供了这样的标签呢 ?
我认为这个标签只能提供一部分的RSS,大量的RSS链接还是要一定的规则自己从网页上搞下来的,如何搞?这大概应该归到information extract里面了。
0 请登录后投票
论坛首页 海阔天空版

跳转论坛:
Global site tag (gtag.js) - Google Analytics