`
dengyin2000
  • 浏览: 1236640 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

有没有什么rss crawl,或者web crawl也行

阅读更多
公司想要做个 rss crawl去www上的爬所有的rss link的地址,这个想法跟web crawl类似。把爬得的rss地址保存起来。

不知道有没有人知道没有现成的open source的rss crawl或者 web crawl也行呀

谢谢
分享到:
评论
10 楼 dengyin2000 2007-07-13  


javaeye的首页是有的。。

引用
大量的RSS链接还是要一定的规则自己从网页上搞下来的,如何搞?这大概应该归到information extract里面了。


这样的化就很麻烦了。。
9 楼 javaeyes 2007-07-13  
RSS Feed autodiscovery这需要提供RSS链接点的网站在网页上加上额外标签,使RSS阅读器能自动的识别这些标签并添加。但是在中国有多少提供了RSS的网站页提供了这样的标签呢 ?
我认为这个标签只能提供一部分的RSS,大量的RSS链接还是要一定的规则自己从网页上搞下来的,如何搞?这大概应该归到information extract里面了。
8 楼 dengyin2000 2007-07-08  
呵呵  不知道你有没有用过一些浏览器, 他会自动提示你本页中有rss feed问你要不要添加。。


你可以看看
http://dengyin2000.iteye.com/admin/show/47431

这篇文章导入javaeye上完全变乱了。  建议你搜索下  RSS Feed autodiscovery。 你就会明白了。

7 楼 javaeyes 2007-07-07  
你说的那个filter比较难实现一点,全网获取RSS源一些策略啊,一张网页上的连接很难确定是否RSS的链接,感觉就如大海捞针
6 楼 dengyin2000 2007-07-02  
javaeyes 写道
不知道你是要找到rss源,还是要把RSS里面的链接找出来用spider下载 ?


呵呵  两个都需要。 通过filter找到网页中的rss 地址, 然后再把这些rss 地址的内容index出来
5 楼 javaeyes 2007-07-02  
不知道你是要找到rss源,还是要把RSS里面的链接找出来用spider下载 ?
4 楼 zhangyu8374 2007-06-11  
open source的parse一大把啊。基于Java就有几个,你搜搜看。

larbin不错,不过是基于C语言的。

nutch还是可以借鉴一下,它的Web Crawler实现起来代码还是很简洁。不过前提条件是你要对Hadoop熟。

3 楼 dengyin2000 2007-06-11  
javaeyes 写道
nutch 可做不了
自己做一个吧
什么时候的帖子。  按文档  nutch是可以做的。有自己的parse。 不过公司没有搞这个东西了。。
2 楼 javaeyes 2007-06-11  
nutch 可做不了
自己做一个吧
1 楼 叶子 2007-02-28  
nutch。。。

相关推荐

Global site tag (gtag.js) - Google Analytics