有没有什么rss crawl，或者web crawl也行

dengyin2000

浏览: 1236824 次
性别:
来自: 广州

最近访客更多访客>>

jis117

b0r0j082

txlong_onz

flyshadowhan

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java基础

Web Hadoop 浏览器 C C++

公司想要做个 rss crawl去www上的爬所有的rss link的地址，这个想法跟web crawl类似。把爬得的rss地址保存起来。

不知道有没有人知道没有现成的open source的rss crawl或者 web crawl也行呀

谢谢

分享到：

GWT整合SPRING | removed

2007-02-28 22:56
浏览 4004
评论(10)
论坛回复 / 浏览 (10 / 7130)
分类:非技术
查看更多

10 楼 dengyin2000 2007-07-13

javaeye的首页是有的。。

引用

大量的RSS链接还是要一定的规则自己从网页上搞下来的，如何搞？这大概应该归到information extract里面了。

这样的化就很麻烦了。。

9 楼 javaeyes 2007-07-13

RSS Feed autodiscovery这需要提供RSS链接点的网站在网页上加上额外标签，使RSS阅读器能自动的识别这些标签并添加。但是在中国有多少提供了RSS的网站页提供了这样的标签呢？
我认为这个标签只能提供一部分的RSS，大量的RSS链接还是要一定的规则自己从网页上搞下来的，如何搞？这大概应该归到information extract里面了。

8 楼 dengyin2000 2007-07-08

呵呵不知道你有没有用过一些浏览器，他会自动提示你本页中有rss feed问你要不要添加。。

你可以看看
http://dengyin2000.iteye.com/admin/show/47431

这篇文章导入javaeye上完全变乱了。建议你搜索下 RSS Feed autodiscovery。你就会明白了。

7 楼 javaeyes 2007-07-07

你说的那个filter比较难实现一点，全网获取RSS源一些策略啊，一张网页上的连接很难确定是否RSS的链接，感觉就如大海捞针

6 楼 dengyin2000 2007-07-02

javaeyes 写道

不知道你是要找到rss源，还是要把RSS里面的链接找出来用spider下载？

呵呵两个都需要。通过filter找到网页中的rss 地址，然后再把这些rss 地址的内容index出来

5 楼 javaeyes 2007-07-02

不知道你是要找到rss源，还是要把RSS里面的链接找出来用spider下载？

4 楼 zhangyu8374 2007-06-11

open source的parse一大把啊。基于Java就有几个，你搜搜看。

larbin不错，不过是基于C语言的。

nutch还是可以借鉴一下，它的Web Crawler实现起来代码还是很简洁。不过前提条件是你要对Hadoop熟。

3 楼 dengyin2000 2007-06-11

javaeyes 写道

nutch 可做不了
自己做一个吧

什么时候的帖子。按文档 nutch是可以做的。有自己的parse。不过公司没有搞这个东西了。。

2 楼 javaeyes 2007-06-11

nutch 可做不了
自己做一个吧

1 楼叶子 2007-02-28

nutch。。。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论