精华帖 (0) :: 良好帖 (0) :: 灌水帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2007-02-28
不知道有没有人知道没有现成的open source的rss crawl或者 web crawl也行呀 谢谢 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2007-02-28
nutch。。。
|
|
返回顶楼 | |
发表时间:2007-06-11
nutch 可做不了
自己做一个吧 |
|
返回顶楼 | |
发表时间:2007-06-11
javaeyes 写道 nutch 可做不了
什么时候的帖子。 按文档 nutch是可以做的。有自己的parse。 不过公司没有搞这个东西了。。
自己做一个吧 |
|
返回顶楼 | |
发表时间:2007-06-11
open source的parse一大把啊。基于Java就有几个,你搜搜看。
larbin不错,不过是基于C语言的。 nutch还是可以借鉴一下,它的Web Crawler实现起来代码还是很简洁。不过前提条件是你要对Hadoop熟。 |
|
返回顶楼 | |
发表时间:2007-07-02
不知道你是要找到rss源,还是要把RSS里面的链接找出来用spider下载 ?
|
|
返回顶楼 | |
发表时间:2007-07-02
javaeyes 写道 不知道你是要找到rss源,还是要把RSS里面的链接找出来用spider下载 ?
呵呵 两个都需要。 通过filter找到网页中的rss 地址, 然后再把这些rss 地址的内容index出来 |
|
返回顶楼 | |
发表时间:2007-07-07
你说的那个filter比较难实现一点,全网获取RSS源一些策略啊,一张网页上的连接很难确定是否RSS的链接,感觉就如大海捞针
|
|
返回顶楼 | |
发表时间:2007-07-08
呵呵 不知道你有没有用过一些浏览器, 他会自动提示你本页中有rss feed问你要不要添加。。
你可以看看 http://dengyin2000.iteye.com/admin/show/47431 这篇文章导入javaeye上完全变乱了。 建议你搜索下 RSS Feed autodiscovery。 你就会明白了。 |
|
返回顶楼 | |
发表时间:2007-07-13
RSS Feed autodiscovery这需要提供RSS链接点的网站在网页上加上额外标签,使RSS阅读器能自动的识别这些标签并添加。但是在中国有多少提供了RSS的网站页提供了这样的标签呢 ?
我认为这个标签只能提供一部分的RSS,大量的RSS链接还是要一定的规则自己从网页上搞下来的,如何搞?这大概应该归到information extract里面了。 |
|
返回顶楼 | |