有没有什么rss crawl，或者web crawl也行

浏览 7117 次

锁定老帖子主题：有没有什么rss crawl，或者web crawl也行精华帖 (0) :: 良好帖 (0) :: 灌水帖 (0) :: 隐藏帖 (0)
作者	正文
dengyin2000 等级: 性别: 文章: 1467 积分: 1725 来自: 广州	发表时间：2007-02-28 相关推荐: XML读写、图片透明、CRC校验、MD5加密、注册表操作等DLL CRC16/IBM 算法亲测有效用于单片机的CRC数据校验方法 Modbus-RTU通讯协议中CRC校验码的计算步骤及算法代码 CRC校验码计算更多相关推荐工作公司想要做个 rss crawl去www上的爬所有的rss link的地址，这个想法跟web crawl类似。把爬得的rss地址保存起来。不知道有没有人知道没有现成的open source的rss crawl或者 web crawl也行呀谢谢声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

叶子等级: 初级会员性别: 文章: 3435 积分: 40 来自: 上海	发表时间：2007-02-28 nutch。。。
返回顶楼	回帖地址 0 0 请登录后投票

javaeyes 等级: 初级会员文章: 56 积分: 20 来自: ...	发表时间：2007-06-11 nutch 可做不了自己做一个吧
返回顶楼	回帖地址 0 0 请登录后投票

dengyin2000 等级: 性别: 文章: 1467 积分: 1725 来自: 广州	发表时间：2007-06-11 javaeyes 写道 nutch 可做不了自己做一个吧什么时候的帖子。按文档 nutch是可以做的。有自己的parse。不过公司没有搞这个东西了。。
返回顶楼	回帖地址 0 0 请登录后投票

zhangyu8374 等级: 性别: 文章: 76 积分: 220 来自: 北京	发表时间：2007-06-11 open source的parse一大把啊。基于Java就有几个，你搜搜看。 larbin不错，不过是基于C语言的。 nutch还是可以借鉴一下，它的Web Crawler实现起来代码还是很简洁。不过前提条件是你要对Hadoop熟。
返回顶楼	回帖地址 0 0 请登录后投票

javaeyes 等级: 初级会员文章: 56 积分: 20 来自: ...	发表时间：2007-07-02 不知道你是要找到rss源，还是要把RSS里面的链接找出来用spider下载？
返回顶楼	回帖地址 0 0 请登录后投票

dengyin2000 等级: 性别: 文章: 1467 积分: 1725 来自: 广州	发表时间：2007-07-02 javaeyes 写道不知道你是要找到rss源，还是要把RSS里面的链接找出来用spider下载？呵呵两个都需要。通过filter找到网页中的rss 地址，然后再把这些rss 地址的内容index出来
返回顶楼	回帖地址 0 0 请登录后投票

javaeyes 等级: 初级会员文章: 56 积分: 20 来自: ...	发表时间：2007-07-07 你说的那个filter比较难实现一点，全网获取RSS源一些策略啊，一张网页上的连接很难确定是否RSS的链接，感觉就如大海捞针
返回顶楼	回帖地址 0 0 请登录后投票

dengyin2000 等级: 性别: 文章: 1467 积分: 1725 来自: 广州	发表时间：2007-07-08 呵呵不知道你有没有用过一些浏览器，他会自动提示你本页中有rss feed问你要不要添加。。你可以看看 http://dengyin2000.iteye.com/admin/show/47431 这篇文章导入javaeye上完全变乱了。建议你搜索下 RSS Feed autodiscovery。你就会明白了。
返回顶楼	回帖地址 0 0 请登录后投票

javaeyes 等级: 初级会员文章: 56 积分: 20 来自: ...	发表时间：2007-07-13 RSS Feed autodiscovery这需要提供RSS链接点的网站在网页上加上额外标签，使RSS阅读器能自动的识别这些标签并添加。但是在中国有多少提供了RSS的网站页提供了这样的标签呢？我认为这个标签只能提供一部分的RSS，大量的RSS链接还是要一定的规则自己从网页上搞下来的，如何搞？这大概应该归到information extract里面了。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 海阔天空版

跳转论坛: