`
dengyin2000
  • 浏览: 1228577 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

有没有什么rss crawl,或者web crawl也行

阅读更多
公司想要做个 rss crawl去www上的爬所有的rss link的地址,这个想法跟web crawl类似。把爬得的rss地址保存起来。

不知道有没有人知道没有现成的open source的rss crawl或者 web crawl也行呀

谢谢
分享到:
评论
10 楼 dengyin2000 2007-07-13  


javaeye的首页是有的。。

引用
大量的RSS链接还是要一定的规则自己从网页上搞下来的,如何搞?这大概应该归到information extract里面了。


这样的化就很麻烦了。。
9 楼 javaeyes 2007-07-13  
RSS Feed autodiscovery这需要提供RSS链接点的网站在网页上加上额外标签,使RSS阅读器能自动的识别这些标签并添加。但是在中国有多少提供了RSS的网站页提供了这样的标签呢 ?
我认为这个标签只能提供一部分的RSS,大量的RSS链接还是要一定的规则自己从网页上搞下来的,如何搞?这大概应该归到information extract里面了。
8 楼 dengyin2000 2007-07-08  
呵呵  不知道你有没有用过一些浏览器, 他会自动提示你本页中有rss feed问你要不要添加。。


你可以看看
http://dengyin2000.iteye.com/admin/show/47431

这篇文章导入javaeye上完全变乱了。  建议你搜索下  RSS Feed autodiscovery。 你就会明白了。

7 楼 javaeyes 2007-07-07  
你说的那个filter比较难实现一点,全网获取RSS源一些策略啊,一张网页上的连接很难确定是否RSS的链接,感觉就如大海捞针
6 楼 dengyin2000 2007-07-02  
javaeyes 写道
不知道你是要找到rss源,还是要把RSS里面的链接找出来用spider下载 ?


呵呵  两个都需要。 通过filter找到网页中的rss 地址, 然后再把这些rss 地址的内容index出来
5 楼 javaeyes 2007-07-02  
不知道你是要找到rss源,还是要把RSS里面的链接找出来用spider下载 ?
4 楼 zhangyu8374 2007-06-11  
open source的parse一大把啊。基于Java就有几个,你搜搜看。

larbin不错,不过是基于C语言的。

nutch还是可以借鉴一下,它的Web Crawler实现起来代码还是很简洁。不过前提条件是你要对Hadoop熟。

3 楼 dengyin2000 2007-06-11  
javaeyes 写道
nutch 可做不了
自己做一个吧
什么时候的帖子。  按文档  nutch是可以做的。有自己的parse。 不过公司没有搞这个东西了。。
2 楼 javaeyes 2007-06-11  
nutch 可做不了
自己做一个吧
1 楼 叶子 2007-02-28  
nutch。。。

相关推荐

    webcrawl-2.4.3.zip

    看到淘宝各种优惠商品,各种秒杀商品, 各种整点价格很低的商品,是不是很开心,很兴奋 但是每一次好像用手都抢不到呢,有没有很气,非常气,特别气 知道你不开心,所以我来帮你一把 【软件介绍】 1》支持淘宝账号...

    webcrawl-2.3.9.7z试用版

    登录到自己的账号,导出自己买入或卖出的宝贝列表及详情,支持条件选择、订单过滤

    Google's Deep Web crawl

    ### Google的深网爬取技术解析 #### 摘要 ...由于它代表了网络上大量结构化数据的一部分,因此访问深网内容一直是数据库社区面临的长期挑战。...此外,这些技术也为未来的搜索引擎发展提供了新的思路和方向。

    java爬虫crawl4J代码

    Java爬虫技术是互联网数据挖掘的重要工具,Crawl4J作为一种轻量级、多线程的网络爬虫框架,为开发者提供了便捷的方式来构建自己的爬虫应用程序。本文将深入探讨Crawl4J的基本概念、核心功能以及如何使用它来实现网络...

    php爬虫系统crawl.zip

    php爬虫系统程序只支持CLI安装程序1....安装 php run install2.执行 php run run 13.清除项目数据 php run clear完整代码目录 crawl.sql │ LICENSE │ README ...└─web web目录 标签:crawl

    crawl_workspace

    【crawl_workspace】是一个关于网络爬虫工作空间的项目,它包含了一系列用于实现高效爬取、数据处理和通信的模块。这个项目的重点在于构建一个全面的爬虫生态系统,以支持大规模的网页抓取任务。 首先,我们来看...

    xici_ip_CRAWL_scrapy_

    在这个特定的项目"Xici_ip_CRAWL_scrapy_"中,开发人员可能创建了一个定制的Spider类,继承自Scrapy的BaseSpider或者更现代的Scrapy.Spider类。Spider会定义起始URL,以及如何解析网页内容以提取代理IP信息。这通常...

    多多商家导单专用webcrawl-v3.4.2.zip

    综合以上分析,我们可以推断"多多商家导单专用webcrawl-v3.4.2"是一个集成V8引擎、CEF框架、Excel处理和图形优化的软件,主要用于拼多多商家的数据抓取、订单管理或者数据分析。它可能提供了一个用户友好的界面,...

    ApMl.rar_CRAWL_classify Bayes_naive bayes_naive bayes for web

    ApMl provides users with the ability to crawl the web and download pages to their computer in a directory structure suitable for a Machine Learning system to both train itself and classify new ...

    nutch crawl代码解析

    Apache Nutch 是一个流行的开源网络爬虫项目,用于抓取和索引互联网上的网页。在深入理解 Nutch 的工作原理之前,了解其...对于想要深入了解 Nutch 或者想要定制 Nutch 功能的人来说,研究 `Crawl` 类的源码至关重要。

    crawl_greek_time.zip

    【压缩包子文件的文件名称列表】:"crawl_greek_time":由于没有具体的子文件名,我们无法详细分析每个文件的具体内容。通常,一个爬虫项目可能包含以下组件: - `spider.py` 或 `main.py`:主爬虫脚本,包含爬取...

    多多商家导单专用webcrawl-v3.3.6.zip

    标题“多多商家导单专用webcrawl-v3.3.6.zip”揭示了这是一个针对拼多多商家设计的订单导入工具,版本为v3.3.6。这个压缩包可能包含了一个用于爬取、处理和管理商家订单数据的软件或脚本。 描述中的信息与标题相同...

    dianshijia_officialNewlive_web_crawl_sjb_3.10.22_r.apk

    dianshijia_officialNewlive_web_crawl_sjb_3.10.22_r.apk

    crawl-web-english

    标题 "crawl-web-english" 暗示了这个项目是一个关于网络爬虫的实践案例,主要使用了Node.js和Puppeteer库来抓取特定网页数据。在这个场景中,目标是获取亚马逊网站上最后五部iPhone产品的信息。下面将详细解释相关...

    nutch 爬到的CSDN数据 nutch crawl

    Nutch 是一个开源的全文搜索引擎框架,主要用于网络爬虫的开发。它由 Apache 软件基金会...文件列表 "csdns" 可能包含了抓取到的 CSDN 网页的原始数据或者处理后的索引文件,这些数据对于进一步的研究和分析非常宝贵。

    wlpc.rar_CRAWL_java网络爬虫_web crawler_爬虫

    网络爬虫,也被称为Web爬虫或Web机器人,是一种自动浏览互联网并抓取网页内容的程序。在Java中实现网络爬虫,可以让我们方便地获取大量网页数据,用于数据分析、信息提取、搜索引擎优化等多个领域。本项目“wlpc.rar...

    webCrawl

    10. **前端交互**:虽然主要关注后端,但WebCrawl可能也涉及前端交互,如JavaScript,用于处理用户事件、表单验证或动态更新页面内容。了解基本的前端技术可以帮助提升用户体验。 通过研究和实践WebCrawl项目,...

    码云上的文本分析-Listed-company-news-crawl-and-text-analysis-master.zip

    码云上的文本分析-Listed-company-news-crawl-and-text-analysis-master.zip

    前端开源库-browserify-crawl

    1. **模块化管理**:如果你的项目中包含大量的JavaScript文件,每个文件都有独立的模块,浏览器ify-crawl可以帮助你将这些模块整合到一个文件中,便于管理和加载。 2. **依赖解析**:Browserify-crawl能够自动解析...

    把多次用nutch_crawl获得的所有目录合并在一起

    在Nutch的爬取过程中,每次`nutch crawl`操作都会生成一个新的目录,包含爬取的网页数据、链接数据库(linkdb)、网页数据库(crawldb)和索引文件。当需要将多次爬取的结果合并成一个统一的数据库时,可以使用`...

Global site tag (gtag.js) - Google Analytics