Java开源RSS组件包(Java Open Source RSS Lib Packages)
* RSSLibJ
RSSLibJ是一个专门读取和生成RSS的小巧实用的Java库,大小仅25k。
* RSSLib4J
RSSLib4J 是一套用于从RSS Feed解析和检索信息的Java API。它支持RSS version0.9x ,1.0和2.0规范,Doublin内核和Syndication名字空间。
* BlogBridge
BlogBridge是一个RSS阅读器/合成器,专为阅读和处理大量RSS feed的人而提供。这些典型的有Weblogs, 但也有其它类型的RSS feed。
* Flock
Flock是一种RSS/RDF用Java编写的信息集成器。它是一种server-side应用程序,带有一个浏览器。
* RSSOwl
RSSOwl 是一个完全用 Java 的SWT快速图形库开发的 RSS / RDF / Atom
新闻阅读器。按类别读取新闻,分类存储收藏信息,导出为 PDF / RTF / HTML / OPML,从
OPML格式导入,支持全文本搜索,使用Internet浏览器。
* Informa
Informa提供一个基于Java的RSS类库.它支持导出,导入,存储,搜索等。
* Jena
Jena
是一个由HP实验室开发的表示和处理半结构化数据(主要是基于RDF的管理、查询等)的Java开源项目。目前是Jena2版本,Jena1做到了支持
RDF的数据表达、解析、查询(采用RDQL)和简单的推理,Jena2的目标在支持本体(包括DAML、RDFS和OWL的应用程序接口API)。
* RSS Reader
RSS Reader提供了一个Java API和一个图形客户端来分析与显示RSS格式的内容。
* Schema
Schema是一个利用RDF与RDF Schema进行存储,查询,讨论(reasoning )的Java开源框架.Sesame既可以当作RDF与 RDF Schema的数据库或当作一个Java 库用来为应用程序提供RDF的功能.
* RSS Notifier
RSS Notifier是一个RSS Feed阅读器,它设计成一个Window托盘程序随Windows的启动一起加载.它用基于使用RSS文件的新闻订阅方式来阅读即时新闻.
* Sesame
inferencing是一个用于存储,查询,解析RDF的Java框架.它可被配置作为一个web服务器或当一个Java包来使用.它的特点包括3种查询语言(SeRQL, RQL, RDQL),支持内存(RAM),磁盘(disk),与RDBMS存储.
* FaceRSS
FaceRSS是一个简单的JSF组件,它可以从指定的RSS url读取新闻并展示出来。 FaceRSS基于rsslib4j这个开源包进行构建所以它支持RSS 0.9x,1.0,和2.0。
* ROME
ROME是一组Atom/RSS工具类它使得用Java来操作大部份syndication格式变得更加容易:
# RSS 0.90
# RSS 0.91 Netscape
# RSS 0.91 Userland
# RSS 0.92
# RSS 0.93
# RSS 0.94
# RSS 1.0
# RSS 2.0
# Atom 0.3
# Atom 1.0
ROME不仅包括各种syndication feeds的解析器与生成器,而且还包括能够把一种格式转换成另外一种格式的转换器。
* HORRORss
HORRORss是一个简单的RSS(RSS0.9x,RSS.0,RSS2.0)解析包。它支持Atom feeds,但并没有完全符合Atom规范。只能支持一些基本的feed元素:title,link,author,和description。
上面我们看到了一份 RSS Lib 列表,Java 的类库就是丰富,而且都是开源的。
这么多让我眼花缭乱,用哪个呢?再转贴一份评测吧,这篇评测来自:http://www.yangzhe.net/blog/index.php/20050915/21.html
我的目标是做一个简单的portlet,每次读取新浪的RSS站点显示最新的新闻条目。
花了一个下午,去sourceforge和google 上搜索 opensource 的 java rss
lib,还真有不少(顺便提一下,sourceforget的搜索真的很烂)。简单过滤以后,觉得以下三个类库比较有搞头。Rome
、rssutils和rsslib4j。具体的评测如下:
一. Rome
Rome 是 java.net
上的一个开源项目,现在的版本是0.5。为什么叫Rome呢,按它的介绍上的说法,有个“条条大路通罗马”的意思,有些RSS的意味。Rome可能是
sun 公司从自己某个子项目中抽离出来的,package和类的命名就象j2sdk一样感觉规范。功能上支持RSS的所有版本及 Atom
0.3(Atom是和RSS类似的一种内容聚合的方式)。Rome 本身是提供API和功能实现,其下独立出一个 rome-fetcher
项目,专门用来读取RSS内容。正和我意啊。
参照 fetcher 上的范例,解析 RSS 相当简单,代码片断如下:
- FeedFetcher fetcher =
new
HttpURLFeedFetcher();
- SyndFeed feed = fetcher.retrieveFeed(feedUrl);
- System.out.println(feedUrl + ” has a title: ” + new
String(feed.getTitle().getBytes(”iso8859-
1
″), “utf-
8
″) + ” and contains “ + feed.getEntries().size() + ” entries.”);
- for
(Iterator iter = feed.getEntries().iterator(); iter.hasNext(); ) {
- SyndEntry entry = (SyndEntry) iter.next();
- System.out.println(”" + entry.getTitle() + “[” + entry.getPublishedDate() + “]”);
- }
FeedFetcher fetcher = new HttpURLFeedFetcher();
SyndFeed feed = fetcher.retrieveFeed(feedUrl);
System.out.println(feedUrl + ” has a title: ” + new String(feed.getTitle().getBytes(”iso8859-1″), “utf-8″) + ” and contains “ + feed.getEntries().size() + ” entries.”);
for (Iterator iter = feed.getEntries().iterator(); iter.hasNext(); ) {
SyndEntry entry = (SyndEntry) iter.next();
System.out.println(”" + entry.getTitle() + “[” + entry.getPublishedDate() + “]”);
}
为什么用 new String(feed.getTitle().getBytes(”iso8859-1″), “utf-8″)
进行转码,是因为Rome来解析 新浪新闻 RSS的时候试图从 URLConnection 的 header 中得到编码信息,否则总是用
iso8859-1。而新浪的RSS response header 中不包含编码信息,所以要做一番转码。另外还有就是
entry.getPubDate() 也将返回null,因为Rome 用多种pattern
去试图解析时间信息,新浪的时间格式还是符合RFC822的,但是Rome 使用SimpleDateFormat 来解析时间,它忘记了一点,就是
SimpleDateFormat的解析是关联于 Locale
的,所以由于我本地locale是China,SimpleDateFormat的parse方法解析不出英文的时间字符。以上代码前加
Locale.setDefault(Locale.Englisth) 可以搞定,但总觉得不爽。
如果也不想转码的话,Rome 还提供了一个 XmlReader 的类,通过分析 header 和 xml 内容推断 encoding,修改 HttpURLFeedFetcher 的源码 :
-
-
- XmlReader reader = new
XmlReader(connection);
- SyndFeedInput input = new
SyndFeedInput();
- SyndFeed feed = input.build(reader);
// 改变 InputStreamReader , 换用 XmlReader
//InputStreamReader reader = new InputStreamReader(is, ResponseHandler.getCharacterEncoding(connection));
XmlReader reader = new XmlReader(connection);
SyndFeedInput input = new SyndFeedInput();
SyndFeed feed = input.build(reader);
那么中文不用转码也能正确显示了,不过修改源码后我再解析 百度新闻 RSS 的时候,底层的JDOM却会抱错说xml 格式不正确。也许Rome的开发者也遇到过这样的问题,所以才没有使用 XmlReader。
二. rssutils
它是一个工具包,sun 的 develope站点上有文章 RSS Utilities: A Tutorial 专门介绍用taglib
显示RSS内容,附带的可以下载这个工具包,但我从网上搜索不到它的出处,自然也无法看到它的源码。但从反编译的代码来看,也是sun公司内部高手所做,
设计精巧,代码简练。实现一个handler,用sax的方式解析xml内容,handler内部用反射和javabean的机制构造RSS元素对象并赋
值。代码片断如下:
- RssParser parser =
new
RssParserImpl();
- Rss rss = parser.parse(new
URL(url));
- System.out.println(rss.getChannel().getTitle());
- for
(Iterator iter = rss.getChannel().getItems().iterator(); iter.hasNext();) {
- Item item = (Item)iter.next();
- System.out.println(”" + item.getTitle() + ” ” + item.getPubDate());
- }
RssParser parser = new RssParserImpl();
Rss rss = parser.parse(new URL(url));
System.out.println(rss.getChannel().getTitle());
for (Iterator iter = rss.getChannel().getItems().iterator(); iter.hasNext();) {
Item item = (Item)iter.next();
System.out.println(”" + item.getTitle() + ” ” + item.getPubDate());
}
如上所示,代码也是相当简单,没有转码的需求,时间也正确显示(因为根本没做分析,当字符串直接返回)。但是该工具包并非真正对外公布,代码中有
些不严谨的地方,如System.out的输出,很不爽。而且如果 RSS 的
xml内容如果缺少部分不常用元素,它也会printStackTrace一大串,服了它了。另外还有一个大问题,就是当我用它解析
百度新闻的时候,直接就报错:org.xml.sax.SAXParseException: 字符转换错误:“Unconvertible
UTF-8 character beginning with 0xb0”。网上查了查,可能是 java 修改过的 UTF-8 和标准
UTF-8 些微不兼容导致。详情参看 Java 平台中的增补字符 一文。
三. rsslib4j
rsslib4j 是 sourceforget 上的项目,主页是 http://sourceforge.net/projects/rsslib4j,现在最新的版本是0.2,才0.2,可是开发状态却已经是稳定产品化了。同样支持所有RSS版本。
rsslib4j 解析 RSS 的方式和 rssutils 一样,我看了看源码,设计比较简单,代码可读性一般,大量使用if。代码片断如下:
- RSSHandler hand =
new
RSSHandler();
- RSSParser.parseXmlFile(new
URL(url), hand,
false
);
- RSSChannel ch = hand.getRSSChannel();
- System.out.println(ch.toString());
- LinkedList lst = hand.getRSSChannel().getItems();
- for
(
int
i =
0
; i RSSItem itm = (RSSItem) lst.get(i);
- System.out.println(itm.toString());
- }
RSSHandler hand = new RSSHandler();
RSSParser.parseXmlFile(new URL(url), hand, false);
RSSChannel ch = hand.getRSSChannel();
System.out.println(ch.toString());
LinkedList lst = hand.getRSSChannel().getItems();
for (int i = 0; i RSSItem itm = (RSSItem) lst.get(i);
System.out.println(itm.toString());
}
看起来也是相当清晰易懂,执行结果也和rssutils一样,不过用它来解析 百度新闻 却不会出现 rssutils
的utf-8编码错误,真是奇怪,两者都是调JAXP的 SAXParser 。不过它的代码也有bug,不能解析出 channel
的一些信息,查看源码,有点简单逻辑错误,修正后解决。想写封email给项目开发者可惜英文不行,通过cvs去commit一下也嫌麻烦,作罢。
总结
Rome:
优 - 1)可扩展性好,有前途。2)功能强大,除了用来解析RSS,还可以聚合和构造RSS。
劣 - 1)兼容性待加强,2)绑定jdom。为什么不喜欢 jdom呢,因为它api 老变,还很绝,搞得不兼容。
rssutils:
优 - 1)代码设计精妙,值得学习。2)附带 taglib 实现,直接可在 jsp 中应用。
劣 - 1)没有源码。 2)兼容性有待加强。 3)功能较弱,只能用来解析RSS,没有聚合和构造RSS功能。
rsslib4j:
优 - 1)简单有效,体积小。2)兼容性不错。
劣 - 1)有小bug。2)功能较弱,只能用来解析RSS,没有聚合和构造RSS功能。
编辑选择: rsslib4j
我只用来读读新浪新闻,rsslib4j 够用就好,不过要自己修改和编译源码。
另外我还找到了一个ThinFeeder: ThinFeeder is an open source software that
aims to provide a cross-platform, powerful and tiny RSS / Atom
(currently RSS 0.9x, RSS 1.0 / RDF, RSS 2.0 and Atom 0.3) aggregator
for desktop, using the Java development language. It has a few goals
that wants to make the reading news experience the most pleasant
possible:
* Anti-aliasing support on any Operating System
* Skins support
* Multi-language support:
o Catalan
o Dutch
o English
o Esperanto
o French
o German
o Lithuanian
o Portuguese (Brazil)
o Spanish
o Swedish
没看到 Chinese,那就算了。好了,就用 Rome 了。条条大道通罗马~,只要写一套代码就能输出下面各种格式:
- rss_0.
9
(RSS
0.90
)
- rss_0.91N (RSS 0.91
Netscape)
- rss_0.91U (RSS 0.91
Userland)
- rss_0.92
(RSS
0.92
)
- rss_0.93
(RSS
0.93
)
- rss_0.94
(RSS
0.94
)
- rss_1.0
(RSS
1.0
)
- rss_2.0
(RSS
2.0
)
- atom_0.3
(Atom
0.3
)
- atom_1.0
(Atom
1.0
)
分享到:
相关推荐
rss解析工具(开源) 博文链接:https://zjut2006.iteye.com/blog/72269
在Java的生态系统中,存在诸多著名的开源项目,这些项目各有特色,为Java开发人员提供了丰富的开发工具和应用架构。以下是对一些Java著名开源项目的详细介绍,它们分别在不同的开发领域中扮演着重要角色。 首先,...
这个JAVA实现的RSS订阅器利用了Spring MVC框架,提供了一个高效且灵活的解决方案来获取和显示RSS feed内容。Spring MVC是Spring框架的一个模块,专门用于构建Web应用程序,它采用Model-View-Controller(MVC)设计...
Java 源码包 Applet钢琴模拟程序java源码 2个目标文件,提供基本的音乐编辑功能。编辑音乐软件的朋友,这款实例会对你有所帮助。 Calendar万年历 1个目标文件 EJB 模拟银行ATM流程及操作源代码 6个目标文件,EJB来...
Java开源博客系统框架B3log,其核心项目Solo,是一个专为程序员设计的高质量博客平台。 Solo基于Java语言开发,体现了Java在Web开发领域的强大功能和广泛应用。它以专业、简约、稳定和极速的特点,吸引了众多技术...
根据提供的文件内容,我们可以提炼出一系列与Java开源WebMail相关的关键技术知识点。这些知识点广泛覆盖了WebMail服务的构建、邮件协议的应用、框架的使用以及界面与功能的设计等方面。 1. 开源WebMail 开源WebMail...
WDSsoft的一款免费源代码 JCT 1.0,它是一个Java加密解密常用工具包。 Java局域网通信——飞鸽传书源代码 28个目标文件 内容索引:JAVA源码,媒体网络,飞鸽传书 Java局域网通信——飞鸽传书源代码,大家都知道VB...
WDSsoft的一款免费源代码 JCT 1.0,它是一个Java加密解密常用工具包。 Java局域网通信——飞鸽传书源代码 28个目标文件 内容索引:JAVA源码,媒体网络,飞鸽传书 Java局域网通信——飞鸽传书源代码,大家都知道...
WDSsoft的一款免费源代码 JCT 1.0,它是一个Java加密解密常用工具包。 Java局域网通信——飞鸽传书源代码 28个目标文件 内容索引:JAVA源码,媒体网络,飞鸽传书 Java局域网通信——飞鸽传书源代码,大家都知道...
标题"基于Java的实例开发源码-makagiga(开源个人桌面软件 Makagiga).zip"指的是一个包含开源个人桌面软件Makagiga源代码的压缩文件。Makagiga是一个用Java语言编写的轻量级应用程序,它提供了多种功能,如便签、日历...
RSS开源代码JFEED下载是针对RSS(Really Simple Syndication)技术的一款开源项目,它提供了一个名为JFEED的API,使得开发者能够更方便地处理RSS馈送数据。本文将深入探讨RSS、JFEED API以及源代码的相关知识点,...
在开发过程中,为了简化RSS处理,出现了各种开源框架,其中ROME(Really Simple Syndication)是一个流行的Java库。 **ROME框架** ROME1.0是该框架的一个版本,它提供了对RSS和Atom feeds的全面支持。通过使用ROME...
### Java著名开源项目知识点概述 #### 一、Spring Framework - **定义与作用**:Spring是一个解决了许多在J2EE开发中常见问题的强大框架。它提供了管理业务对象的一致方法,并且鼓励开发者采用面向接口编程而不是...
WDSsoft的一款免费源代码 JCT 1.0,它是一个Java加密解密常用工具包。 Java局域网通信——飞鸽传书源代码 28个目标文件 内容索引:JAVA源码,媒体网络,飞鸽传书 Java局域网通信——飞鸽传书源代码,大家都知道...
2. **丰富的类库**:Java标准库提供了大量预先编写好的组件,如Swing用于构建图形用户界面,为Makagiga的开发提供了便利。 3. **内存管理和安全性**:Java的自动内存管理避免了内存泄漏问题,而其安全模型则保障了...
新浪RSS阅读器是一款基于Android平台的应用程序,它允许用户订阅并阅读来自...通过深入研究这个开源项目,开发者不仅可以学习到RSS订阅和解析的具体实现,还能掌握Android应用开发中的最佳实践,提升自己的编程技能。
Makagiga,一个基于Java技术的开源个人桌面软件,旨在提供一个高效、可定制的工作环境,集成了诸多实用功能,如任务管理、日历、便签、RSS阅读器等。本文将深入探讨Makagiga的核心特性、设计思想以及如何通过Java...