`

RSS读取生成

阅读更多

学习资料:   http://www.itxuexi.com/w3school/rss/rss_syntax.html

 

 

Java开源RSS组件包(Java Open Source RSS Lib Packages)



    * RSSLibJ

RSSLibJ是一个专门读取和生成RSS的小巧实用的Java库,大小仅25k。

    *  RSSLib4J

RSSLib4J 是一套用于从RSS Feed解析和检索信息的Java API。它支持RSS version0.9x ,1.0和2.0规范,Doublin内核和Syndication名字空间。

    * BlogBridge

BlogBridge是一个RSS阅读器/合成器,专为阅读和处理大量RSS feed的人而提供。这些典型的有Weblogs, 但也有其它类型的RSS feed。

    * Flock

Flock是一种RSS/RDF用Java编写的信息集成器。它是一种server-side应用程序,带有一个浏览器。

    * RSSOwl

RSSOwl 是一个完全用 Java 的SWT快速图形库开发的 RSS / RDF / Atom 新闻阅读器。按类别读取新闻,分类存储收藏信息,导出为 PDF / RTF / HTML / OPML,从 OPML格式导入,支持全文本搜索,使用Internet浏览器。

    * Informa

Informa提供一个基于Java的RSS类库.它支持导出,导入,存储,搜索等。

    * Jena

Jena 是一个由HP实验室开发的表示和处理半结构化数据(主要是基于RDF的管理、查询等)的Java开源项目。目前是Jena2版本,Jena1做到了支持 RDF的数据表达、解析、查询(采用RDQL)和简单的推理,Jena2的目标在支持本体(包括DAML、RDFS和OWL的应用程序接口API)。

    * RSS Reader

RSS Reader提供了一个Java API和一个图形客户端来分析与显示RSS格式的内容。

    * Schema

Schema是一个利用RDF与RDF Schema进行存储,查询,讨论(reasoning )的Java开源框架.Sesame既可以当作RDF与 RDF Schema的数据库或当作一个Java 库用来为应用程序提供RDF的功能.

    * RSS Notifier

RSS Notifier是一个RSS Feed阅读器,它设计成一个Window托盘程序随Windows的启动一起加载.它用基于使用RSS文件的新闻订阅方式来阅读即时新闻.

    * Sesame

inferencing是一个用于存储,查询,解析RDF的Java框架.它可被配置作为一个web服务器或当一个Java包来使用.它的特点包括3种查询语言(SeRQL, RQL, RDQL),支持内存(RAM),磁盘(disk),与RDBMS存储.

    * FaceRSS

FaceRSS是一个简单的JSF组件,它可以从指定的RSS url读取新闻并展示出来。 FaceRSS基于rsslib4j这个开源包进行构建所以它支持RSS 0.9x,1.0,和2.0。

    * ROME

ROME是一组Atom/RSS工具类它使得用Java来操作大部份syndication格式变得更加容易:
# RSS 0.90
# RSS 0.91 Netscape
# RSS 0.91 Userland
# RSS 0.92
# RSS 0.93
# RSS 0.94
# RSS 1.0
# RSS 2.0
# Atom 0.3
# Atom 1.0
ROME不仅包括各种syndication feeds的解析器与生成器,而且还包括能够把一种格式转换成另外一种格式的转换器。

    * HORRORss

HORRORss是一个简单的RSS(RSS0.9x,RSS.0,RSS2.0)解析包。它支持Atom feeds,但并没有完全符合Atom规范。只能支持一些基本的feed元素:title,link,author,和description。

上面我们看到了一份 RSS Lib 列表,Java 的类库就是丰富,而且都是开源的。
这么多让我眼花缭乱,用哪个呢?再转贴一份评测吧,这篇评测来自:http://www.yangzhe.net/blog/index.php/20050915/21.html

我的目标是做一个简单的portlet,每次读取新浪的RSS站点显示最新的新闻条目。

花了一个下午,去sourceforge和google 上搜索 opensource 的 java rss lib,还真有不少(顺便提一下,sourceforget的搜索真的很烂)。简单过滤以后,觉得以下三个类库比较有搞头。Rome 、rssutils和rsslib4j。具体的评测如下:

一. Rome

Rome 是 java.net 上的一个开源项目,现在的版本是0.5。为什么叫Rome呢,按它的介绍上的说法,有个“条条大路通罗马”的意思,有些RSS的意味。Rome可能是 sun 公司从自己某个子项目中抽离出来的,package和类的命名就象j2sdk一样感觉规范。功能上支持RSS的所有版本及 Atom 0.3(Atom是和RSS类似的一种内容聚合的方式)。Rome 本身是提供API和功能实现,其下独立出一个 rome-fetcher 项目,专门用来读取RSS内容。正和我意啊。

参照 fetcher 上的范例,解析 RSS 相当简单,代码片断如下:

Java代码 复制代码
  1. FeedFetcher fetcher = new HttpURLFeedFetcher();   
  2. SyndFeed feed = fetcher.retrieveFeed(feedUrl);   
  3. System.out.println(feedUrl + ” has a title: ” + new String(feed.getTitle().getBytes(”iso8859-1″), “utf-8″) + ” and contains “ + feed.getEntries().size() + ” entries.”);   
  4. for (Iterator iter = feed.getEntries().iterator(); iter.hasNext(); ) {   
  5. SyndEntry entry = (SyndEntry) iter.next();   
  6. System.out.println(”" + entry.getTitle() + “[” + entry.getPublishedDate() + “]”);   
  7. }  
FeedFetcher fetcher = new HttpURLFeedFetcher();
SyndFeed feed = fetcher.retrieveFeed(feedUrl);
System.out.println(feedUrl + ” has a title: ” + new String(feed.getTitle().getBytes(”iso8859-1″), “utf-8″) + ” and contains “ + feed.getEntries().size() + ” entries.”);
for (Iterator iter = feed.getEntries().iterator(); iter.hasNext(); ) {
SyndEntry entry = (SyndEntry) iter.next();
System.out.println(”" + entry.getTitle() + “[” + entry.getPublishedDate() + “]”);
}



为什么用 new String(feed.getTitle().getBytes(”iso8859-1″), “utf-8″) 进行转码,是因为Rome来解析 新浪新闻 RSS的时候试图从 URLConnection 的 header 中得到编码信息,否则总是用 iso8859-1。而新浪的RSS response header 中不包含编码信息,所以要做一番转码。另外还有就是 entry.getPubDate() 也将返回null,因为Rome 用多种pattern 去试图解析时间信息,新浪的时间格式还是符合RFC822的,但是Rome 使用SimpleDateFormat 来解析时间,它忘记了一点,就是 SimpleDateFormat的解析是关联于 Locale 的,所以由于我本地locale是China,SimpleDateFormat的parse方法解析不出英文的时间字符。以上代码前加 Locale.setDefault(Locale.Englisth) 可以搞定,但总觉得不爽。

如果也不想转码的话,Rome 还提供了一个 XmlReader 的类,通过分析 header 和 xml 内容推断 encoding,修改 HttpURLFeedFetcher 的源码 :

Java代码 复制代码
  1. // 改变 InputStreamReader , 换用 XmlReader   
  2. //InputStreamReader reader = new InputStreamReader(is, ResponseHandler.getCharacterEncoding(connection));   
  3. XmlReader reader = new XmlReader(connection);   
  4. SyndFeedInput input = new SyndFeedInput();   
  5. SyndFeed feed = input.build(reader);  
// 改变 InputStreamReader , 换用 XmlReader
//InputStreamReader reader = new InputStreamReader(is, ResponseHandler.getCharacterEncoding(connection));
XmlReader reader = new XmlReader(connection);
SyndFeedInput input = new SyndFeedInput();
SyndFeed feed = input.build(reader);



那么中文不用转码也能正确显示了,不过修改源码后我再解析 百度新闻 RSS 的时候,底层的JDOM却会抱错说xml 格式不正确。也许Rome的开发者也遇到过这样的问题,所以才没有使用 XmlReader。

二. rssutils

它是一个工具包,sun 的 develope站点上有文章 RSS Utilities: A Tutorial 专门介绍用taglib 显示RSS内容,附带的可以下载这个工具包,但我从网上搜索不到它的出处,自然也无法看到它的源码。但从反编译的代码来看,也是sun公司内部高手所做,设计精巧,代码简练。实现一个handler,用sax的方式解析xml内容,handler内部用反射和javabean的机制构造RSS元素对象并赋值。代码片断如下:

Java代码 复制代码
  1. RssParser parser = new RssParserImpl();   
  2. Rss rss = parser.parse(new URL(url));   
  3. System.out.println(rss.getChannel().getTitle());   
  4. for (Iterator iter = rss.getChannel().getItems().iterator(); iter.hasNext();) {   
  5. Item item = (Item)iter.next();   
  6. System.out.println(”" + item.getTitle() + ” ” + item.getPubDate());   
  7. }  
RssParser parser = new RssParserImpl();
Rss rss = parser.parse(new URL(url));
System.out.println(rss.getChannel().getTitle());
for (Iterator iter = rss.getChannel().getItems().iterator(); iter.hasNext();) {
Item item = (Item)iter.next();
System.out.println(”" + item.getTitle() + ” ” + item.getPubDate());
}



如上所示,代码也是相当简单,没有转码的需求,时间也正确显示(因为根本没做分析,当字符串直接返回)。但是该工具包并非真正对外公布,代码中有些不严谨的地方,如System.out的输出,很不爽。而且如果 RSS 的 xml内容如果缺少部分不常用元素,它也会printStackTrace一大串,服了它了。另外还有一个大问题,就是当我用它解析 百度新闻的时候,直接就报错:org.xml.sax.SAXParseException: 字符转换错误:“Unconvertible UTF-8 character beginning with 0xb0”。网上查了查,可能是 java 修改过的 UTF-8 和标准 UTF-8 些微不兼容导致。详情参看 Java 平台中的增补字符 一文。

三. rsslib4j

rsslib4j 是 sourceforget 上的项目,主页是 http://sourceforge.net/projects/rsslib4j,现在最新的版本是0.2,才0.2,可是开发状态却已经是稳定产品化了。同样支持所有RSS版本。

rsslib4j 解析 RSS 的方式和 rssutils 一样,我看了看源码,设计比较简单,代码可读性一般,大量使用if。代码片断如下:

Java代码 复制代码
  1. RSSHandler hand = new RSSHandler();   
  2. RSSParser.parseXmlFile(new URL(url), hand, false);   
  3. RSSChannel ch = hand.getRSSChannel();   
  4. System.out.println(ch.toString());   
  5. LinkedList lst = hand.getRSSChannel().getItems();   
  6. for (int i = 0; i RSSItem itm = (RSSItem) lst.get(i);   
  7. System.out.println(itm.toString());   
  8. }  
RSSHandler hand = new RSSHandler();
RSSParser.parseXmlFile(new URL(url), hand, false);
RSSChannel ch = hand.getRSSChannel();
System.out.println(ch.toString());
LinkedList lst = hand.getRSSChannel().getItems();
for (int i = 0; i RSSItem itm = (RSSItem) lst.get(i);
System.out.println(itm.toString());
}



看起来也是相当清晰易懂,执行结果也和rssutils一样,不过用它来解析 百度新闻 却不会出现 rssutils 的utf-8编码错误,真是奇怪,两者都是调JAXP的 SAXParser 。不过它的代码也有bug,不能解析出 channel 的一些信息,查看源码,有点简单逻辑错误,修正后解决。想写封email给项目开发者可惜英文不行,通过cvs去commit一下也嫌麻烦,作罢。

总结

Rome:
优 - 1)可扩展性好,有前途。2)功能强大,除了用来解析RSS,还可以聚合和构造RSS。
劣 - 1)兼容性待加强,2)绑定jdom。为什么不喜欢 jdom呢,因为它api 老变,还很绝,搞得不兼容。

rssutils:
优 - 1)代码设计精妙,值得学习。2)附带 taglib 实现,直接可在 jsp 中应用。
劣 - 1)没有源码。 2)兼容性有待加强。 3)功能较弱,只能用来解析RSS,没有聚合和构造RSS功能。

rsslib4j:
优 - 1)简单有效,体积小。2)兼容性不错。
劣 - 1)有小bug。2)功能较弱,只能用来解析RSS,没有聚合和构造RSS功能。

编辑选择: rsslib4j
我只用来读读新浪新闻,rsslib4j 够用就好,不过要自己修改和编译源码。
另外我还找到了一个ThinFeeder: ThinFeeder is an open source software that aims to provide a cross-platform, powerful and tiny RSS / Atom (currently RSS 0.9x, RSS 1.0 / RDF, RSS 2.0 and Atom 0.3) aggregator for desktop, using the Java development language. It has a few goals that wants to make the reading news experience the most pleasant possible:

    * Anti-aliasing support on any Operating System
    * Skins support
    * Multi-language support:
          o Catalan
          o Dutch
          o English
          o Esperanto
          o French
          o German
          o Lithuanian
          o Portuguese (Brazil)
          o Spanish
          o Swedish

没看到 Chinese,那就算了。好了,就用 Rome 了。条条大道通罗马~,只要写一套代码就能输出下面各种格式:

Java代码 复制代码
  1. rss_0.9 (RSS 0.90)   
  2. rss_0.91N (RSS 0.91 Netscape)   
  3. rss_0.91U (RSS 0.91 Userland)   
  4. rss_0.92 (RSS 0.92)   
  5. rss_0.93 (RSS 0.93)   
  6. rss_0.94 (RSS 0.94)   
  7. rss_1.0 (RSS 1.0)   
  8. rss_2.0 (RSS 2.0)   
  9. atom_0.3 (Atom 0.3)   
  10. atom_1.0 (Atom 1.0)  
rss_0.9 (RSS 0.90)
rss_0.91N (RSS 0.91 Netscape)
rss_0.91U (RSS 0.91 Userland)
rss_0.92 (RSS 0.92)
rss_0.93 (RSS 0.93)
rss_0.94 (RSS 0.94)
rss_1.0 (RSS 1.0)
rss_2.0 (RSS 2.0)
atom_0.3 (Atom 0.3)
atom_1.0 (Atom 1.0)

分享到:
评论

相关推荐

    RSS读取、生成通用类

    RSS读取和生成是处理这些数据的关键环节。以下将详细介绍标题和描述中提到的RSS通用类,并结合提供的文件名进行解析。 1. **RssReader.cs**: 这个类通常包含了读取RSS源的逻辑。它可能提供了方法,如`LoadFromUrl`...

    RSS发布(生成XML)和读取URL

    标题中的“RSS发布(生成XML)”和“读取URL”主要涉及的是RSS(Really Simple Syndication)技术,这是一种网络内容发布的格式,常用于博客、新闻网站等,使得用户可以通过RSS阅读器订阅并获取更新信息。RSS的核心是...

    读取rss依赖lib

    它提供了RSS和Atom解析器、生成器以及对这些格式的模型对象的访问。要使用Rome库,你需要在项目中添加`rome.jar`作为依赖。这通常可以通过在构建脚本(如Maven的pom.xml或Gradle的build.gradle)中指定依赖来完成。...

    【ASP.NET编程知识】ASP.NET读取RSS的方法.docx

    ASP.NET 读取 RSS 的方法可以用于生成新闻聚合、博客聚合、podcast 聚合等。 在 ASP.NET 中,读取 RSS 可以使用 XmlDocument 对象来加载 RSS 文档,然后使用 XPath 或 XmlNodeList 对象来提取所需的数据。在 ...

    利用Oracle JAVA 组件动态生成RSS 的方法

    这种方法的核心在于从数据库中读取数据,并将其转换成符合RSS规范的XML格式。 1. **数据库连接设置**: - 使用Oracle JDBC驱动建立数据库连接。 - 设计SQL查询语句以从指定表中获取相关信息。 2. **数据处理**:...

    C# VB .NET中条码识别读取条形码QR二维码生成和创建条码二维码生成的源码

    C#编写的实现条形码和QR二维码读取和生成的类库。支持读取QR Code,Aztec Code,Data Matrix,MaxiCode,USPS OneCode,IM Barcode; SharpBarcode也支持Code93,Code129,PDF417,Rss14,GS1,UPC-A,UPC-E,EAN-8,EAN-13,...

    利用Oracle JAVA组件动态生成RSS的方法.pdf

    具体而言,`JSPDBUtil`包下的`JavaBean`组件提供了丰富的数据库访问接口和操作方法,可以高效读取数据库中的信息,并根据预定义的RSS规则,动态生成符合标准的RSS文件。这种方法不仅简化了RSS文件的创建过程,还保证...

    .net RssFeed制作实例下载

    在生成RSS Feed时,可能需要从中读取一些配置参数。 2. App_Data:这是一个默认的ASP.NET文件夹,通常用来存放数据库文件或其他数据文件。在这个实例中,可能存放了RSS Feed的数据源,如XML文件或数据库。 3. Images...

    条形码生成器1.3

    《条形码生成器1.3:高效便捷的条形码制作工具》 在信息化管理日益普及的今天,条形码作为数据交换和追踪的重要媒介,已经深入到各行各业。条形码生成器1.3是一款专业且易用的软件,旨在帮助用户快速、精准地生成...

    Go-GoLang一个RSS2.0和iTunes播客生成器

    播客生成器需要能够读取并解析这些数据源,将其转换为内部结构体。 3. XML编码:Go语言的标准库`encoding/xml`提供了XML编码的功能。我们可以通过实现`xml.Marshaler`接口,将内部结构体编码为XML格式的RSS2.0和...

    RSS是RSS的jar包

    - 读取RSS feed:解析XML文档,提取频道信息和条目详情。 - 创建RSS feed:构造RSS结构,添加频道和条目信息,生成XML输出。 - 更新RSS feed:修改现有RSS feed的内容,如添加、删除或更新条目。 - 集成RSS功能:将...

    C# VB .NET实现线性条码、条形码、QR二维码的读取和生成创建

    4、不仅可以读取条码,也支持将自定义数据生成条形码和QR二维码。 5、简单易用,只需一行代码即可完成读写,上手迅速,文档齐全. 6、支持从jpg,png,tiff,gif,bmp,jpeg等格式图片,或pdf,Image和Bitmap类对象,Stream...

    java实现rss的发布和订阅

    RSSJava提供了一组API来创建、读取和写入RSS feeds,而Rome则是一个更全面的库,支持RSS和Atom格式,包含了解析、生成和订阅功能。 7. **RSS更新通知**: 虽然RSS本身不提供更新通知机制,但可以通过结合Webhooks...

    Java开发的RSS项目

    在这个项目中,开发者已经创建了一个工具类,对RSS的生成进行了封装,方便其他开发者使用。 首先,我们要了解RSS的基本结构。RSS文件通常由频道(channel)和条目(item)组成,频道包含了多个条目,每个条目代表一...

    rss.rar_ RSS asp.net_RSS asp.net_asp.net_asp.net rss_rss asp.n

    6. **自定义RSS输出**:根据项目描述,可能涉及到两种不同的RSS生成逻辑,这将有助于理解在不同场景下如何调整RSS内容。 7. **无数据库方案**:学习如何在没有数据库的情况下构建RSS源,这可能涉及从文本文件、JSON...

    通用网站RSS输出生成器 v2.0A Build 20050627

     增加了支持后台生成静态页面网站的RSS输出功能,使本系统的通用性进一步扩大。  修正了SQL Server登陆用户只能读取默认数据库的错误,可以读取该用户有读取权限的任意数据库。  同时发布Build 20050511到Build...

    rome-1.0 jdom 第一个RSS发布实例

    标题中的“rome-1.0 jdom 第一个RSS发布实例”揭示了本次讨论的主要...通过学习和运行这个实例,开发者可以掌握RSS的生成流程,并将这一技能应用到自己的项目中,例如自动生成博客的RSS订阅源或者构建新闻聚合服务。

    ROME + JDOM轻松实现RSS的操作

    在提供的`RSSUtil`类中,可能包含了上述功能的实现,例如`generateRSS()`方法用于生成RSS,`parseRSSFromUrl(String url)`方法用于解析指定URL的RSS。代码中会有详细的注释,帮助理解和学习RSS处理的过程。 此外,...

Global site tag (gtag.js) - Google Analytics