`

Java备份博客文章之RSS

    博客分类:
  • html
阅读更多

 

2002开始写博客, 不知不觉已经几年过去了, 回头一看自己居然写了几百篇文章,  越想越佩服自己. 不幸的是有些博客因为太久没用忘记密码了, 网站的修改密码和help页却总是显示505错误,找不回密码了. 想想这些文章可是我一个字一个字打出来的, 就这么没了实在可惜, 一篇一篇备份实在麻烦, 唉 ... 失去了才知道珍惜 ... 痛定思痛,   为了证明我曾经也像韩寒那样能写, 我必须想个法子把把忘记密码的和没忘记密码的博客统统备份一下. 于是乎, 写个博客备份工具:

 

主要的思路是:

1.  分析网站的博客页面, 抓取博客内容;

2.  博客内容保存在xml作为原始数据;

3.  再加个rss订阅, 追加新数据

 

 

 

rss采用rome, 抓取用htmlparser

 

import java.net.URL;
import java.util.List;

import com.sun.syndication.feed.synd.SyndEntry;
import com.sun.syndication.feed.synd.SyndFeed;
import com.sun.syndication.io.SyndFeedInput;
import com.sun.syndication.io.XmlReader;

public class RomeTest {
	public static void main(String[] args) throws Exception {
		URL url=new URL("http://blog.sina.com.cn/rss/1191258123.xml");
		SyndFeedInput input=new SyndFeedInput();
		SyndFeed feed=input.build(new XmlReader(url));
		List list=feed.getEntries();
		for(int i=0;i<list.size();i++){
			SyndEntry entry=(SyndEntry)list.get(i);
			System.out.println(entry);
		}
	
	}
}

 

6
1
分享到:
评论
4 楼 glamey 2010-07-30  
呵呵,其实最简单的事情,就是通过正则表达式来定位就行了。
3 楼 c.zhiwu 2010-07-29  
fanfq 写道
这样好像取的不全,不知道你的几百篇文章是怎么取出来的。

我主要是通过分析html结构(因此也无法适应所有网站), 根据特定的标签来定位内容:oops:
不知道你用的是什么方法,能否交流一下
2 楼 fanfq 2010-07-29  
本人曾经将这个网站的上的所有文章弄下来,http://www.sooperarticles.com,不用rss,不用htmlparser。照样可以。但是我用的方法不适合所有的网站。
1 楼 fanfq 2010-07-29  
这样好像取的不全,不知道你的几百篇文章是怎么取出来的。

相关推荐

    rss阅读器阅读博客文章

    RSS阅读器是一款应用程序,它允许用户订阅和阅读博客文章及其他在线内容,这些内容通常通过RSS(Really Simple Syndication)或Atom格式提供。RSS是一种XML格式,用于发布新闻、博客和其他频繁更新的内容,使得用户...

    RSS and Atom in Action

    - 邮件发送博客更新,使订阅者能够通过电子邮件接收最新的博客文章。 - 软件构建过程日志化,通过RSS或Atom记录软件构建过程的状态和结果,便于团队成员追踪进度。 - 聊天室信息共享,将聊天室的对话内容以RSS或Atom...

    [新闻文章]lylina rss 多用户聚合系统源码 (中文utf-8版)_rss.at1.cn.zip

    RSS feed通常包含文章标题、摘要和链接,有时还包含完整的文章内容。 2. **多用户系统** lylina的多用户功能意味着它可以同时服务于多个独立的用户,每个用户都可以拥有自己的订阅列表和个性化设置。这使得系统...

    博客网 博客

    博客网是中国早期的博客平台之一,它为用户提供了一个在线发表文章、分享观点和个人见解的空间。在互联网初期,博客是个人表达、信息传播和社群互动的重要工具。博客网的出现,推动了中国互联网上的个人创作与知识...

    开源博客系统大全.pdf

    5. emlog:emlog是一个高效稳定的个人博客系统,采用模板技术,提供Ajax日历查阅日志、跨浏览器后台编辑、日志草稿箱、多附件上传、图片缩略图、引用通告支持、标签分类、RSS输出、数据库备份恢复和访问量统计等功能...

    芝麻开门博客网.zip

    由于文件列表只有一个“芝麻开门博客网”,这可能是博客的HTML文件、文章内容、图片资源或者是数据库备份。 在IT领域,博客是一种常见的知识分享平台,博主们通过撰写文章来传授技术、分享经验或讨论业界动态。...

    开源博客系统大全.docx

    - Roller是一个用Java开发的全功能多用户博客平台。 - 它包括评论功能、HTML编辑器、TrackBack、RSS聚合、页面模板和XML-RPC接口。 - 设计简洁,源代码适合作为学习资源。 4. TQBlog - TQBlog是一款轻量级但...

    LiveBlog测试版_多用户博客空间源码下载.rar

    【标题】"LiveBlog测试版_多用户博客空间源码下载.rar" 提供的是一个用于构建多用户博客系统的源代码,这通常意味着它是一个开源软件项目,允许开发者或网站管理员搭建一个支持多个用户独立发布博客文章的平台。...

    Solo博客系统-其他

    多端适配多语言/国际化友情链接管理多用户写作,团队博客Hexo/Jekyll/Markdown导入SQL/JSON/Markdown导出Atom/RSS/SitemapCDN 静态资源分离,可配置jsDelivr CDN分发拉取GitHub仓库和自动备份内置HTTPS+CDN文件存储...

    PersonalBlog源码.zip

    如果博客系统支持RSS订阅或与其他服务集成,可能包含API接口设计。API接口应遵循RESTful原则,提供JSON格式的数据交换。 8. **部署与服务器配置** 部署个人博客系统可能涉及到Nginx、Apache等Web服务器,以及...

    blog_release-源码.rar

    4. 发布与订阅模块:用户可以发布新文章,其他用户可以通过RSS订阅、邮件订阅等方式获取更新通知。 5. 评论模块:用户可以在文章下方发表评论,系统需处理评论的添加、删除、审核以及通知功能。 6. 搜索模块:提供...

    Stringer-开源

    RSS是一种XML格式,用于分享新闻、博客更新和其他在线内容。它允许用户通过订阅感兴趣的网站提要,无需直接访问这些网站就能获取最新内容。RDF则是一种更为通用的数据模型,用于描述网络上的资源,它提供了更丰富的...

    RSSatellite-开源

    考虑到其与RSS feed交互的特性,项目可能使用了XML解析库来处理RSS格式的数据,如Python的feedparser库或Java的JDOM库。此外,为了实现用户界面,可能使用了Web技术如HTML、CSS和JavaScript,或者使用了桌面应用框架...

    2010年谢彦的android笔记

    - **博客客户端**:RSS订阅、文章浏览等功能的实现。 #### 3.5 调试技术 - **JDWP调试**:Java Debug Wire Protocol(JDWP)的使用技巧。 - **Dalvik测试程序**:Dalvik虚拟机的测试方法。 - **Dalvik提供的调试...

    personal_site:我的个人网站

    6. **内容创作**:个人网站上的内容可以包括博客文章、作品集、简历等。保持定期更新,提供有价值的内容,可以吸引和留住访客。同时,考虑使用Markdown或富文本编辑器来方便内容编辑。 7. **安全措施**:确保网站...

Global site tag (gtag.js) - Google Analytics