`

ruby 抓取javaeye最热博客 rss

阅读更多
这个是通过抓取javaeye上的blog来学习rss。
我使用的是Simple-RSS来抓取。

Simple-RSS介绍:
Simple RSS is a simple, flexible, extensible, and liberal RSS and Atom reader for Ruby
gem install simple-rss

代码如下:
require 'rubygems'
require 'simple-rss' #gem install simple-rss
require 'open-uri'
require 'net/http'

##
#常量定义
FS_LEN = 80

#抓取javascript最火blog的rss,这里简单一点,做个示范
##
#获得blog名
def get_blogs_names()
  begin
    blog_url = "http://www.iteye.com/blogs"
    blog_html = Net::HTTP.get(URI.parse(blog_url))
    reg = /http:\/\/([a-zA-z]{4,}).iteye.com/
    match = blog_html.scan(reg)
  rescue Exception=>ex
    puts ex
    puts "blog exit"
    return  []
  end
  match.flatten
end

##
# 获得blog rss
def get_blog_rss(names)
  return if names.nil? or names.size.eql?(0)
  names.uniq!
  for name in names
    puts name + "*" * FS_LEN
    begin
      rss = SimpleRSS.parse open("http://#{name}.iteye.com/rss")
    rescue Exception=>ex
      puts ex
      puts "rss exit"
    end

    puts "-" * FS_LEN
    puts rss.channel.title
    puts rss.channel.link

    for item in rss.items
      puts "-"*50
      puts "title:" + item.title.to_s
      puts "description:" + item.description.to_s
      puts "link:" + item.link.to_s
      puts "pubDate:" + item.pubDate.to_s
      puts "guid:" + item.guid.to_s
      puts "category:" + item.category.to_s
    end
  end
end

##
#RUN
names =  get_blogs_names()
get_blog_rss(names)

分享到:
评论
1 楼 biaowen 2010-01-20  
赞,不过 不是说javaeye做了防采集吗,小心封IP哦,哈。

相关推荐

    javaeye被黑

    javaeye被黑 大家看看

    基于JAVA技术的网页内容智能抓取.doc

    以抓取javaeye博客内容为例,展示了系统如何根据预先设定的规则,抓取特定博客的文章标题、作者、发布时间等信息。虽然系统存在上述问题,但在一定范围内仍能有效执行内容抓取任务。 综上所述,基于JAVA技术的网页...

    JavaEye3.0开发手记

    ### JavaEye3.0开发手记之开发环境搭建详解 #### 一、开发环境搭建概述 随着JavaEye3.0开发计划的启动,本篇文章将详细介绍如何为该项目搭建高效的开发环境。开发过程中不仅需要考虑软件的选择,还需要针对操作...

    Ruby on Rails

    在Linux平台上安装和配置Ruby on Rails详解 - rails - Ruby - JavaEye论坛.htm

    javaeye热点阅读

    JavaEye热点阅读是JavaEye论坛推出的2009年2月特辑,旨在为Java学习者和开发者提供最新的知识及行业动态。这份资料包含了多个Java相关的主题,包括但不限于并发编程、开源项目、设计模式、框架应用以及软件开发实践...

    基于JAVA技术的网页内容智能抓取.pdf

    - **抓取javaeye博客内容**:这是一个实际的应用示例,爬虫可以定期抓取javaeye网站上的博客文章,提取标题、作者、发布时间等关键信息,存储到数据库或其他数据存储系统中。 5. **辅助引用** - **其他必须的辅助...

    JavaEye新闻月刊_-_2009年3月_-_总第13期

    同期,Ruby on Rails 2.3最终版发布,该版本引入了Rack中间件的使用和支持新Engine的增强等关键特性,增强了Ruby on Rails的可扩展性和性能。 在开源技术领域,Linux有潜力成为Java的操作系统(OS),以及Google ...

    ruby watir教程

    - **Ruby操作Excel**:`http://www.javaeye.com/topic/46768` 提供了Ruby操作Excel的方法。 - **Ruby自带教程**:位于 `C:\ruby\doc\ProgrammingRuby.chm` ,提供了详细的Ruby教程。 - **Ruby自带示例**:位于 `C:\...

    JavaEye+技术架构

    JavaEye+技术架构,讲述java框架的应用

    javaeye的信息提示框代码之js

    javaeye的信息提示框代码之css,application.js

    ruby study

    ### Ruby中的正则表达式详解 #### 一、引言 在编程语言Ruby中,正则表达式(Regular Expression)是一种强大的文本处理工具,用于模式匹配、搜索与替换字符串等功能。Ruby采用`//`作为正则表达式的边界标记,使得...

    ruby勇士,边玩边学习

    ruby勇士,初学者边游戏边学习ruby的好玩的东西。具体玩法在 http://www.javaeye.com/topic/383938,或者Google一下“ruby勇士”。因为下载游戏的网站有时访问不了,上传一下提供下载。

    JavaEye2.0_on_rails

    ### JavaEye2.0_on_rails:敏捷Web开发实践与Ruby on Rails的应用 #### 敏捷软件开发方法 - **背景**:传统软件工程方法在实际应用中面临着项目延期、成本超支以及软件质量不高的问题。为了克服这些挑战,业界提出...

    javaeye月刊2008年6月 总第4期.pdf

    【JavaEye月刊2008年6月总第4期】主要涵盖了多个与Java相关的技术和社区动态,其中重点讨论了Eclipse Ganymede的发布、Ruby语言的进展以及Java在实际应用中的案例。 1. **Eclipse Ganymede** Eclipse Ganymede是...

    javaeye论坛小测试答案

    javaeye 论坛小测试 javaeye论坛小测试答案 javaeye论坛测试答案 这下你们就省事了。

    javaeye月刊2008年4月 总第2期.pdf

    【JavaEye月刊2008年4月总第2期】主要涵盖了多个与Java相关的技术和行业动态。以下是对这些内容的详细解析: 1. **Spring创始人Rod Johnson再次发飙—“传统Java应用服务器正在没落”** Rod Johnson是Spring框架的...

Global site tag (gtag.js) - Google Analytics