`
kenrome
  • 浏览: 40891 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

Ruby中使用Nokogiri解析HTML实践

阅读更多
案例: 本次实践的目的是抓取百度空间的博客列表信息.

代码:
require 'nokogiri'
require 'open-uri'
require 'iconv'

# define the html url
url="http://hi.baidu.com/kenrome/blog"
# get the nokogiri document
doc = Nokogiri::HTML(open(url))
# new a file for save
file = File.new("c:/a.html","w")

#get the blog list and save to file
doc.css("#m_blog .tit").each do |line|
   file.write(line)
end


结果:

    在Heroku上安装gem实践
    Ruby解析HTML插件Nokogiri使用实践
    Rails中通过Gmail发送邮件配置总结
    jQuery Validation
    通过Active_Merchant集成支付宝
    InvalidAuthenticityToken错误的解决办法
    inruby网站数据访问统计表
    Rails中通过Gmail发送邮件
    I18n demo 学习总结
    Net::HTTP, REXML, API
    Rails获取客户端IP地址
    I18n--让你的程序支持国际化
    使用Ruby1.9,Rails,MySQL能够在UTF-8下共存
    Ruby1.9的兼容性问题
    Heroku常用命令
分享到:
评论

相关推荐

    ruby,xml

    例如,`n2.rb`这个文件名很可能就是博客中介绍的一个示例代码,它可能展示了如何使用Nokogiri解析名为“n2”的XML文件。 以下是一个简单的Ruby代码示例,演示了如何使用Nokogiri解析XML: ```ruby require '...

    Instant Nokogiri

    此外,书籍在内容编排上应该注重实践与理论的结合,通过大量的实例和案例来引导读者理解和掌握Nokogiri的使用,让读者在实践中不断深化对Nokogiri的认识,并能将其应用到实际项目中去。 综上所述,Nokogiri是一个...

    ruby 中文文档 必备资料

    此外,Ruby还有一系列强大的库和工具,如Nokogiri用于XML和HTML解析,RSpec用于行为驱动开发(BDD),Sinatra用于轻量级Web应用开发,以及 Bundler 管理依赖等。 总之,这份"ruby中文文档"是学习Ruby的宝贵资源,它...

    Ruby入门教程中文PDF 附实例

    Ruby还有丰富的第三方库(Gem),如Rails用于Web开发,ActiveRecord进行数据库操作,Nokogiri解析HTML等。学习Ruby不仅仅是学习一门语言,更是进入一个充满活力的开发社区,能接触到各种创新的工具和技术。 总之,...

    刮板:使用Nokogiri和Mechanize编译基于Ruby的手工刮板

    3. **解析**: 使用Nokogiri解析网页内容,以便进一步处理。 4. **定位**: 通过XPath或CSS选择器找到目标数据所在的HTML元素。 5. **提取数据**: 提取选定元素中的文本或其他属性,保存到结构化的数据格式(如数组或...

    ruby 中文文档 入门必学

    此外,Ruby的生态系统中还有大量第三方Gem,如Nokogiri(HTML解析)、ActiveRecord(ORM)等,文档可能介绍如何安装和使用Gem。 7. **Ruby on Rails**:虽然标题没有明确提到Rails,但作为Ruby最著名的框架,文档...

    《Programming Ruby》中文第2版源代碼下載

    源代码可能包含一些常见的Gem,如`nokogiri`(用于解析XML和HTML)或`sinatra`(一个轻量级的Web框架),让你了解如何集成和使用这些外部库。 最后,本书会涉及测试驱动开发(TDD)和行为驱动开发(BDD)的理念,...

    web_scraping_project:使用Ruby和Nokogiri,CSV,Pry和HTTParty gem进行网络抓取

    在这个名为“web_scraping_project”的项目中,我们聚焦于使用Ruby编程语言,结合Nokogiri库,HTTParty gem,以及CSV和Pry工具来实现网页数据抓取。网络爬虫是自动化提取大量信息自互联网的重要技术,而Ruby以其简洁...

    使用 Ruby 登录新浪微博!

    在 Ruby 中,我们可以利用 `Net::HTTP` 库来发送 HTTP 请求,`Nokogiri` 库来解析 HTML 或 XML 响应,以及可能用到的 `JSON` 库来处理 JSON 数据。对于登录微博这种需要处理 Cookie 的场景,我们可能还需要 `...

    ruby实用函数和实例

    在进行数据采集时,Ruby的HTTP库如Net::HTTP可以用来从网页抓取数据,Nokogiri用于解析HTML和XML文档,而JSON库则帮助处理JSON格式的数据。 接着,我们来看看"新建 文本文档 (2).txt"。尽管没有具体说明文件内容,...

    ruby中文教程

    此外,Ruby还有一套强大的Gem包管理系统,使得开发者可以轻松地安装和使用第三方库,如ActiveRecord用于数据库操作,Nokogiri用于HTML和XML解析,或者Sinatra用于构建Web应用。 Ruby on Rails是基于Ruby的一个著名...

    用ruby写的采集程序.zip

    在实际的项目中,Ruby数据采集通常会使用像Nokogiri这样的库来解析HTML,解析出需要的信息。Nokogiri提供了一种强大的方式来处理XML和HTML文档,能够方便地查找、遍历和修改文档结构。此外,可能还会用到HTTP客户端...

    Python & Ruby 学习

    6. **Gems**:Ruby 的包管理系统,类似 Python 的 pip,用于安装和管理第三方库,如 `Nokogiri` 用于解析HTML和XML,`sinatra` 是轻量级的Web框架。 7. **符号(Symbol)**:Ruby 中的符号是不可变的对象,常用于...

    Ruby从入门到精通

    此外,Ruby还有强大的Gem生态系统,允许开发者通过安装第三方库来扩展功能,如Rails(一个流行的Web开发框架)和Nokogiri(一个HTML和XML解析器)。 "Ruby从入门到精通"这套资料很可能涵盖了这些主题,并深入讲解了...

    ruby-main.zip

    5. **Gem生态系统**:Ruby的Gem是其强大的库管理工具,提供了丰富的第三方库,如Rails(Web开发框架)、Rspec(测试框架)、Nokogiri(HTML解析库)等,极大地扩展了Ruby的功能。 6. **ActiveRecord**:在Ruby on ...

    Ruby API(日文版)

    Ruby支持块(block),这是一种在代码中定义匿名函数的方式,通常与循环或方法配合使用。Proc和Lambda是块的两种可存储形式,它们可以被赋值给变量,传递给其他方法,或者作为返回值。 4. **模块(Module)**: ...

    Ruby基础教程,RUBY入门必备啊~

    此外,Ruby还有许多强大的第三方库,如Rails(一个流行的Web应用框架)、Nokogiri(HTML和XML解析器)和ActiveRecord(数据库操作库)。 在Ruby中,错误处理主要通过异常(Exception)机制,使用begin...rescue......

    Ruby语言教程大纲.zipRuby语言教程大纲.zip

    此外,Ruby的Gem生态极其活跃,如Rails框架、Nokogiri用于XML/HTML解析等,都会被提及。 7. **文件和I/O操作**:学习如何在Ruby中读写文件,处理目录,以及进行输入输出操作。 8. **异常处理**:异常处理是任何...

Global site tag (gtag.js) - Google Analytics