`
xhanxhanxhan
  • 浏览: 208779 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

ruby爬虫 以及在ruby中通过ActiveRecord使用数据库

    博客分类:
  • RUBY
阅读更多

今天写了个挺好玩的东西,看着数据库里面满满的数据,别提多开心了。

具体代码就不贴了,简单介绍下使用到的东西。

 

Crawler 爬虫

一开始打算用http 和 正则来实现,后来发现这个暴爽的GEM : hpricot

这个东西就是个HTML parser ,使用起来特简单,语法和 protype 类似 。

 

ruby 中使用 ActiveRecord

require "rubygems"
require "active_record"
require "yaml"

#载入外部YML数据库配置文件
dbconfig = YAML::load(File.open 'database.yml')
ActiveRecord::Base.establish_connection dbconfig


#然后就可以和rails 一样正常使用 ActiveRecord了
class Article < ActiveRecord::Base
  has_and_belongs_to_many :tags
end

class Tag < ActiveRecord::Base
  has_and_belongs_to_many :articles
end
 

 

 

分享到:
评论

相关推荐

    用ruby写的采集程序.zip

    标题中的“用ruby写的...这个项目对于想要学习Ruby爬虫或者提升自己编程能力的初学者来说,提供了实践和学习的机会,可以通过阅读和运行代码,了解整个数据采集流程。同时,参与开源项目也能锻炼代码规范和协作能力。

    毕业设计-通用web信息采集系统RubyonRails

    6. **数据库管理**: 可能使用SQLite、MySQL或PostgreSQL等数据库,通过ActiveRecord进行交互。 7. **视图模板(View Templates)**: 使用ERB(Embedded Ruby)或其他模板语言如Haml和Slim,创建动态网页。 8. **...

    ruby-scraping:一堆为@LeWagon 学生抓取的 ruby​​ 脚本

    标题中的"ruby-scraping"显然指的是使用Ruby进行网络数据抓取的一系列脚本,这可能是一个专门为@LeWagon的学生设计的课程或项目。 Le Wagon是一所知名的编程训练营,它提供全面的编程课程,包括Web开发和数据科学。...

    blacklist_companies:企业黑名单,揭露无良企业的神秘面纱

    1. 数据库:存储黑名单企业的核心部分,可能使用了如SQLite、PostgreSQL或MySQL等数据库系统,用Ruby的ActiveRecord库进行数据操作。 2. API接口:提供RESTful API,使得其他应用可以查询黑名单信息,可能使用了...

    bike_scraper:Web App 从 Craigslist 抓取数据

    抓取到的数据可能被存储在数据库中,以便后续分析或展示。在Rails应用中,这通常涉及到ActiveRecord,它是RoR的ORM(对象关系映射)层,允许开发者通过Ruby代码操作数据库记录。 ### 7. 命令行界面或Web界面 考虑...

    ed2000-grabber:ed2000的网络抓取器

    Ruby有许多库可以支持数据库操作,如ActiveRecord(与Rails框架配套使用)或Sequel,它们可以方便地将数据保存到MySQL、SQLite或PostgreSQL等数据库中。此外,数据也可能被写入文件或JSON格式存储。 **错误处理与...

    Lord_of_the_Rings:查找有关您最喜欢的LOTR角色的信息

    如果数据存储在数据库中,我们可以使用ActiveRecord(Ruby on Rails框架的一部分)来操作数据。例如,创建一个角色模型,并从网页抓取的数据填充模型属性: ```ruby class Character &lt; ActiveRecord::Base # 假设...

    scrapping_mairies

    在 "scrapping_mairies" 项目中,开发者可能还考虑了反爬虫策略,如模拟浏览器行为、设置延迟、使用代理等,以确保抓取活动的可持续性。此外,项目可能还包括了结果的可视化或分析部分,以便于用户更好地理解和利用...

    rental_site_scraper

    总的来说,通过 "rental_site_scraper" 项目,你不仅能掌握 Ruby 网络抓取的基本技术,还能了解到网络爬虫的生命周期,包括页面请求、解析、数据提取、存储以及错误处理等重要环节。这是一个非常实用的技能,对于...

    programming-challenges:我觉得有趣的编程挑战

    在Ruby挑战中,理解元编程、块、 Proc 和Lambda、模块以及ActiveRecord等概念至关重要。 PHP主要用于服务器端脚本,尤其在Web开发中占据重要地位。PHP挑战可能涵盖数据库交互(如MySQL)、PHP内置函数、面向对象...

    scriptium

    在这个场景中,"Scriptium讲堂"可能是一个关于编程脚本学习的平台或者系列教程,旨在帮助用户深入理解和掌握脚本语言的使用。由于没有具体的标签,我们无法确定这个"Scriptium"是针对哪种脚本语言,例如JavaScript、...

Global site tag (gtag.js) - Google Analytics