今天写了个挺好玩的东西,看着数据库里面满满的数据,别提多开心了。
具体代码就不贴了,简单介绍下使用到的东西。
Crawler 爬虫
一开始打算用http 和 正则来实现,后来发现这个暴爽的GEM : hpricot
这个东西就是个HTML parser ,使用起来特简单,语法和 protype 类似 。
ruby 中使用 ActiveRecord
require "rubygems"
require "active_record"
require "yaml"
#载入外部YML数据库配置文件
dbconfig = YAML::load(File.open 'database.yml')
ActiveRecord::Base.establish_connection dbconfig
#然后就可以和rails 一样正常使用 ActiveRecord了
class Article < ActiveRecord::Base
has_and_belongs_to_many :tags
end
class Tag < ActiveRecord::Base
has_and_belongs_to_many :articles
end
分享到:
相关推荐
标题中的“用ruby写的...这个项目对于想要学习Ruby爬虫或者提升自己编程能力的初学者来说,提供了实践和学习的机会,可以通过阅读和运行代码,了解整个数据采集流程。同时,参与开源项目也能锻炼代码规范和协作能力。
6. **数据库管理**: 可能使用SQLite、MySQL或PostgreSQL等数据库,通过ActiveRecord进行交互。 7. **视图模板(View Templates)**: 使用ERB(Embedded Ruby)或其他模板语言如Haml和Slim,创建动态网页。 8. **...
标题中的"ruby-scraping"显然指的是使用Ruby进行网络数据抓取的一系列脚本,这可能是一个专门为@LeWagon的学生设计的课程或项目。 Le Wagon是一所知名的编程训练营,它提供全面的编程课程,包括Web开发和数据科学。...
1. 数据库:存储黑名单企业的核心部分,可能使用了如SQLite、PostgreSQL或MySQL等数据库系统,用Ruby的ActiveRecord库进行数据操作。 2. API接口:提供RESTful API,使得其他应用可以查询黑名单信息,可能使用了...
抓取到的数据可能被存储在数据库中,以便后续分析或展示。在Rails应用中,这通常涉及到ActiveRecord,它是RoR的ORM(对象关系映射)层,允许开发者通过Ruby代码操作数据库记录。 ### 7. 命令行界面或Web界面 考虑...
Ruby有许多库可以支持数据库操作,如ActiveRecord(与Rails框架配套使用)或Sequel,它们可以方便地将数据保存到MySQL、SQLite或PostgreSQL等数据库中。此外,数据也可能被写入文件或JSON格式存储。 **错误处理与...
如果数据存储在数据库中,我们可以使用ActiveRecord(Ruby on Rails框架的一部分)来操作数据。例如,创建一个角色模型,并从网页抓取的数据填充模型属性: ```ruby class Character < ActiveRecord::Base # 假设...
在 "scrapping_mairies" 项目中,开发者可能还考虑了反爬虫策略,如模拟浏览器行为、设置延迟、使用代理等,以确保抓取活动的可持续性。此外,项目可能还包括了结果的可视化或分析部分,以便于用户更好地理解和利用...
总的来说,通过 "rental_site_scraper" 项目,你不仅能掌握 Ruby 网络抓取的基本技术,还能了解到网络爬虫的生命周期,包括页面请求、解析、数据提取、存储以及错误处理等重要环节。这是一个非常实用的技能,对于...
在Ruby挑战中,理解元编程、块、 Proc 和Lambda、模块以及ActiveRecord等概念至关重要。 PHP主要用于服务器端脚本,尤其在Web开发中占据重要地位。PHP挑战可能涵盖数据库交互(如MySQL)、PHP内置函数、面向对象...
在这个场景中,"Scriptium讲堂"可能是一个关于编程脚本学习的平台或者系列教程,旨在帮助用户深入理解和掌握脚本语言的使用。由于没有具体的标签,我们无法确定这个"Scriptium"是针对哪种脚本语言,例如JavaScript、...