`

handy.wang

浏览: 240276 次
性别:
来自: 北京

最近访客更多访客>>

wudamen

bill_wfm

llh13610

hankuksui

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

zjjzmw1： ...
转载：IOS开发之——objectForKey与valueForKey在NSDictionary中的差异
hldfxh：解决了我的问题
JSON Lib, XML转JSON字符串不要namespace，以及处理特殊xml属性"type"
herry68：可以给我提供以下你的这个NSData+Base64.h类吗
图片转base64串及反转回图片
herry68：我用这个方法把图片转换成nsstring成功了，但是从nsst ...
图片转base64串及反转回图片
hibluse： handy.wang 写道hibluse 写道我已经设置了WA ...
基于FMDB-SQLite的App数据库性能优化

从别人的网站上爬取东西（你能把这事儿做得更简单么？)

博客分类：

Ruby/ROR

Rails Firebug Ruby CSS

阅读更多

从别人的网站上爬取东西（你能把这事儿做得更简单么？)

Ryan Bates在他的RailsCasts中介绍了两个从别的网站爬取内容的小工具。
从头开始做从WalMate网站爬取商品价格并更新自己库中，边讲边做不超过15分钟。

看完第一个后感觉这个事情已经非常简单了：
#1: http://rails casts.com/episodes/173-screen-scraping-with-scrapi

再看第二个才知道我们还可以把事情做得更简单优雅些:
#2: http://railscasts.com/episodes/190-screen-scraping-with-nokogiri

其实还涉及到两个从页面中抓取CSS定位符的小工具，
一个是FireBug插件： http://www.quarkruby .com/2007/9/ ... tml-screen-scraping
另一个是相当有创意的 http://www.selectorgadget.com/ 啥东西都不用装，拖到地址栏就可以用了。

分享到：

New Features and Enhancements in Spring ... | Shell tutorial provided by Apple.

2009-12-13 19:41
浏览 1351
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

从各个网站上爬取的政治新闻: 从各个网站上爬取的政治新闻，包括新浪网，凤凰网，环球网以及中华网！

小说下载器爬虫自动化从小说网站爬取小说并写入txt文档中: 从小说网站爬取小说并写入txt文档中从小说网站爬取小说并写入txt文档中从小说网站爬取小说并写入txt文档中从小说网站爬取小说并写入txt文档中从小说网站爬取小说并写入txt文档中从小说网站爬取小说并写入txt文档中从...

各大网站新闻数据爬取.rar: "各大网站新闻数据爬取.rar"这个压缩包文件显然包含了与爬虫和Python编程相关的资源，特别是针对光明网、人民网、腾讯和搜狐等知名网站的新闻数据爬取。首先，让我们深入了解Python爬虫。Python是一种高级编程语言...

菜谱网站爬取_菜谱网站爬取_differentofl_菜谱_: 本项目名为"菜谱网站爬取_differentofl_菜谱"，旨在自动爬取菜谱网站的前N页内容，包括菜名、原料和做法等信息，为初学者提供一个实践学习的平台。首先，我们要理解爬虫的基本工作原理。网络爬虫，又称为网页蜘蛛...

很好用的网站前端页面爬取工具: 网站前端页面爬取工具是IT领域中用于自动化获取网页数据的重要工具，对于数据分析、网站镜像、搜索引擎优化等场景有着广泛的应用。本文将详细介绍这类工具的功能、工作原理以及相关技术。首先，我们要理解什么是...

爬取美女网站图片.py: 初学者的简单爬取.一个简单的小代码

房天下数据爬取_网站数据爬取_: 房天下网站数据爬取访问百度模拟自动输入搜索# 代码中引入selenium版本为:3.4.3# 通过Chrom浏览器访问发起请求# Chrom版本:59 chromdriver:2.3# 需要对应版本的Chrom和chromdriver

python爬取自如租房网站租房数据最详细的讲解: 拥有最详细的讲解、最好的解释、最清晰的思路，这就是我们最纯粹的技术，也是我们的优势，相信这个程序可以为你打开爬虫道路上的一扇窗，也可以为你从底层学习python爬虫提供帮助。从技术到只是进行彻底的讲解，保证...

jmeter爬取视频网站视频: 使用jmeter爬取视频网站视频

网站爬取工具，可爬网站静态的HTML: - **法律法规**：在爬取和使用数据时，要遵循当地的法律法规，尊重网站的版权，避免侵犯他人隐私。总的来说，网站爬取工具是获取互联网信息的强大助手，但正确使用和合理操作至关重要。无论是开发自己的爬虫程序，...

爬虫爬取网站信息: 使用beautiful soup爬取网站评论,，个人信息等（python代码）。

爬取中国网文章: 爬虫爬取中国网链接，这是包含查找隐藏url之后对中国网多个页面进行了爬取

爬取P2P网站: 爬取P2P网站

知乎爬虫(知乎网站爬取工具,爬取知乎网页内容): 【知乎爬虫】是一种用于自动化抓取知乎网站信息的程序，通常由编程语言如Java实现。这个特定的爬虫工具，名为"ZhihuDown"，可能是以Java编写的一个开源项目，用户可以下载并尝试使用。它允许用户批量或定时获取知乎...

wallhaven网站爬取高清壁纸: wallhaven网站爬取高清壁纸

Global site tag (gtag.js) - Google Analytics