采集碰到的一大堆麻烦事

浏览 2406 次

锁定老帖子主题：采集碰到的一大堆麻烦事精华帖 (0) :: 良好帖 (4) :: 新手帖 (6) :: 隐藏帖 (0)
作者	正文
wozhidao 等级: 初级会员性别: 文章: 7 积分: 40 来自: 成都	发表时间：2009-12-24 最后修改：2009-12-24 相关推荐: 康拓普逻辑思维题 HP 沙一鸣博士给总裁的回复信 HP-Email Gate(HP 邮件门) 【晨北技术面】2020/3/26_晨北科技有限公司_第一次技术面试_40分钟某"面霸"疯狂应聘IT名企的经历另附试题更多相关推荐今天想采集一个网站，准备拿ruby来练练，结果碰到一大堆麻烦事，C#代码写的是多点，感觉还是顺手些。由于不想写正则，找了几个插件试（1）scrapi，顺利安装完成，确根本采集不到信息 require 'scrapi' require 'open-uri' task :dream => :environment do url='http://www.hushibo.cn' html = open(url).read puts html end 就这就报一大堆错，实在没信心写下去了，换下一个 Hpricot gem install hpricot 结果在windows ruby1.9.1上装不了，万股无奈下只好用nokogiri，用的人确很少，文档太难找，http://nokogiri.org/Nokogiri/XML/NodeSet.html硬着头皮看了半天，总算知道了点皮毛，把我的采集任务算是完成了 require 'nokogiri' require 'open-uri' task :dreamtype => :environment do doc = Nokogiri::HTML(open('http://www.hushibo.cn')) tpes = [] doc.css("table.txt>td:nth-child(12)>a").each do \|link\| #puts link.content tpes.push(link.content) end #puts doc tpes.each do \|t\| #puts tpes.length Dream.create(:parent_id => 6,:name => t) end end 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

orange0513 等级: 初级会员性别: 文章: 12 积分: 30 来自: java	发表时间：2009-12-25 最后修改：2009-12-25 看不懂你要干嘛
返回顶楼	回帖地址 0 0 请登录后投票

huacnlee 等级: 性别: 文章: 55 积分: 100 来自: 成都	发表时间：2009-12-25 scrapi 和 nokogiri 都很简单啊，重点是要有耐心去分析HTML结构
返回顶楼	回帖地址 0 0 请登录后投票

wozhidao 等级: 初级会员性别: 文章: 7 积分: 40 来自: 成都	发表时间：2009-12-25 呵呵,刚接解ruby,很多东西不是太了解
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 入门技术版

跳转论坛: