`
wozhidao
  • 浏览: 6089 次
  • 性别: Icon_minigender_1
  • 来自: 成都
文章分类
社区版块
存档分类
最新评论

采集碰到的一大堆麻烦事

阅读更多

今天想采集一个网站,准备拿ruby来练练,结果碰到一大堆麻烦事,C#代码写的是多点,感觉还是顺手些。

由于不想写正则,找了几个插件试

(1)scrapi,顺利安装完成,确根本采集不到信息

require 'scrapi'
require 'open-uri'

task :dream => :environment do 
     url='http://www.hushibo.cn' 
     html = open(url).read
     
     puts html 
end

 

就这就报一大堆错,实在没信心写下去了,换下一个 Hpricot

gem install hpricot

 

结果在windows ruby1.9.1上装不了,万股无奈下只好用nokogiri,用的人确很少,文档太难找,http://nokogiri.org/Nokogiri/XML/NodeSet.html硬着头皮看了半天,总算知道了点皮毛,把我的采集任务算是完成了

require 'nokogiri'
require 'open-uri'

task :dreamtype => :environment do 
    doc = Nokogiri::HTML(open('http://www.hushibo.cn'))
    tpes = []
    doc.css("table.txt>td:nth-child(12)>a").each do |link|
        #puts link.content
	tpes.push(link.content)
    end
    #puts doc
    tpes.each do |t|
        #puts tpes.length
        Dream.create(:parent_id => 6,:name => t)
    end

end

 

分享到:
评论
3 楼 wozhidao 2009-12-25  
呵呵,刚接解ruby,很多东西不是太了解
2 楼 huacnlee 2009-12-25  
scrapi 和 nokogiri
都很简单啊,重点是要有耐心去分析HTML结构
1 楼 orange0513 2009-12-25  
看不懂你要干嘛

相关推荐

    美国AstroNova堆叠式数据采集系统Daxus

    美国AstroNova堆叠式数据采集系统DAXUS,是一台异常小巧却功能强大的数据采集设备,可以单独使用进行故障排查和维护,多台设备叠加实现更多通道的数据采集,用户可以记录几个或几百个必要的参数,来保证设备的高速...

    labview数据采集之触发采集.docx

    在进行数据采集的过程中,往往会遇到需要根据特定条件启动或停止采集的情况。这种基于特定条件的采集方式被称为“触发采集”。触发采集能够帮助用户更精确地捕捉到所需的数据,同时减少不必要的数据存储,提高数据...

    大黄蜂采集器 免费版

    【大黄蜂采集器 免费版】是一个针对网络数据挖掘需求而设计的高效软件工具。作为当前市场上最新的数据采集解决方案,它提供了丰富的功能,并且对用户完全免费。这款采集器旨在帮助用户从互联网上抓取、整理和分析所...

    织梦采集侠V2.9.2修复采集https.zip

    织梦采集侠是针对织梦系统开发的一款高效、智能的文章采集软件,它能帮助用户快速、方便地从互联网上抓取所需内容,自动导入到织梦系统中,极大地提升了内容更新和网站维护的效率。 织梦采集侠V2.9.2主要功能包括:...

    C#写的一款URL网址采集工具源码.zip

    一款C#写的URL网址采集工具,支持自定义采集规则以适配不同搜索引擎。 由于市面上的网址采集器基本均已失效,笔者在进行网站采集时异常麻烦,故此研发本工具。 一款C#写的URL网址采集工具,支持自定义采集规则以...

    关关采集2.4【V3.5】_关关_关关采集v3.5_关关采集3.5_源码

    在数据采集过程中,可能会遇到各种异常情况导致部分数据无法正常获取。V3.5版本提供了按日志修复功能,用户可以根据日志记录定位问题,针对性地进行修复,确保数据的完整性和准确性。 单独生成OPF(Open Packaging ...

    PHPYUN人才招聘系统火车采集器采集教程.pdf

    标题“PHPYUN人才招聘系统火车采集器采集教程.pdf”和描述“详细介绍PHPYUN使用火车采集器采集数据,包含采集发布模块、PHPYUN 后台设置(老后台)、设置采集器、规则”表明本文档是一份关于如何使用特定的网络数据...

    苹果cms采集插件,萌芽采集插件Pro(集合众多采集资源)

    而萌芽采集插件Pro则是苹果CMS生态系统中的一个重要组成部分,它扩展了系统的功能,使其能够自动化地从互联网上抓取和导入各种数据,如新闻、文章、视频等,极大地提高了网站运营的效率。 插件的“集合众多采集资源...

    杰奇自动采集工具-本地采集

    免费设置软件采集规则(不包括后台采集规则)使采集器正常采集 实现功能 不间断采集,设置一个最大采集页数【最大页数】,就不停的从 第1页,刷到采集页数,有新内容就采,可设置3个网站,不断的循环。 首先点击...

    工业大数据采集处理与应用.pptx

    工业大数据采集处理与应用是当今工业领域中非常重要的一个话题。随着工业化和自动化的发展,工业企业产生的数据量也在急剧增加,这些数据的采集、处理和应用对企业的生产和运营产生了重要的影响。 了解工业大数据是...

    太强大了可以利用js实现页面采集下载

    【数据采集工具】如压缩包中的"minibroswer"可能是一个简易的网页爬虫工具,它可能提供了一个友好的接口,让用户可以通过JavaScript编写脚本来抓取和下载页面内容。"minibroswer.exe"可能是该工具的执行程序,用户...

    大黄蜂网页采集器

    【大黄蜂网页采集器】是一款强大的数据抓取工具,专为从互联网上批量收集、整理和分析网页内容而设计。这款软件可以帮助用户快速、高效地获取所需网页信息,为新闻发布、市场研究、数据分析等领域提供便利。在描述中...

    C# 数据采集系统 智能采集 数据分析 整套源码

    总的来说,"C# 数据采集系统 智能采集 数据分析 整套源码"是一个综合性的项目,涵盖了从网络数据采集、智能策略、数据处理、数据库操作到系统架构等多个方面的知识。通过深入理解并实践这套源码,开发者可以提升在...

    ECSHOP淘宝商品采集评论采集插件 v1.0

    作为一款轻量级商品和评论采集插件,拥有几乎和大型采集工具一样的功能,功能有全站评论采集,伪造订单真实订单和销量;淘宝天猫商品采集,强大的采集无需申请淘宝客API,直接采集简单粗暴,商品采集可通过指定商品...

    C#类库,支持音视频采集,摄像头采集,话筒采集,麦克风采集,声卡采集,混音采集

    SharpCapture是一款音视频数据采集类库。它完全采用C#语言开发,基于DirectShow技术实现摄像头帧画面采集、屏幕录制、声卡采集、麦克风采集、混音等诸多强大功能为一体,且不依赖任何其他第三方组件。通过调用它,您...

    地图信息采集JS版软件是一款基于JavaScript的地图信息采集工具,主要用于采集地图信息,如坐标、地址、地名等,并将采集的数

    该软件功能强大,支持用户自定义采集参数和数据格式,同时也具备数据筛选、分析、可视化等功能,能够快速高效地实现大规模地图信息采集与处理。此外,该软件还提供了简洁易用的用户界面,支持跨平台使用,具备良好的...

    深圳大拓采集手柄demo(delphi)

    【标题】:“深圳大拓采集手柄demo(delphi)”是基于Delphi编程环境开发的一个图像采集示例,主要用于配合蓝韵、东软等超声工作站进行图像数据的采集和处理。 【描述】:这个Demo程序展示了如何利用Delphi语言与...

Global site tag (gtag.js) - Google Analytics