今天想采集一个网站,准备拿ruby来练练,结果碰到一大堆麻烦事,C#代码写的是多点,感觉还是顺手些。
由于不想写正则,找了几个插件试
(1)scrapi,顺利安装完成,确根本采集不到信息
require 'scrapi'
require 'open-uri'
task :dream => :environment do
url='http://www.hushibo.cn'
html = open(url).read
puts html
end
就这就报一大堆错,实在没信心写下去了,换下一个 Hpricot
gem install hpricot
结果在windows ruby1.9.1上装不了,万股无奈下只好用nokogiri,用的人确很少,文档太难找,http://nokogiri.org/Nokogiri/XML/NodeSet.html硬着头皮看了半天,总算知道了点皮毛,把我的采集任务算是完成了
require 'nokogiri'
require 'open-uri'
task :dreamtype => :environment do
doc = Nokogiri::HTML(open('http://www.hushibo.cn'))
tpes = []
doc.css("table.txt>td:nth-child(12)>a").each do |link|
#puts link.content
tpes.push(link.content)
end
#puts doc
tpes.each do |t|
#puts tpes.length
Dream.create(:parent_id => 6,:name => t)
end
end
分享到:
相关推荐
美国AstroNova堆叠式数据采集系统DAXUS,是一台异常小巧却功能强大的数据采集设备,可以单独使用进行故障排查和维护,多台设备叠加实现更多通道的数据采集,用户可以记录几个或几百个必要的参数,来保证设备的高速...
在进行数据采集的过程中,往往会遇到需要根据特定条件启动或停止采集的情况。这种基于特定条件的采集方式被称为“触发采集”。触发采集能够帮助用户更精确地捕捉到所需的数据,同时减少不必要的数据存储,提高数据...
【大黄蜂采集器 免费版】是一个针对网络数据挖掘需求而设计的高效软件工具。作为当前市场上最新的数据采集解决方案,它提供了丰富的功能,并且对用户完全免费。这款采集器旨在帮助用户从互联网上抓取、整理和分析所...
织梦采集侠是针对织梦系统开发的一款高效、智能的文章采集软件,它能帮助用户快速、方便地从互联网上抓取所需内容,自动导入到织梦系统中,极大地提升了内容更新和网站维护的效率。 织梦采集侠V2.9.2主要功能包括:...
一款C#写的URL网址采集工具,支持自定义采集规则以适配不同搜索引擎。 由于市面上的网址采集器基本均已失效,笔者在进行网站采集时异常麻烦,故此研发本工具。 一款C#写的URL网址采集工具,支持自定义采集规则以...
在数据采集过程中,可能会遇到各种异常情况导致部分数据无法正常获取。V3.5版本提供了按日志修复功能,用户可以根据日志记录定位问题,针对性地进行修复,确保数据的完整性和准确性。 单独生成OPF(Open Packaging ...
标题“PHPYUN人才招聘系统火车采集器采集教程.pdf”和描述“详细介绍PHPYUN使用火车采集器采集数据,包含采集发布模块、PHPYUN 后台设置(老后台)、设置采集器、规则”表明本文档是一份关于如何使用特定的网络数据...
而萌芽采集插件Pro则是苹果CMS生态系统中的一个重要组成部分,它扩展了系统的功能,使其能够自动化地从互联网上抓取和导入各种数据,如新闻、文章、视频等,极大地提高了网站运营的效率。 插件的“集合众多采集资源...
免费设置软件采集规则(不包括后台采集规则)使采集器正常采集 实现功能 不间断采集,设置一个最大采集页数【最大页数】,就不停的从 第1页,刷到采集页数,有新内容就采,可设置3个网站,不断的循环。 首先点击...
工业大数据采集处理与应用是当今工业领域中非常重要的一个话题。随着工业化和自动化的发展,工业企业产生的数据量也在急剧增加,这些数据的采集、处理和应用对企业的生产和运营产生了重要的影响。 了解工业大数据是...
【数据采集工具】如压缩包中的"minibroswer"可能是一个简易的网页爬虫工具,它可能提供了一个友好的接口,让用户可以通过JavaScript编写脚本来抓取和下载页面内容。"minibroswer.exe"可能是该工具的执行程序,用户...
【大黄蜂网页采集器】是一款强大的数据抓取工具,专为从互联网上批量收集、整理和分析网页内容而设计。这款软件可以帮助用户快速、高效地获取所需网页信息,为新闻发布、市场研究、数据分析等领域提供便利。在描述中...
总的来说,"C# 数据采集系统 智能采集 数据分析 整套源码"是一个综合性的项目,涵盖了从网络数据采集、智能策略、数据处理、数据库操作到系统架构等多个方面的知识。通过深入理解并实践这套源码,开发者可以提升在...
作为一款轻量级商品和评论采集插件,拥有几乎和大型采集工具一样的功能,功能有全站评论采集,伪造订单真实订单和销量;淘宝天猫商品采集,强大的采集无需申请淘宝客API,直接采集简单粗暴,商品采集可通过指定商品...
SharpCapture是一款音视频数据采集类库。它完全采用C#语言开发,基于DirectShow技术实现摄像头帧画面采集、屏幕录制、声卡采集、麦克风采集、混音等诸多强大功能为一体,且不依赖任何其他第三方组件。通过调用它,您...
该软件功能强大,支持用户自定义采集参数和数据格式,同时也具备数据筛选、分析、可视化等功能,能够快速高效地实现大规模地图信息采集与处理。此外,该软件还提供了简洁易用的用户界面,支持跨平台使用,具备良好的...
【标题】:“深圳大拓采集手柄demo(delphi)”是基于Delphi编程环境开发的一个图像采集示例,主要用于配合蓝韵、东软等超声工作站进行图像数据的采集和处理。 【描述】:这个Demo程序展示了如何利用Delphi语言与...