Ruby多进程并行抓取网页

shuaigelingfei

浏览: 335598 次
来自: 西安

最近访客更多访客>>

u012363178

niepeng880208

xiaoxiao_zlj

lauyuhim

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

ruby on rails

Ruby 多进程并行抓取网页

想研究一下各大网站首页有多少个链接，于是用Ruby写了一个脚本，用Beanstalk消息队列，把任务放入Beanstalk中，同时开启多个子进程，如20个，并行运行，同时抓取网页，先抓取完成的进程再次读取Beanstalk任务，继续执行，直到没有任务后，进程退出，主进程等待所有子进程退出后，打印抓取的消息。
Ruby的多线程实际是只能跑在单cpu上，并且同一时刻cpu只处理一个线程，所以采用多进程抓取，消息队列采用最简单的Beanstalk，需要安装Beanstalkd服务。
示例代码主要抓取电商网站测试。
代码可以直接运行，需要ruby 1.9版本，1.9一下要稍微修改才能运行。

[代码] [Ruby]代码

001
#!/usr/bin/env ruby

002
#encoding: UTF-8

003
 
004
# 抓取每一个站点的首页链接数量

005
# require 'rubygems'            # 1.8.7

006

require 'ap'                # gem install awesome_print

007

require 'json'

008

require 'net/http'

009

require 'nokogiri'          # gem install nokogiri

010

require 'forkmanager'       # gem install parallel-forkmanager

011

require 'beanstalk-client'  # gem install beanstalk-client

012
 
013

class MultipleCrawler

014
 
015

    class Crawler

016

        def initialize(user_agent, redirect_limit=1)

017

            @user_agent = user_agent

018

            @redirect_limit = redirect_limit

019

            @timeout = 20

020

        end

021

        attr_accessor :user_agent, :redirect_limit, :timeout

022

023

        def fetch(website)

024

            print "Pid:#{Process.pid}, fetch: #{website}\n"

025

            redirect, url = @redirect_limit, website

026

            start_time = Time.now

027

            redirecting = false

028

            begin

029

                begin

030

                    uri = URI.parse(url)

031

                    req = Net::HTTP::Get.new(uri.path)

032

                    req.add_field('User-Agent', @user_agent)

033

                    res = Net::HTTP.start(uri.host, uri.port) do |http|

034

                        http.read_timeout = @timeout

035

                        http.request(req)

036

                    end

037

                    if res.header['location'] # 遇到重定向，则url设定为location，再次抓取

038

                        url = res.header['location']

039

                        redirecting = true

040

                    end

041

                    redirect -= 1

042

                end while redirecting and redirect>=0

043

                opened_time = (Time.now - start_time).round(4) # 统计打开网站耗时

044

                encoding = res.body.scan(/<meta.+?charset=["'\s]*([\w-]+)/i)[0]

045

                encoding = encoding ? encoding[0].upcase : 'GB18030'

046

                html = 'UTF-8'==encoding ? res.body : res.body.force_encoding('GB2312'==encoding || 'GBK'==encoding ? 'GB18030' : encoding).encode('UTF-8')

047

                doc = Nokogiri::HTML(html)

048

                processed_time = (Time.now - start_time - opened_time).round(4)# 统计分析链接耗时, 1.8.7, ('%.4f' % float).to_f 替换 round(4)

049

                [opened_time, processed_time, doc.css('a[@href]').size, res.header['server']]

050

            rescue =>e

051

                e.message 

052

            end

053

        end

054

    end

055

056

    def initialize(websites, beanstalk_jobs, pm_max=1, user_agent='', redirect_limit=1)

057

        @websites = websites                # 网址数组

058

        @beanstalk_jobs = beanstalk_jobs    # beanstalk服务器地址和管道参数

059

        @pm_max = pm_max                    # 最大并行运行进程数

060

        @user_agent = user_agent            # user_agent 伪装成浏览器访问

061

        @redirect_limit = redirect_limit    # 允许最大重定向次数

062

063

        @ipc_reader, @ipc_writer = IO.pipe # 缓存结果的 ipc 管道

064

    end

065

066

    attr_accessor :user_agent, :redirect_limit

067

068

    def init_beanstalk_jobs # 准备beanstalk任务

069

        beanstalk = Beanstalk::Pool.new(*@beanstalk_jobs)

070

        #清空beanstalk的残留消息队列

071

        begin

072

            while job = beanstalk.reserve(0.1)

073

                job.delete

074

            end

075

        rescue Beanstalk::TimedOut

076

            print "Beanstalk queues cleared!\n"

077

        end

078

        @websites.size.times{|i| beanstalk.put(i)} # 将所有的任务压栈

079

        beanstalk.close

080

        rescue => e

081

            puts e

082

            exit

083

    end

084

085

    def process_jobs # 处理任务

086

        start_time = Time.now

087

        pm = Parallel::ForkManager.new(@pm_max)

088

        @pm_max.times do |i|

089

            pm.start(i) and next # 启动后，立刻 next 不会等待进程执行完，这样才可以并行运算

090

            beanstalk = Beanstalk::Pool.new(*@beanstalk_jobs)

091

            @ipc_reader.close    # 关闭读取管道，子进程只返回数据

092

            loop{

093

                begin

094

                    job = beanstalk.reserve(0.1) # 检测超时为0.1秒，因为任务以前提前压栈

095

                    index = job.body

096

                    job.delete

097

                    website = @websites[index.to_i]

098

                    result = Crawler.new(@user_agent).fetch(website)

099

                    @ipc_writer.puts( ({website=>result}).to_json )

100

                rescue Beanstalk::DeadlineSoonError, Beanstalk::TimedOut, SystemExit, Interrupt

101

                    break

102

                end

103

            }

104

            @ipc_writer.close

105

            pm.finish(0)   

106

        end

107

        @ipc_writer.close

108

        begin

109

            pm.wait_all_children        # 等待所有子进程处理完毕

110

        rescue SystemExit, Interrupt    # 遇到中断，打印消息

111

            print "Interrupt wait all children!\n"

112

        ensure

113

            results = read_results

114

            ap results, :indent => -4 , :index=>false # 打印处理结果

115

            print "Process end, total: #{@websites.size}, crawled: #{results.size}, time: #{'%.4f' % (Time.now - start_time)}s.\n"

116

        end

117

    end

118

119

    def read_results # 通过管道读取子进程抓取返回的数据

120

        results = {}

121

        while result = @ipc_reader.gets

122

            results.merge! JSON.parse(result)

123

        end

124

        @ipc_reader.close

125

        results

126

    end

127

128

    def run # 运行入口

129

        init_beanstalk_jobs

130

        process_jobs

131

    end

132
end

133
 
134
websites = %w(

135
http://www.51buy.com/ http://www.360buy.com/ http://www.tmall.com/ http://www.taobao.com/

136
http://china.alibaba.com/ http://www.paipai.com/ http://shop.qq.com/ http://www.lightinthebox.com/

137
http://www.amazon.cn/ http://www.newegg.com.cn/ http://www.vancl.com/ http://www.yihaodian.com/

138
http://www.dangdang.com/ http://www.m18.com/ http://www.suning.com/ http://www.hstyle.com/

139
)

140

beanstalk_jobs = [['localhost:11300'],'crawler-jobs']

141

user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.7; rv:13.0) Gecko/20100101 Firefox/13.0'

142

pm_max = 10

143
 
144

MultipleCrawler.new(websites, beanstalk_jobs, pm_max, user_agent).run

2
顶

0
踩

分享到：

使用python登录人人网并发表状态 | ruby 163 发送邮件

2013-01-30 21:42
浏览 2046
评论(0)
分类:Web前端
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

JD_scripts: 10. **性能优化**：可能涉及异步编程（Promise，async/await）、并行处理（多线程、多进程）以提升脚本执行效率。 11. **API接口**：可能调用了京东开放的API接口，如商品信息获取、订单处理等，涉及JSON格式的数据...

基于三菱PLC和触摸屏的停车场智能管理系统设计与实现: 内容概要：本文详细介绍了基于三菱PLC和三菱触摸屏构建的停车场智能管理系统。系统分为入口、出口和管理中心三大部分，分别负责车辆身份识别、车位检测、道闸控制、缴费结算等功能。三菱PLC作为核心控制器，通过梯形图编程实现了车辆检测、道闸控制等关键逻辑；三菱触摸屏提供人机交互界面，支持参数设置、状态监控等功能。文中还讨论了PLC与触摸屏之间的通信配置，以及如何通过物联网技术将系统接入云端。适合人群：从事智能交通系统开发的技术人员，尤其是熟悉三菱PLC编程和触摸屏应用的工程师。使用场景及目标：适用于新建或改造停车场项目，旨在提高停车场管理效率和服务质量，减少人工干预，实现智能化运营。其他说明：文中提供了具体的硬件配置建议、PLC编程实例、触摸屏界面设计指南及通信协议解析，有助于读者快速理解和实施类似项目。

自动化生产领域：汇川AM系列PLC在全自动N95口罩机中的高级编程与控制应用: 内容概要：本文深入探讨了基于汇川AM401/AM403系列PLC和CODESYS高级编程模式构建的全自动N95口罩机控制系统。该系统涵盖了多个关键技术，包括轴控制（如绝对定位、相对定位）、凸轮同步控制、超声波焊接机控制、放卷张力控制、封边轴焊耳轴随动跟随控制、高速低速切换控制、步进电机精细控制等。此外，还介绍了IT7070系列触摸屏提供的友好交互界面及其产量统计功能。文章详细解析了各部分的具体实现方式，如通过ST语言编写复杂的控制逻辑，利用CAM_Profile生成器动态调整凸轮曲线，以及通过PID算法实现张力控制等。同时，强调了程序的模块化设计和详细的注释，便于维护和扩展。适合人群：从事自动化生产设备开发的技术人员，尤其是熟悉PLC编程和CODESYS平台的工程师。使用场景及目标：适用于希望深入了解全自动N95口罩机控制系统设计和实现的专业人士。主要目标是展示如何通过先进的编程技术和控制策略提升口罩生产的效率和质量。其他说明：文中提到的实际案例和技术细节有助于读者更好地理解和应用相关技术，同时也为类似项目的开发提供了宝贵的参考资料。

【嵌入式开发】Linux内核移植全流程解析：从准备工作到问题解决的详细指南: 内容概要：本文详细介绍了Linux内核移植在嵌入式开发中的重要性及其具体实施步骤。首先，强调了Linux内核移植作为连接硬件与软件桥梁的重要性，特别是在智能穿戴设备、工业自动化控制系统等广泛应用中的角色。文章随后解析了Linux内核移植的主要步骤，包括准备阶段（选择合适的内核版本、获取源码、配置交叉编译环境）、内核源码修改（硬件平台支持、时钟调整、机器码适配）、内核配置（通过make config、make menuconfig或make xconfig进行配置）、内核编译与安装。此外，还探讨了常见的移植问题及其解决方案，如串口打印异常、文件系统挂载故障和驱动适配难题。最后，通过一个具体的ARM架构开发板移植案例，展示了整个移植流程的实际操作，并展望了Linux内核移植技术的发展趋势。适合人群：具备一定嵌入式开发基础，特别是对Linux内核有一定了解的研发人员和技术爱好者。使用场景及目标：①帮助开发者理解Linux内核移植的基本概念和流程；②指导开发者在实际项目中进行Linux内核移植，解决常见问题；③为从事嵌入式系统开发的人员提供理论支持和技术参考。其他说明：Linux内核移植是一项复杂但极具价值的任务，不仅需要扎实的理论知识，还需要丰富的实践经验。随着技术的进步，Linux内核移植技术也在不断发展，未来的方向将更加注重自动化和智能化，以提高移植效率和成功率。建议读者在学习过程中结合实际案例进行练习，逐步积累经验，掌握这一关键技术。

识别多项式模型：项生成、结构检测、参数估计和动态验证: 实现全面的系统表征，包括候选项生成、结构检测、参数估计以及动态和静态模型验证。该软件包特别适用于分析具有固有噪声和误差的流动工厂系统，这些系统被建模为受白噪声破坏的二次多项式。主要特点：动态数据分析：处理输入和输出的时间序列数据，并验证数据集以进行识别和验证。结构检测：删除不合适的聚类，并应用AIC和ERR等优化算法来细化模型结构。参数估计：使用扩展最小二乘（ELS）或受限扩展最小二乘（RELS）计算模型参数。模型验证：通过残差分析和相关系数评估模型性能。静态模型仿真：生成静态响应并模拟各种输入条件下的系统行为。方法概述：该类包括支持识别过程的几种方法： generateCandidateTerms：构造一个用于系统特征描述的候选术语矩阵。 detectStructure：应用算法精确识别模型结构。 estimateParameters ELS：使用扩展最小二乘法估计动态模型参数。 estimateParameters RELS：使用受限扩展最小二乘法计算参数。 validateModel：分析模型准确性并验证残差行为。 buildStaticResponse：模拟静态模型对不同输入的响应。 displayModel：以文本和面板格式显示已识别的动态模型。 displayStaticModel：展示静态模型及其仿真结果。

COMSOL变压器模型：时域与频域分析及磁致伸缩、噪声和洛伦兹力的多物理场仿真: 内容概要：本文详细介绍了如何使用 COMSOL Multiphysics 对变压器进行时域和频域分析，探讨了磁致伸缩、噪声和洛伦兹力的影响。文中通过具体的代码示例展示了如何设置时域和频域的边界条件，定义磁致伸缩系数，计算洛伦兹力，并通过多物理场耦合模拟变压器的振动和噪声。此外，还讨论了一些常见的仿真技巧和注意事项，如相位对齐、材料非线性特性和边界条件设置等。适合人群：从事电力系统研究、变压器设计和仿真的工程师和技术人员。使用场景及目标：适用于希望深入了解变压器内部物理机制及其对外界因素响应的专业人士。通过掌握这些方法，可以优化变压器设计，减少噪声，提升电力系统的稳定性和可靠性。其他说明：文章不仅提供了理论背景，还给出了实用的代码片段和仿真技巧，帮助读者更好地理解和应用 COMSOL 进行变压器建模。

linux系统~~~~~~~: linux系统~~~~~~~~~~~~~

TheIntroductionOfApache: TheIntroductionOfApache（Apache的有关介绍）

校园疫情防控管理平台 2025免费JAVA微信小程序毕设: 2025免费微信小程序毕业设计成品，包括源码+数据库+往届论文资料，附带启动教程和安装包。启动教程：https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频：https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈：Uniapp+Vue.js+SpringBoot+MySQL。开发工具：Idea+VSCode+微信开发者工具。

电气仿真中Matlab/Simulink的应用：电力电子、电机控制、新能源发电及电力系统的模型定制与优化: 内容概要：本文详细介绍了Matlab/Simulink在电气仿真领域的应用，涵盖多个方面。首先讨论了三相逆变器建模的关键参数设置，如载波频率和死区时间。接着探讨了电机控制中PI参数整定的方法，特别是永磁同步电机的矢量控制。对于新能源发电，着重讲解了光伏阵列的MPPT算法及其优化策略。此外，还涉及电力系统仿真的技巧，如自定义变压器模型和故障穿越功能的实现。文中提供了大量实用的代码片段，帮助读者更好地理解和应用这些技术。适合人群：从事电力电子、电机控制、新能源发电以及电力系统仿真的工程师和技术人员。使用场景及目标：①快速搭建和优化电力电子设备的仿真模型；②提高电机控制系统的设计效率和性能；③优化新能源发电系统的MPPT算法；④增强电力系统仿真的准确性和可靠性。其他说明：文章强调了仿真过程中常见的问题及解决方案，提供了丰富的实战经验和技巧，有助于读者在实际工作中少走弯路。同时，鼓励读者利用Simulink自带的案例库进行学习和参考。

MATLAB统计工具箱中的回归分析命令.pptx: MATLAB统计工具箱中的回归分析命令.pptx

NSAC全国重点标准化考试联盟认证试题计算机辅助设计AutoCAD.doc: NSAC全国重点标准化考试联盟认证试题计算机辅助设计AutoCAD.doc

精灵传信系统精灵通讯技术自定义对接易支付支持网站+小程序双端源码.zip: 精灵传信支持在线提交发送短信，查看回复短信，在线购买额度，自定义对接易支付，设置违禁词，支持网站+小程序双端。环境要求: PHP >= 73 MySQL>=5.6 Nginx>=1.6 系统安装教程 1.导入安装包里的数据库 2.打开.env文件填写数据库信息 3.设置运行目录public 4.设置伪静态thinkphp 后台账号密码分别是admin,123456

自动化压测重启Android手机设备: 1. 插上手机后会自动检测手机是否连接，连接成功后会自动重启； 2. 电脑上有adb 环境； 3. 电脑上装有grep 程序

Matlab-第七讲：编程基础II(-函数-).pptx: Matlab-第七讲：编程基础II(-函数-).pptx

基于遗传算法与免疫算法的物流配送中心选址优化及VRP路径规划(MATLAB实现): 内容概要：本文详细介绍了利用遗传算法和免疫算法解决物流配送中心选址问题的方法，并提供了完整的MATLAB源码及注释。文章首先阐述了物流配送中心选址的重要性和挑战，然后重点讲解了适应度函数的设计，包括处理容量约束和超载惩罚。接着介绍了种群初始化、交叉操作、变异操作的具体实现细节，以及如何通过动态调整变异率来避免早熟收敛。此外，还探讨了免疫算法的应用，通过引入抗体浓度机制防止算法陷入局部最优。最后展示了算法的实际效果，包括运输成本的显著降低和车辆满载率的提升。文中提供的代码具有良好的扩展性，能够适应不同的物流网络规模和需求。适合人群：从事物流管理、运筹优化领域的研究人员和技术人员，特别是对遗传算法、免疫算法感兴趣的开发者。使用场景及目标：适用于需要优化物流配送中心选址的企业和个人。主要目标是通过合理的数学建模和智能算法，降低运输成本，提高运营效率，实现资源的最佳配置。其他说明：本文不仅提供理论解释，还包括详细的代码实现和调优建议，帮助读者更好地理解和应用相关算法。同时，代码中预留了多种扩展接口，方便进一步研究和改进。

S7-200 PLC实现六位密码锁系统的详细解析及应用场景: 内容概要：本文详细介绍了一套基于西门子S7-200 PLC的六位密码锁系统的设计与实现。首先介绍了系统的硬件配置，包括六个数字输入点、四个功能键以及三个状态指示灯。接着深入讲解了密码锁的关键代码，如输入检测、密码比对、错误处理和防破解机制。文中还分享了许多实际调试的经验和技术细节，如按键防抖、移位寄存器的应用、指针寻址和循环比较等。此外，作者还讨论了如何优化程序性能，提高系统的稳定性和安全性。适合人群：具备一定PLC编程基础的技术人员，尤其是从事工业自动化领域的工程师。使用场景及目标：适用于需要高安全性和可靠性的门禁控制系统，如工厂车间、仓库等场所的安全门管理。主要目标是通过PLC实现一个稳定的六位密码锁系统，防止未经授权的访问。其他说明：文中提供了详细的代码示例和调试技巧，帮助读者更好地理解和实现该系统。同时，作者还提到未来可能加入指纹识别等高级功能，进一步提升系统的安全性。

JSP重点技术基础习题.doc: JSP重点技术基础习题.doc

家居项目，前端技术栈vue: 家居项目，前端技术栈vue

基于MATLAB/Simulink的光伏发电系统MPPT扰动观察法仿真与优化: 内容概要：本文详细介绍了光伏发电系统中最大功率点跟踪(MPPT)技术的经典实现方法——扰动观察法(Perturb and Observe)，并通过MATLAB/Simulink搭建了一个完整的仿真模型。文章首先解释了扰动观察法的基本原理，即通过不断施加小扰动并监测功率变化来逐步逼近最大功率点。随后展示了具体的Simulink模型构建步骤，包括光伏阵列、Boost电路和控制器的设计。文中特别强调了几个关键参数的选择，如步长(step size)、采样周期(sample time)以及电容值(capacitance value)，并对常见错误进行了提示。此外，作者分享了一些实用技巧，如采用动态步长策略以提高响应速度和平滑度，以及在PV模块输出端并联大电容以抑制功率波动。最后，通过实测波形验证了该方法的有效性和可行性。适合人群：对光伏发电系统及其控制算法感兴趣的工程技术人员，尤其是希望深入了解MPPT原理及其实现方式的研究者和技术爱好者。使用场景及目标：适用于需要进行光伏发电系统性能优化的研究项目或工业应用场合。主要目标是帮助读者掌握如何利用MATLAB/Simulink平台快速建立可靠的MPPT仿真模型，从而为实际系统的开发提供理论依据和技术支持。其他说明：文章不仅提供了详细的理论讲解，还包括了大量实践经验的分享，有助于读者更好地理解和应用所学知识。同时，文中提到的所有代码片段和配置建议均经过实际测试，确保其可行性和可靠性。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Ruby多进程并行抓取网页

[代码] [Ruby]代码

评论

发表评论

相关推荐

ROR windows 开发环境配置

ROR rails正常启动，但是http://127.0.0.1:3000不能访问的解决办法

Problem installing RMagick rubygem on Centos 6.3

centos yum install nokogiri 1.5.8 不成功的解决方案

Scope- ruby中变量的作用范围

ruby-1.8.7中truncate方法重写

Linux 环境passenger多ruby版本共存部署

快速正确的安装 Ruby, Rails 运行环境

Nginx+mongrel部署Rails应用

从Rails2到Rails3

用 Ruby scrAPI 做数据采集

Ruby 在 Windows 下播放声音

Ruby读取键盘输入 windows

rails查看工程的版本兼容问题

Ruby 构建支持多线程的 Web 服务器

Ruby on Rails 使用 Cookie 的方法

蒙娜丽莎的微笑 Ruby实现

ruby 163 发送 邮件

sitemap_generator 生成 Sitemap

ruby 实现杨辉三角

最近访客更多访客>>

ruby 163 发送邮件