想研究一下各大网站首页有多少个链接,于是用Ruby写了一个脚本,用Beanstalk消息队列,把任务放入Beanstalk中,同时开启多个子进程,如20个,并行运行,同时抓取网页,先抓取完成的进程再次读取Beanstalk任务,继续执行,直到没有任务后,进程退出,主进程等待所有子进程退出后,打印抓取的消息。
Ruby的多线程实际是只能跑在单cpu上,并且同一时刻cpu只处理一个线程,所以采用多进程抓取,消息队列采用最简单的Beanstalk,需要安装Beanstalkd服务。
示例代码主要抓取电商网站测试。
代码可以直接运行,需要ruby 1.9版本,1.9一下要稍微修改才能运行。
[代码] [Ruby]代码
001 |
#!/usr/bin/env ruby |
002 |
#encoding: UTF-8 |
003 |
004 |
# 抓取每一个站点的首页链接数量 |
005 |
# require 'rubygems' # 1.8.7 |
006 |
require 'ap' # gem install awesome_print
|
007 |
require 'json'
|
008 |
require 'net/http'
|
009 |
require 'nokogiri' # gem install nokogiri
|
010 |
require 'forkmanager' # gem install parallel-forkmanager
|
011 |
require 'beanstalk-client' # gem install beanstalk-client
|
012 |
013 |
class MultipleCrawler
|
014 |
015 |
class Crawler
|
016 |
def initialize(user_agent, redirect_limit= 1 )
|
017 |
@user_agent = user_agent
|
018 |
@redirect_limit = redirect_limit
|
019 |
@timeout = 20
|
020 |
end
|
021 |
attr_accessor :user_agent , :redirect_limit , :timeout
|
022 |
|
023 |
def fetch(website)
|
024 |
print "Pid:#{Process.pid}, fetch: #{website}\n"
|
025 |
redirect, url = @redirect_limit , website
|
026 |
start_time = Time .now
|
027 |
redirecting = false
|
028 |
begin
|
029 |
begin
|
030 |
uri = URI .parse(url)
|
031 |
req = Net:: HTTP ::Get. new (uri.path)
|
032 |
req.add_field( 'User-Agent' , @user_agent )
|
033 |
res = Net:: HTTP .start(uri.host, uri.port) do |http|
|
034 |
http.read_timeout = @timeout
|
035 |
http.request(req)
|
036 |
end
|
037 |
if res.header[ 'location' ] # 遇到重定向,则url设定为location,再次抓取
|
038 |
url = res.header[ 'location' ]
|
039 |
redirecting = true
|
040 |
end
|
041 |
redirect -= 1
|
042 |
end while redirecting and redirect>= 0
|
043 |
opened_time = ( Time .now - start_time).round( 4 ) # 统计打开网站耗时
|
044 |
encoding = res.body.scan(/<meta.+?charset=["'\s]*([\w-]+)/i)[ 0 ]
|
045 |
encoding = encoding ? encoding[ 0 ].upcase : 'GB18030'
|
046 |
html = 'UTF-8' ==encoding ? res.body : res.body.force_encoding( 'GB2312' ==encoding || 'GBK' ==encoding ? 'GB18030' : encoding).encode( 'UTF-8' )
|
047 |
doc = Nokogiri:: HTML (html)
|
048 |
processed_time = ( Time .now - start_time - opened_time).round( 4 ) # 统计分析链接耗时, 1.8.7, ('%.4f' % float).to_f 替换 round(4)
|
049 |
[opened_time, processed_time, doc.css( 'a[@href]' ).size, res.header[ 'server' ]]
|
050 |
rescue =>e
|
051 |
e.message
|
052 |
end
|
053 |
end
|
054 |
end
|
055 |
|
056 |
def initialize(websites, beanstalk_jobs, pm_max= 1 , user_agent= '' , redirect_limit= 1 )
|
057 |
@websites = websites # 网址数组
|
058 |
@beanstalk_jobs = beanstalk_jobs # beanstalk服务器地址和管道参数
|
059 |
@pm_max = pm_max # 最大并行运行进程数
|
060 |
@user_agent = user_agent # user_agent 伪装成浏览器访问
|
061 |
@redirect_limit = redirect_limit # 允许最大重定向次数
|
062 |
|
063 |
@ipc_reader , @ipc_writer = IO .pipe # 缓存结果的 ipc 管道
|
064 |
end
|
065 |
|
066 |
attr_accessor :user_agent , :redirect_limit
|
067 |
|
068 |
def init_beanstalk_jobs # 准备beanstalk任务
|
069 |
beanstalk = Beanstalk::Pool. new (* @beanstalk_jobs )
|
070 |
#清空beanstalk的残留消息队列
|
071 |
begin
|
072 |
while job = beanstalk.reserve( 0 . 1 )
|
073 |
job.delete
|
074 |
end
|
075 |
rescue Beanstalk::TimedOut
|
076 |
print "Beanstalk queues cleared!\n"
|
077 |
end
|
078 |
@websites .size.times{|i| beanstalk.put(i)} # 将所有的任务压栈
|
079 |
beanstalk.close
|
080 |
rescue => e
|
081 |
puts e
|
082 |
exit
|
083 |
end
|
084 |
|
085 |
def process_jobs # 处理任务
|
086 |
start_time = Time .now
|
087 |
pm = Parallel::ForkManager. new ( @pm_max )
|
088 |
@pm_max .times do |i|
|
089 |
pm.start(i) and next # 启动后,立刻 next 不会等待进程执行完,这样才可以并行运算
|
090 |
beanstalk = Beanstalk::Pool. new (* @beanstalk_jobs )
|
091 |
@ipc_reader .close # 关闭读取管道,子进程只返回数据
|
092 |
loop{
|
093 |
begin
|
094 |
job = beanstalk.reserve( 0 . 1 ) # 检测超时为0.1秒,因为任务以前提前压栈
|
095 |
index = job.body
|
096 |
job.delete
|
097 |
website = @websites [index.to_i]
|
098 |
result = Crawler. new ( @user_agent ).fetch(website)
|
099 |
@ipc_writer .puts( ({website=>result}).to_json )
|
100 |
rescue Beanstalk::DeadlineSoonError, Beanstalk::TimedOut, SystemExit, Interrupt
|
101 |
break
|
102 |
end
|
103 |
}
|
104 |
@ipc_writer .close
|
105 |
pm.finish( 0 )
|
106 |
end
|
107 |
@ipc_writer .close
|
108 |
begin
|
109 |
pm.wait_all_children # 等待所有子进程处理完毕
|
110 |
rescue SystemExit, Interrupt # 遇到中断,打印消息
|
111 |
print "Interrupt wait all children!\n"
|
112 |
ensure
|
113 |
results = read_results
|
114 |
ap results, :indent => - 4 , :index => false # 打印处理结果
|
115 |
print "Process end, total: #{@websites.size}, crawled: #{results.size}, time: #{'%.4f' % (Time.now - start_time)}s.\n"
|
116 |
end
|
117 |
end
|
118 |
|
119 |
def read_results # 通过管道读取子进程抓取返回的数据
|
120 |
results = {}
|
121 |
while result = @ipc_reader .gets
|
122 |
results.merge! JSON .parse(result)
|
123 |
end
|
124 |
@ipc_reader .close
|
125 |
results
|
126 |
end
|
127 |
|
128 |
def run # 运行入口
|
129 |
init_beanstalk_jobs
|
130 |
process_jobs
|
131 |
end
|
132 |
end |
133 |
134 |
websites = %w( |
135 |
http://www.51buy.com/ http://www.360buy.com/ http://www.tmall.com/ http://www.taobao.com/ |
136 |
http://china.alibaba.com/ http://www.paipai.com/ http://shop.qq.com/ http://www.lightinthebox.com/ |
137 |
http://www.amazon.cn/ http://www.newegg.com.cn/ http://www.vancl.com/ http://www.yihaodian.com/ |
138 |
http://www.dangdang.com/ http://www.m18.com/ http://www.suning.com/ http://www.hstyle.com/ |
139 |
) |
140 |
beanstalk_jobs = [[ 'localhost:11300' ], 'crawler-jobs' ]
|
141 |
user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.7; rv:13.0) Gecko/20100101 Firefox/13.0'
|
142 |
pm_max = 10
|
143 |
144 |
MultipleCrawler. new (websites, beanstalk_jobs, pm_max, user_agent).run
|
相关推荐
10. **性能优化**:可能涉及异步编程(Promise,async/await)、并行处理(多线程、多进程)以提升脚本执行效率。 11. **API接口**:可能调用了京东开放的API接口,如商品信息获取、订单处理等,涉及JSON格式的数据...
内容概要:本文详细介绍了基于三菱PLC和三菱触摸屏构建的停车场智能管理系统。系统分为入口、出口和管理中心三大部分,分别负责车辆身份识别、车位检测、道闸控制、缴费结算等功能。三菱PLC作为核心控制器,通过梯形图编程实现了车辆检测、道闸控制等关键逻辑;三菱触摸屏提供人机交互界面,支持参数设置、状态监控等功能。文中还讨论了PLC与触摸屏之间的通信配置,以及如何通过物联网技术将系统接入云端。 适合人群:从事智能交通系统开发的技术人员,尤其是熟悉三菱PLC编程和触摸屏应用的工程师。 使用场景及目标:适用于新建或改造停车场项目,旨在提高停车场管理效率和服务质量,减少人工干预,实现智能化运营。 其他说明:文中提供了具体的硬件配置建议、PLC编程实例、触摸屏界面设计指南及通信协议解析,有助于读者快速理解和实施类似项目。
内容概要:本文深入探讨了基于汇川AM401/AM403系列PLC和CODESYS高级编程模式构建的全自动N95口罩机控制系统。该系统涵盖了多个关键技术,包括轴控制(如绝对定位、相对定位)、凸轮同步控制、超声波焊接机控制、放卷张力控制、封边轴焊耳轴随动跟随控制、高速低速切换控制、步进电机精细控制等。此外,还介绍了IT7070系列触摸屏提供的友好交互界面及其产量统计功能。文章详细解析了各部分的具体实现方式,如通过ST语言编写复杂的控制逻辑,利用CAM_Profile生成器动态调整凸轮曲线,以及通过PID算法实现张力控制等。同时,强调了程序的模块化设计和详细的注释,便于维护和扩展。 适合人群:从事自动化生产设备开发的技术人员,尤其是熟悉PLC编程和CODESYS平台的工程师。 使用场景及目标:适用于希望深入了解全自动N95口罩机控制系统设计和实现的专业人士。主要目标是展示如何通过先进的编程技术和控制策略提升口罩生产的效率和质量。 其他说明:文中提到的实际案例和技术细节有助于读者更好地理解和应用相关技术,同时也为类似项目的开发提供了宝贵的参考资料。
内容概要:本文详细介绍了Linux内核移植在嵌入式开发中的重要性及其具体实施步骤。首先,强调了Linux内核移植作为连接硬件与软件桥梁的重要性,特别是在智能穿戴设备、工业自动化控制系统等广泛应用中的角色。文章随后解析了Linux内核移植的主要步骤,包括准备阶段(选择合适的内核版本、获取源码、配置交叉编译环境)、内核源码修改(硬件平台支持、时钟调整、机器码适配)、内核配置(通过make config、make menuconfig或make xconfig进行配置)、内核编译与安装。此外,还探讨了常见的移植问题及其解决方案,如串口打印异常、文件系统挂载故障和驱动适配难题。最后,通过一个具体的ARM架构开发板移植案例,展示了整个移植流程的实际操作,并展望了Linux内核移植技术的发展趋势。 适合人群:具备一定嵌入式开发基础,特别是对Linux内核有一定了解的研发人员和技术爱好者。 使用场景及目标:①帮助开发者理解Linux内核移植的基本概念和流程;②指导开发者在实际项目中进行Linux内核移植,解决常见问题;③为从事嵌入式系统开发的人员提供理论支持和技术参考。 其他说明:Linux内核移植是一项复杂但极具价值的任务,不仅需要扎实的理论知识,还需要丰富的实践经验。随着技术的进步,Linux内核移植技术也在不断发展,未来的方向将更加注重自动化和智能化,以提高移植效率和成功率。建议读者在学习过程中结合实际案例进行练习,逐步积累经验,掌握这一关键技术。
实现全面的系统表征,包括候选项生成、结构检测、参数估计以及动态和静态模型验证。该软件包特别适用于分析具有固有噪声和误差的流动工厂系统,这些系统被建模为受白噪声破坏的二次多项式。 主要特点: 动态数据分析:处理输入和输出的时间序列数据,并验证数据集以进行识别和验证。 结构检测:删除不合适的聚类,并应用AIC和ERR等优化算法来细化模型结构。 参数估计:使用扩展最小二乘(ELS)或受限扩展最小二乘(RELS)计算模型参数。 模型验证:通过残差分析和相关系数评估模型性能。 静态模型仿真:生成静态响应并模拟各种输入条件下的系统行为。 方法概述: 该类包括支持识别过程的几种方法: generateCandidateTerms:构造一个用于系统特征描述的候选术语矩阵。 detectStructure:应用算法精确识别模型结构。 estimateParameters ELS:使用扩展最小二乘法估计动态模型参数。 estimateParameters RELS:使用受限扩展最小二乘法计算参数。 validateModel:分析模型准确性并验证残差行为。 buildStaticResponse:模拟静态模型对不同输入的响应。 displayModel:以文本和面板格式显示已识别的动态模型。 displayStaticModel:展示静态模型及其仿真结果。
内容概要:本文详细介绍了如何使用 COMSOL Multiphysics 对变压器进行时域和频域分析,探讨了磁致伸缩、噪声和洛伦兹力的影响。文中通过具体的代码示例展示了如何设置时域和频域的边界条件,定义磁致伸缩系数,计算洛伦兹力,并通过多物理场耦合模拟变压器的振动和噪声。此外,还讨论了一些常见的仿真技巧和注意事项,如相位对齐、材料非线性特性和边界条件设置等。 适合人群:从事电力系统研究、变压器设计和仿真的工程师和技术人员。 使用场景及目标:适用于希望深入了解变压器内部物理机制及其对外界因素响应的专业人士。通过掌握这些方法,可以优化变压器设计,减少噪声,提升电力系统的稳定性和可靠性。 其他说明:文章不仅提供了理论背景,还给出了实用的代码片段和仿真技巧,帮助读者更好地理解和应用 COMSOL 进行变压器建模。
linux系统~~~~~~~~~~~~~
TheIntroductionOfApache(Apache的有关介绍)
2025免费微信小程序毕业设计成品,包括源码+数据库+往届论文资料,附带启动教程和安装包。 启动教程:https://www.bilibili.com/video/BV1BfB2YYEnS 讲解视频:https://www.bilibili.com/video/BV1BVKMeZEYr 技术栈:Uniapp+Vue.js+SpringBoot+MySQL。 开发工具:Idea+VSCode+微信开发者工具。
内容概要:本文详细介绍了Matlab/Simulink在电气仿真领域的应用,涵盖多个方面。首先讨论了三相逆变器建模的关键参数设置,如载波频率和死区时间。接着探讨了电机控制中PI参数整定的方法,特别是永磁同步电机的矢量控制。对于新能源发电,着重讲解了光伏阵列的MPPT算法及其优化策略。此外,还涉及电力系统仿真的技巧,如自定义变压器模型和故障穿越功能的实现。文中提供了大量实用的代码片段,帮助读者更好地理解和应用这些技术。 适合人群:从事电力电子、电机控制、新能源发电以及电力系统仿真的工程师和技术人员。 使用场景及目标:①快速搭建和优化电力电子设备的仿真模型;②提高电机控制系统的设计效率和性能;③优化新能源发电系统的MPPT算法;④增强电力系统仿真的准确性和可靠性。 其他说明:文章强调了仿真过程中常见的问题及解决方案,提供了丰富的实战经验和技巧,有助于读者在实际工作中少走弯路。同时,鼓励读者利用Simulink自带的案例库进行学习和参考。
MATLAB统计工具箱中的回归分析命令.pptx
NSAC全国重点标准化考试联盟认证试题计算机辅助设计AutoCAD.doc
精灵传信支持在线提交发送短信,查看回复短信,在线购买额度,自定义对接易支付,设置违禁词,支持网站+小程序双端。 环境要求: PHP >= 73 MySQL>=5.6 Nginx>=1.6 系统安装教程 1.导入安装包里的数据库 2.打开.env文件填写数据库信息 3.设置运行目录public 4.设置伪静态thinkphp 后台账号密码分别是admin,123456
1. 插上手机后会自动检测手机是否连接,连接成功后会自动重启; 2. 电脑上有adb 环境; 3. 电脑上装有grep 程序
Matlab-第七讲:编程基础II(-函数-).pptx
内容概要:本文详细介绍了利用遗传算法和免疫算法解决物流配送中心选址问题的方法,并提供了完整的MATLAB源码及注释。文章首先阐述了物流配送中心选址的重要性和挑战,然后重点讲解了适应度函数的设计,包括处理容量约束和超载惩罚。接着介绍了种群初始化、交叉操作、变异操作的具体实现细节,以及如何通过动态调整变异率来避免早熟收敛。此外,还探讨了免疫算法的应用,通过引入抗体浓度机制防止算法陷入局部最优。最后展示了算法的实际效果,包括运输成本的显著降低和车辆满载率的提升。文中提供的代码具有良好的扩展性,能够适应不同的物流网络规模和需求。 适合人群:从事物流管理、运筹优化领域的研究人员和技术人员,特别是对遗传算法、免疫算法感兴趣的开发者。 使用场景及目标:适用于需要优化物流配送中心选址的企业和个人。主要目标是通过合理的数学建模和智能算法,降低运输成本,提高运营效率,实现资源的最佳配置。 其他说明:本文不仅提供理论解释,还包括详细的代码实现和调优建议,帮助读者更好地理解和应用相关算法。同时,代码中预留了多种扩展接口,方便进一步研究和改进。
内容概要:本文详细介绍了一套基于西门子S7-200 PLC的六位密码锁系统的设计与实现。首先介绍了系统的硬件配置,包括六个数字输入点、四个功能键以及三个状态指示灯。接着深入讲解了密码锁的关键代码,如输入检测、密码比对、错误处理和防破解机制。文中还分享了许多实际调试的经验和技术细节,如按键防抖、移位寄存器的应用、指针寻址和循环比较等。此外,作者还讨论了如何优化程序性能,提高系统的稳定性和安全性。 适合人群:具备一定PLC编程基础的技术人员,尤其是从事工业自动化领域的工程师。 使用场景及目标:适用于需要高安全性和可靠性的门禁控制系统,如工厂车间、仓库等场所的安全门管理。主要目标是通过PLC实现一个稳定的六位密码锁系统,防止未经授权的访问。 其他说明:文中提供了详细的代码示例和调试技巧,帮助读者更好地理解和实现该系统。同时,作者还提到未来可能加入指纹识别等高级功能,进一步提升系统的安全性。
JSP重点技术基础习题.doc
家居项目,前端技术栈vue
内容概要:本文详细介绍了光伏发电系统中最大功率点跟踪(MPPT)技术的经典实现方法——扰动观察法(Perturb and Observe),并通过MATLAB/Simulink搭建了一个完整的仿真模型。文章首先解释了扰动观察法的基本原理,即通过不断施加小扰动并监测功率变化来逐步逼近最大功率点。随后展示了具体的Simulink模型构建步骤,包括光伏阵列、Boost电路和控制器的设计。文中特别强调了几个关键参数的选择,如步长(step size)、采样周期(sample time)以及电容值(capacitance value),并对常见错误进行了提示。此外,作者分享了一些实用技巧,如采用动态步长策略以提高响应速度和平滑度,以及在PV模块输出端并联大电容以抑制功率波动。最后,通过实测波形验证了该方法的有效性和可行性。 适合人群:对光伏发电系统及其控制算法感兴趣的工程技术人员,尤其是希望深入了解MPPT原理及其实现方式的研究者和技术爱好者。 使用场景及目标:适用于需要进行光伏发电系统性能优化的研究项目或工业应用场合。主要目标是帮助读者掌握如何利用MATLAB/Simulink平台快速建立可靠的MPPT仿真模型,从而为实际系统的开发提供理论依据和技术支持。 其他说明:文章不仅提供了详细的理论讲解,还包括了大量实践经验的分享,有助于读者更好地理解和应用所学知识。同时,文中提到的所有代码片段和配置建议均经过实际测试,确保其可行性和可靠性。