- 浏览: 303098 次
- 性别:
- 来自: 武汉
文章分类
最新评论
-
masuweng:
如何给新人机会 -
masuweng:
多sql结果集按列合并新结果报表实现方案 -
Ahe:
赞
坚持长跑方能赢 -
masuweng:
好好好
程序员如何更好的了解自己所做的事情 -
小楠人:
laoguan123 写道楼主好,使用过一些excel导入导出 ...
excell导入导出
Skynet --- ruby的类Google Map/Reduce框架
转发来源:http://robbin.iteye.com/blog/199257
Skynet是一个很响亮的名字,因为它是阿诺施瓦辛格主演的经典系列电影《终结者》里面的统治人类的超级计算机网络。不过本文的Skynet没这么恐怖,它是一个ruby版本的Google Map/Reduce框架的名字而已。
Google的Map/Reduce框架实在太有名气了,他可以把一个任务切分为很多份,交给n台计算机并行执行,返回的结果再并行的归并,最后得到运算的结果。据说Google一个搜索结果会Map到7000台服务器并行执行,这么多么可怕的分布式运算能力阿!有了Map/Reduce,程序员就可以在无需关注分布式框架的情况下,用简单的代码写出来健壮、并行的分布式应用程序,并且可以充分发挥计算机群集运算的能力。
如今能够实现Map/Reduce算法的框架已经有好几个了,其中最有名气的可能就是Yahoo发起的开源项目Hadoop,不过Hadoop并不是用ruby编写的,但在ruby的世界,Adam Pisoni已经开发出来了ruby版本的Map/Reduce框架,这就是Skynet。
Adam Pisoni开发Skynet的初衷是因为Adam Pisoni的公司Geni.com是一家定位于家族SNS的互联网网站。网站提供的新闻推送功能要求能够从大量的用户产生的信息当中提取特定用户感兴趣的内容,推送给用户。这实际上是一个分布式运算模型,要能够把任务分布到多台服务器上面执行,最后把任务归并回来。Adam Pisoni没有找到合适的框架,最终自己开发了Skynet,运用Map/Reduce算法来提供这个分布式运算平台。
用Skynet开发Map/Reduce的分布式应用程序非常简单,让我们举一个简单的例子看看吧:假设有一个1GB的文本文件,我们的任务是要统计该文件当中每个单词出现的次数统计。传统的做法当然很简单,顺序读入文件内容,进行单词统计就行了,但是毫无疑问,执行速度会很慢。如果我们有一个1000台服务器的运算群集,我们可以如何利用Skeynet来并发执行这个程序,从而缩短统计时间呢?
Map/Reduce算法的过程是:
1、Partition(划分数据)
把数据划分为1000份,这个过程由Skynet自动完成
2、Map
除了划分数据,还需要把运算该数据的代码也Map到每个运算节点上面去并发执行。这1000个节点各自执行自己的任务,执行完毕以后把执行结果返回
3、Partition
这1000分执行结果需要归并,于是我们再次划分数据,比方说划分为10份,这个过程也是Skynet自动完成的
4、Reduce
把Reduce代码和Reduce数据分发到10个节点执行,每个节点执行完毕返回数据。如果需要再次Reduce可以再次执行。最终Reduce为一个总共的结果。
其实Map/Reduce算法的原理是很简单的,好了,看看Skynet下面,我们怎么实现呢?其实我们需要编写的代码只有两个方法:一个map方法,告诉skynet如何执行每份数据,一个reduce方法,告诉skynet如何归并每份数据,所以这个并行算法最终用Skynet来写的话,也非常简单:
Ruby代码 收藏代码
class MapreduceTest
include SkynetDebugger
def self.map(datas)
results = {}
datas.each do |data|
results[data] ||= 0
results[data] += 1
end
[results]
end
def self.reduce(datas)
results = {}
datas.each do |hashes|
hashes.each do |key,value|
results[key] ||= 0
results[key] += value
end
end
results
end
end
这个就是一个最简单、但是完整ruby版本的Map/Reduce代码了。我们需要编写一个map方法,告诉skynet去统计每个单词的出现次数,我们还需要编写一个reduce方法告诉skynet去归并每个map的统计结果。好了,剩下所有的工作都归Skeynet接管了,是不是很简单!
当然要让这个Map/Reduce跑起来我们还需要做一些工作,比方说安装skynet,配置skynet的并行节点等等,这些琐碎的工作可以看看skynet自己的文档:http://skynet.rubyforge.org/doc/index.html,就不详述了。
值得一提的是Skynet可以和Rails框架良好的整合起来工作,你可以把Rails当中一些非常耗时、可以Map/Reduce的工作丢给Skynet去异步后台执行,比方说:
Ruby代码 收藏代码
MyModel.distributed_find(:all, :conditions => “created_on < ’#{3.days.ago}’”).each(:some_method)
把最近3天以来所有的model查询处理以后要执行的耗时操作some_method交给Skynet,让Skynet动用他强大的运算网络去执行。
还可以异步执行:
Ruby代码 收藏代码
model_object.send_later(:method, options, :save)
把耗时的任务交给Skynet去异步执行。
对于拥有强大运算网络、并且需要进行大量耗时运算的web2.0网站来说,Skynet真是一个很棒的工具,他可以让程序员很简单的编写处理健壮而高效的分布式应用程序!
转发来源:http://robbin.iteye.com/blog/199257
Skynet是一个很响亮的名字,因为它是阿诺施瓦辛格主演的经典系列电影《终结者》里面的统治人类的超级计算机网络。不过本文的Skynet没这么恐怖,它是一个ruby版本的Google Map/Reduce框架的名字而已。
Google的Map/Reduce框架实在太有名气了,他可以把一个任务切分为很多份,交给n台计算机并行执行,返回的结果再并行的归并,最后得到运算的结果。据说Google一个搜索结果会Map到7000台服务器并行执行,这么多么可怕的分布式运算能力阿!有了Map/Reduce,程序员就可以在无需关注分布式框架的情况下,用简单的代码写出来健壮、并行的分布式应用程序,并且可以充分发挥计算机群集运算的能力。
如今能够实现Map/Reduce算法的框架已经有好几个了,其中最有名气的可能就是Yahoo发起的开源项目Hadoop,不过Hadoop并不是用ruby编写的,但在ruby的世界,Adam Pisoni已经开发出来了ruby版本的Map/Reduce框架,这就是Skynet。
Adam Pisoni开发Skynet的初衷是因为Adam Pisoni的公司Geni.com是一家定位于家族SNS的互联网网站。网站提供的新闻推送功能要求能够从大量的用户产生的信息当中提取特定用户感兴趣的内容,推送给用户。这实际上是一个分布式运算模型,要能够把任务分布到多台服务器上面执行,最后把任务归并回来。Adam Pisoni没有找到合适的框架,最终自己开发了Skynet,运用Map/Reduce算法来提供这个分布式运算平台。
用Skynet开发Map/Reduce的分布式应用程序非常简单,让我们举一个简单的例子看看吧:假设有一个1GB的文本文件,我们的任务是要统计该文件当中每个单词出现的次数统计。传统的做法当然很简单,顺序读入文件内容,进行单词统计就行了,但是毫无疑问,执行速度会很慢。如果我们有一个1000台服务器的运算群集,我们可以如何利用Skeynet来并发执行这个程序,从而缩短统计时间呢?
Map/Reduce算法的过程是:
1、Partition(划分数据)
把数据划分为1000份,这个过程由Skynet自动完成
2、Map
除了划分数据,还需要把运算该数据的代码也Map到每个运算节点上面去并发执行。这1000个节点各自执行自己的任务,执行完毕以后把执行结果返回
3、Partition
这1000分执行结果需要归并,于是我们再次划分数据,比方说划分为10份,这个过程也是Skynet自动完成的
4、Reduce
把Reduce代码和Reduce数据分发到10个节点执行,每个节点执行完毕返回数据。如果需要再次Reduce可以再次执行。最终Reduce为一个总共的结果。
其实Map/Reduce算法的原理是很简单的,好了,看看Skynet下面,我们怎么实现呢?其实我们需要编写的代码只有两个方法:一个map方法,告诉skynet如何执行每份数据,一个reduce方法,告诉skynet如何归并每份数据,所以这个并行算法最终用Skynet来写的话,也非常简单:
Ruby代码 收藏代码
class MapreduceTest
include SkynetDebugger
def self.map(datas)
results = {}
datas.each do |data|
results[data] ||= 0
results[data] += 1
end
[results]
end
def self.reduce(datas)
results = {}
datas.each do |hashes|
hashes.each do |key,value|
results[key] ||= 0
results[key] += value
end
end
results
end
end
这个就是一个最简单、但是完整ruby版本的Map/Reduce代码了。我们需要编写一个map方法,告诉skynet去统计每个单词的出现次数,我们还需要编写一个reduce方法告诉skynet去归并每个map的统计结果。好了,剩下所有的工作都归Skeynet接管了,是不是很简单!
当然要让这个Map/Reduce跑起来我们还需要做一些工作,比方说安装skynet,配置skynet的并行节点等等,这些琐碎的工作可以看看skynet自己的文档:http://skynet.rubyforge.org/doc/index.html,就不详述了。
值得一提的是Skynet可以和Rails框架良好的整合起来工作,你可以把Rails当中一些非常耗时、可以Map/Reduce的工作丢给Skynet去异步后台执行,比方说:
Ruby代码 收藏代码
MyModel.distributed_find(:all, :conditions => “created_on < ’#{3.days.ago}’”).each(:some_method)
把最近3天以来所有的model查询处理以后要执行的耗时操作some_method交给Skynet,让Skynet动用他强大的运算网络去执行。
还可以异步执行:
Ruby代码 收藏代码
model_object.send_later(:method, options, :save)
把耗时的任务交给Skynet去异步执行。
对于拥有强大运算网络、并且需要进行大量耗时运算的web2.0网站来说,Skynet真是一个很棒的工具,他可以让程序员很简单的编写处理健壮而高效的分布式应用程序!
发表评论
-
git仓库创建
2020-09-04 15:33 713推送现有文件夹 cd existing_folder git ... -
puma高并发
2020-08-19 09:31 478nginx突发大量502报错 top看一下,cpu的占用并不高 ... -
searchkick
2019-04-10 11:30 0# 通用查询块(条件) def general_ ... -
导入线下excell业务数据按权重匹配线上数据
2019-03-07 11:00 906业务场景:(系统间还没有接口对调,订单号暂时需要线下处理) 线 ... -
两对象同时映射一对一和一对多
2019-02-20 10:14 861class Kpi::Team < Applicat ... -
ruby一些类加载方式
2018-12-21 10:12 570require_dependency 'order/sco ... -
基于ruby的gem remotipart的异步上传文件
2018-12-21 10:11 539针对某一对象保存实例化之前,异步上传图片保存。 gem ' ... -
基于html2canvas的长图分享
2018-12-21 10:11 1163<span class="ui label ... -
rails处理上传读取excell&生成excell
2018-12-20 14:15 997gem 'spreadsheet' gem 'roo', ... -
基于ruby Mechanize的爬虫
2018-12-20 13:09 691def self.sang_carwler ... -
一些常用加密方式
2018-12-20 13:02 732sign = OpenSSL::Digest::SHA256. ... -
ruby 调用restful接口示例
2018-12-20 12:02 931链接参数中添加token def self.query_p ... -
rails错误日志记录
2018-12-19 14:41 780Rails中对日志的处理采用的是“消息-订阅”机制,各部分组件 ... -
railsAPI接收Base64文件
2018-12-18 11:05 1044tmp_dir = " ... -
ruby 调用savon接口示例
2018-12-18 10:51 1038例子一 module Api module Aob ... -
关于国际商城现货展示与购物车的费用设计
2018-11-15 18:34 448关于国际商城现货展示 ... -
基于多线程的全局变量
2018-10-31 19:50 1182def current_nation def ... -
hash最小值过滤算法
2018-10-31 09:52 1092[["数量","包装" ... -
阿里云裸机部署rails运用
2018-10-08 20:33 1404登录阿里云后首先 sudo apt-get update a ... -
打包订单单据发给货代
2018-09-11 15:43 1182pdf&excell&png # rend ...
相关推荐
不过本文的Skynet没这么恐怖,它是一个ruby版本的Google Map/Reduce框架的名字而已。 Google的Map/Reduce框架实在太有名气了,他可以把一个任务切分为很多份,交给n台计算机并行执行,返回的结果再并行的归并,最后...
MapReduce是Google为处理大规模数据而提出的一种编程模型,它将复杂的计算任务分解为两个主要阶段:Map和Reduce。Map阶段将大问题拆解为多个小问题,分配到不同的计算节点进行处理,而Reduce阶段则负责收集和整合Map...
例如,可以使用`cat $Files | map | sort | reduce > output`这样的命令来模拟整个过程,其中`map`和`reduce`是用户定义的映射器和还原器。 3. **Hadoop Streaming命令行示例**: - 使用Hadoop Streaming命令行工具...
- **Reduce 阶段**:在这个阶段,来自不同map函数的输出按照键进行分组,然后传递给reduce函数进行进一步处理。reduce函数的主要职责是对具有相同键的所有值进行汇总或其他类型的数据聚合。 #### 2. 用户自定义接口...
MapReduce框架通过两个关键操作——Map操作和Reduce操作——来实现大规模数据集的并行处理。Map操作用于处理输入数据并生成中间的键值对,而Reduce操作则将具有相同键的值进行合并处理。这两个操作共同构成了...
- MapReduce是一种编程模型,用于大规模数据集(通常在PB级别)的并行运算,概念“Map(映射)”和“Reduce(归约)”,来源于函数式编程语言领域。 - 开源项目Hadoop实现了MapReduce的思想,提供了一种简单有效的...
- **MapReduce**:数据处理框架,通过Map和Reduce两阶段处理大规模数据集。 - **HBase**:基于Hadoop的NoSQL数据库,提供实时读写能力。 - **Hive**:数据仓库工具,支持通过SQL-like查询语言处理Hadoop中的数据。 -...
- Reduce阶段:对Map阶段的结果进行聚合,产生最终结果。 三、Hadoop生态系统 除了HDFS和MapReduce,Hadoop生态系统还包括许多其他工具和服务,如: - YARN(Yet Another Resource Negotiator):资源管理和调度...
它允许开发者编写Map(映射)函数和Reduce(归约)函数来处理数据集。这种模型特别适合于处理大数据集,因为其工作原理是将复杂计算分解为多个可并行处理的小任务。 6. Hadoop实践应用 本书强调实践应用,从基础的...
MapReduce是Hadoop中的计算模型,它将大规模数据处理分解为两个主要阶段:Map和Reduce。在Map阶段,数据被分发到集群的各个节点进行并行处理;在Reduce阶段,处理后的结果被聚合和整合,以生成最终的结果。这种模型...
RubyonRails框架(简称Rails或者Rails框架)是一个基于Ruby语言的越来越流行的网络应用软件开发框架。它提供了关于REST最好的支持,也是当今应用REST最成功的一个软件开发框架。Rails框架(从版本1.2.x起)成为了第一...
- **Reduce阶段**:汇总来自Map阶段的结果,进行进一步的分析或聚合操作。 - **案例分析**:通过实际案例,如WordCount、TopN分析等,详细介绍MapReduce的具体实现方法。 2. **Hadoop API使用** - **Java API**...
- **特点:** MapReduce 将复杂的任务分解成两部分——Map 和 Reduce,分别执行数据的映射和结果的汇总。 - **应用场景:** 常用于大数据处理领域,例如数据分析、日志处理等。 **2.3 Hadoop** - **定义:** Hadoop ...
- **函数编程**:lodash支持函数式编程,如`_.map()`和`_.reduce()`,可以进行数组映射和归约操作,适用于计算总价、平均价等业务逻辑。 **单页应用与Materialize CSS** 该项目被标记为"single-page-app",这意味...