`

ruby的类Google Map/Reduce框架

    博客分类:
  • RUBY
 
阅读更多
Skynet --- ruby的类Google Map/Reduce框架
转发来源:http://robbin.iteye.com/blog/199257

Skynet是一个很响亮的名字,因为它是阿诺施瓦辛格主演的经典系列电影《终结者》里面的统治人类的超级计算机网络。不过本文的Skynet没这么恐怖,它是一个ruby版本的Google Map/Reduce框架的名字而已。

Google的Map/Reduce框架实在太有名气了,他可以把一个任务切分为很多份,交给n台计算机并行执行,返回的结果再并行的归并,最后得到运算的结果。据说Google一个搜索结果会Map到7000台服务器并行执行,这么多么可怕的分布式运算能力阿!有了Map/Reduce,程序员就可以在无需关注分布式框架的情况下,用简单的代码写出来健壮、并行的分布式应用程序,并且可以充分发挥计算机群集运算的能力。

如今能够实现Map/Reduce算法的框架已经有好几个了,其中最有名气的可能就是Yahoo发起的开源项目Hadoop,不过Hadoop并不是用ruby编写的,但在ruby的世界,Adam Pisoni已经开发出来了ruby版本的Map/Reduce框架,这就是Skynet。

Adam Pisoni开发Skynet的初衷是因为Adam Pisoni的公司Geni.com是一家定位于家族SNS的互联网网站。网站提供的新闻推送功能要求能够从大量的用户产生的信息当中提取特定用户感兴趣的内容,推送给用户。这实际上是一个分布式运算模型,要能够把任务分布到多台服务器上面执行,最后把任务归并回来。Adam Pisoni没有找到合适的框架,最终自己开发了Skynet,运用Map/Reduce算法来提供这个分布式运算平台。

用Skynet开发Map/Reduce的分布式应用程序非常简单,让我们举一个简单的例子看看吧:假设有一个1GB的文本文件,我们的任务是要统计该文件当中每个单词出现的次数统计。传统的做法当然很简单,顺序读入文件内容,进行单词统计就行了,但是毫无疑问,执行速度会很慢。如果我们有一个1000台服务器的运算群集,我们可以如何利用Skeynet来并发执行这个程序,从而缩短统计时间呢?

Map/Reduce算法的过程是:

1、Partition(划分数据)
把数据划分为1000份,这个过程由Skynet自动完成

2、Map
除了划分数据,还需要把运算该数据的代码也Map到每个运算节点上面去并发执行。这1000个节点各自执行自己的任务,执行完毕以后把执行结果返回

3、Partition
这1000分执行结果需要归并,于是我们再次划分数据,比方说划分为10份,这个过程也是Skynet自动完成的

4、Reduce
把Reduce代码和Reduce数据分发到10个节点执行,每个节点执行完毕返回数据。如果需要再次Reduce可以再次执行。最终Reduce为一个总共的结果。

其实Map/Reduce算法的原理是很简单的,好了,看看Skynet下面,我们怎么实现呢?其实我们需要编写的代码只有两个方法:一个map方法,告诉skynet如何执行每份数据,一个reduce方法,告诉skynet如何归并每份数据,所以这个并行算法最终用Skynet来写的话,也非常简单:

Ruby代码  收藏代码
class MapreduceTest 
  include SkynetDebugger 
           
  def self.map(datas) 
    results = {} 
    datas.each do |data| 
      results[data] ||= 0 
      results[data] += 1 
    end                  
    [results]       
  end 
   
  def self.reduce(datas) 
    results = {} 
    datas.each do |hashes| 
      hashes.each do |key,value| 
        results[key] ||= 0 
        results[key] += value 
      end 
    end 
    results 
  end 
end 


这个就是一个最简单、但是完整ruby版本的Map/Reduce代码了。我们需要编写一个map方法,告诉skynet去统计每个单词的出现次数,我们还需要编写一个reduce方法告诉skynet去归并每个map的统计结果。好了,剩下所有的工作都归Skeynet接管了,是不是很简单!

当然要让这个Map/Reduce跑起来我们还需要做一些工作,比方说安装skynet,配置skynet的并行节点等等,这些琐碎的工作可以看看skynet自己的文档:http://skynet.rubyforge.org/doc/index.html,就不详述了。

值得一提的是Skynet可以和Rails框架良好的整合起来工作,你可以把Rails当中一些非常耗时、可以Map/Reduce的工作丢给Skynet去异步后台执行,比方说:

Ruby代码  收藏代码
MyModel.distributed_find(:all, :conditions => “created_on < ’#{3.days.ago}’”).each(:some_method) 

把最近3天以来所有的model查询处理以后要执行的耗时操作some_method交给Skynet,让Skynet动用他强大的运算网络去执行。

还可以异步执行:
Ruby代码  收藏代码
model_object.send_later(:method, options, :save) 

把耗时的任务交给Skynet去异步执行。

对于拥有强大运算网络、并且需要进行大量耗时运算的web2.0网站来说,Skynet真是一个很棒的工具,他可以让程序员很简单的编写处理健壮而高效的分布式应用程序!
分享到:
评论

相关推荐

    Ruby中的类Google Map/Reduce框架Skynet介绍

    不过本文的Skynet没这么恐怖,它是一个ruby版本的Google Map/Reduce框架的名字而已。 Google的Map/Reduce框架实在太有名气了,他可以把一个任务切分为很多份,交给n台计算机并行执行,返回的结果再并行的归并,最后...

    Java 开发分析大数据.pdf

    MapReduce是Google为处理大规模数据而提出的一种编程模型,它将复杂的计算任务分解为两个主要阶段:Map和Reduce。Map阶段将大问题拆解为多个小问题,分配到不同的计算节点进行处理,而Reduce阶段则负责收集和整合Map...

    HadoopStreaming

    例如,可以使用`cat $Files | map | sort | reduce &gt; output`这样的命令来模拟整个过程,其中`map`和`reduce`是用户定义的映射器和还原器。 3. **Hadoop Streaming命令行示例**: - 使用Hadoop Streaming命令行工具...

    MapReduce分布式计算平台编程示例

    - **Reduce 阶段**:在这个阶段,来自不同map函数的输出按照键进行分组,然后传递给reduce函数进行进一步处理。reduce函数的主要职责是对具有相同键的所有值进行汇总或其他类型的数据聚合。 #### 2. 用户自定义接口...

    COMP9313 big data MapReduce

    MapReduce框架通过两个关键操作——Map操作和Reduce操作——来实现大规模数据集的并行处理。Map操作用于处理输入数据并生成中间的键值对,而Reduce操作则将具有相同键的值进行合并处理。这两个操作共同构成了...

    Hadoop权威指南(第三版)

    - MapReduce是一种编程模型,用于大规模数据集(通常在PB级别)的并行运算,概念“Map(映射)”和“Reduce(归约)”,来源于函数式编程语言领域。 - 开源项目Hadoop实现了MapReduce的思想,提供了一种简单有效的...

    云计算平台的选择

    - **MapReduce**:数据处理框架,通过Map和Reduce两阶段处理大规模数据集。 - **HBase**:基于Hadoop的NoSQL数据库,提供实时读写能力。 - **Hive**:数据仓库工具,支持通过SQL-like查询语言处理Hadoop中的数据。 -...

    hadoop-course:从 code.google.comphadoop-course 自动导出

    - Reduce阶段:对Map阶段的结果进行聚合,产生最终结果。 三、Hadoop生态系统 除了HDFS和MapReduce,Hadoop生态系统还包括许多其他工具和服务,如: - YARN(Yet Another Resource Negotiator):资源管理和调度...

    大数据云计算利器:Hadoop The Definitive Guide,2Ed.pdf

    它允许开发者编写Map(映射)函数和Reduce(归约)函数来处理数据集。这种模型特别适合于处理大数据集,因为其工作原理是将复杂计算分解为多个可并行处理的小任务。 6. Hadoop实践应用 本书强调实践应用,从基础的...

    hadoop-pres:hadoop简介

    MapReduce是Hadoop中的计算模型,它将大规模数据处理分解为两个主要阶段:Map和Reduce。在Map阶段,数据被分发到集群的各个节点进行并行处理;在Reduce阶段,处理后的结果被聚合和整合,以生成最终的结果。这种模型...

    ASP EXCEL导入SQL

     RubyonRails框架(简称Rails或者Rails框架)是一个基于Ruby语言的越来越流行的网络应用软件开发框架。它提供了关于REST最好的支持,也是当今应用REST最成功的一个软件开发框架。Rails框架(从版本1.2.x起)成为了第一...

    Hadoop实战 中文版

    - **Reduce阶段**:汇总来自Map阶段的结果,进行进一步的分析或聚合操作。 - **案例分析**:通过实际案例,如WordCount、TopN分析等,详细介绍MapReduce的具体实现方法。 2. **Hadoop API使用** - **Java API**...

    云计算技术介绍

    - **特点:** MapReduce 将复杂的任务分解成两部分——Map 和 Reduce,分别执行数据的映射和结果的汇总。 - **应用场景:** 常用于大数据处理领域,例如数据分析、日志处理等。 **2.3 Hadoop** - **定义:** Hadoop ...

    jquery-lodash-online-store:使用lodash和jquery创建的电子商务单页应用

    - **函数编程**:lodash支持函数式编程,如`_.map()`和`_.reduce()`,可以进行数组映射和归约操作,适用于计算总价、平均价等业务逻辑。 **单页应用与Materialize CSS** 该项目被标记为"single-page-app",这意味...

Global site tag (gtag.js) - Google Analytics