`
robbin
  • 浏览: 4820591 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
377a9ecd-1ea1-34ac-9530-9daa53bb2a7b
robbin谈管理
浏览量:137002
社区版块
存档分类
最新评论

Skynet --- ruby的类Google Map/Reduce框架

    博客分类:
  • Ruby
阅读更多
Skynet是一个很响亮的名字,因为它是阿诺施瓦辛格主演的经典系列电影《终结者》里面的统治人类的超级计算机网络。不过本文的Skynet没这么恐怖,它是一个ruby版本的Google Map/Reduce框架的名字而已。

Google的Map/Reduce框架实在太有名气了,他可以把一个任务切分为很多份,交给n台计算机并行执行,返回的结果再并行的归并,最后得到运算的结果。据说Google一个搜索结果会Map到7000台服务器并行执行,这么多么可怕的分布式运算能力阿!有了Map/Reduce,程序员就可以在无需关注分布式框架的情况下,用简单的代码写出来健壮、并行的分布式应用程序,并且可以充分发挥计算机群集运算的能力。

如今能够实现Map/Reduce算法的框架已经有好几个了,其中最有名气的可能就是Yahoo发起的开源项目Hadoop,不过Hadoop并不是用ruby编写的,但在ruby的世界,Adam Pisoni已经开发出来了ruby版本的Map/Reduce框架,这就是Skynet。

Adam Pisoni开发Skynet的初衷是因为Adam Pisoni的公司Geni.com是一家定位于家族SNS的互联网网站。网站提供的新闻推送功能要求能够从大量的用户产生的信息当中提取特定用户感兴趣的内容,推送给用户。这实际上是一个分布式运算模型,要能够把任务分布到多台服务器上面执行,最后把任务归并回来。Adam Pisoni没有找到合适的框架,最终自己开发了Skynet,运用Map/Reduce算法来提供这个分布式运算平台。

用Skynet开发Map/Reduce的分布式应用程序非常简单,让我们举一个简单的例子看看吧:假设有一个1GB的文本文件,我们的任务是要统计该文件当中每个单词出现的次数统计。传统的做法当然很简单,顺序读入文件内容,进行单词统计就行了,但是毫无疑问,执行速度会很慢。如果我们有一个1000台服务器的运算群集,我们可以如何利用Skeynet来并发执行这个程序,从而缩短统计时间呢?

Map/Reduce算法的过程是:

1、Partition(划分数据)
把数据划分为1000份,这个过程由Skynet自动完成

2、Map
除了划分数据,还需要把运算该数据的代码也Map到每个运算节点上面去并发执行。这1000个节点各自执行自己的任务,执行完毕以后把执行结果返回

3、Partition
这1000分执行结果需要归并,于是我们再次划分数据,比方说划分为10份,这个过程也是Skynet自动完成的

4、Reduce
把Reduce代码和Reduce数据分发到10个节点执行,每个节点执行完毕返回数据。如果需要再次Reduce可以再次执行。最终Reduce为一个总共的结果。

其实Map/Reduce算法的原理是很简单的,好了,看看Skynet下面,我们怎么实现呢?其实我们需要编写的代码只有两个方法:一个map方法,告诉skynet如何执行每份数据,一个reduce方法,告诉skynet如何归并每份数据,所以这个并行算法最终用Skynet来写的话,也非常简单:

  class MapreduceTest
    include SkynetDebugger
            
    def self.map(datas)
      results = {}
      datas.each do |data|
        results[data] ||= 0
        results[data] += 1
      end                 
      [results]      
    end
    
    def self.reduce(datas)
      results = {}
      datas.each do |hashes|
        hashes.each do |key,value|
          results[key] ||= 0
          results[key] += value
        end
      end
      results
    end
  end


这个就是一个最简单、但是完整ruby版本的Map/Reduce代码了。我们需要编写一个map方法,告诉skynet去统计每个单词的出现次数,我们还需要编写一个reduce方法告诉skynet去归并每个map的统计结果。好了,剩下所有的工作都归Skeynet接管了,是不是很简单!

当然要让这个Map/Reduce跑起来我们还需要做一些工作,比方说安装skynet,配置skynet的并行节点等等,这些琐碎的工作可以看看skynet自己的文档:http://skynet.rubyforge.org/doc/index.html,就不详述了。

值得一提的是Skynet可以和Rails框架良好的整合起来工作,你可以把Rails当中一些非常耗时、可以Map/Reduce的工作丢给Skynet去异步后台执行,比方说:

MyModel.distributed_find(:all, :conditions => “created_on < ’#{3.days.ago}’”).each(:some_method)

把最近3天以来所有的model查询处理以后要执行的耗时操作some_method交给Skynet,让Skynet动用他强大的运算网络去执行。

还可以异步执行:
model_object.send_later(:method, options, :save)

把耗时的任务交给Skynet去异步执行。

对于拥有强大运算网络、并且需要进行大量耗时运算的web2.0网站来说,Skynet真是一个很棒的工具,他可以让程序员很简单的编写处理健壮而高效的分布式应用程序!





分享到:
评论
11 楼 billgui 2009-01-15  
dayn9 写道
MapReduce我记得用C++实现,性能不详。
Hadoop用java实现,加速比惨不忍睹。
Skynet性能如何?

《Erlang程序设计》(作者:Joe Armstrong)书中有个用Erlang写的MapReduce的小例子。
10 楼 flyyouth 2009-01-13  
最近在搞文本分类,大数据量下单机搞不定了,寻求分布式要。。。。。。
9 楼 woods 2008-07-09  
我能想到的 可以用这个框架完成动态网页的静态化一类的工作.很有用的东西~ 收藏了~
还可以做 文本index这类的工作?知识发现?知识抽取?
我还是很小白...继续积攒rp ...
8 楼 dayn9 2008-06-18  
MapReduce我记得用C++实现,性能不详。
Hadoop用java实现,加速比惨不忍睹。
Skynet性能如何?
7 楼 zhanyingle_1981 2008-06-13  
目前有没比较经典的成功案例啊?
6 楼 fredzhang 2008-06-02  
map/reduce的思想是非常简单的,换句话说,任何语言都能实现。google的map/reduce之所以出名,不是因为这个思想多巧妙,而是因为它把分布式计算用一种非常简易的方式总结了出来。任何分布式计算,最核心的任务都是:1 任务划分 2 数据归并,如果不能对任务划分,那么用什么分布式框架都是没用的。比如对超大型矩阵的聚类计算,如果算法本身无法划分,那么根本没办法分布式。所以一切涉及到分布式的问题,划分是最重要的。
5 楼 robbin 2008-06-02  
lgn21st 写道
关注这个技术以及skynet好久,但是在实际项目中找不到用武之地,种种原因...


用武之地有很多阿,关键是你有没有那么多的计算资源。比方说JavaEye如果想实现精确度非常高的相关文章匹配和文章自动分类的话,需要运算量非常庞大的矩阵运算来训练语料库,而这种矩阵运算都是天文数字,如果有足够的服务器节点,运用Map/Reduce就可以实现这种功能了。
4 楼 lgn21st 2008-06-02  
关注这个技术以及skynet好久,但是在实际项目中找不到用武之地,种种原因...
3 楼 t0uch 2008-06-02  
有了这个,我更YY PS3游戏机带来的能力了

想问一下
分布式编译的话,用的也是这一套算法吗?
2 楼 feeling3_4 2008-06-02  
cool!
1 楼 7thbyte 2008-06-02  
谢谢老大介绍~准备搭一个环境看能不能跑

相关推荐

    Ruby中的类Google Map/Reduce框架Skynet介绍

    不过本文的Skynet没这么恐怖,它是一个ruby版本的Google Map/Reduce框架的名字而已。 Google的Map/Reduce框架实在太有名气了,他可以把一个任务切分为很多份,交给n台计算机并行执行,返回的结果再并行的归并,最后...

    skynet-mingw, 对skynet无任何改动的windows版.zip

    而“skynet-mingw, 对skynet无任何改动的windows版.zip”则是将Skynet框架移植到Windows平台上的一个版本,特别适用于那些在Windows环境下进行开发和部署的团队。 Mingw(Minimalist GNU for Windows)是一个用于在...

    skynet-mingw-master

    Skynet-mingw-master 是一个基于 Skynet 框架的 Mingw 编译环境项目,适用于 Windows 平台。Skynet 是一个轻量级、高并发的服务框架,广泛应用于网络游戏、实时通信等领域。而 Mingw 是一个为 Windows 平台提供的...

    skynet-fly websocket/hhtp 热更新方案 rpc远程调用 快速开始 游戏服务 数字炸弹游戏

    skynet_fly是基于skynet扩展的可以快速开发web,游戏,和需要rpc调用的框架。 使用skynet_fly的好处: * 支持不停服更新。 * 一键生成skynet的配置文件和skynet_fly的配置文件以及配套shell脚本。 * 对匹配房间类...

    skynet-crypty_windows(lua5.1)

    Skynet-Crypt是Skynet框架中的一个加密模块,用于提供安全的数据传输和存储。在Windows环境下,我们通常需要对数据进行加密处理,以防止敏感信息泄露,确保玩家数据的安全。 在Lua5.1版本中,我们将Skynet-Crypt...

    skynet的windows版本

    **Skynet是一个轻量级、高并发的网络服务框架,主要应用于游戏服务器开发。它以其高效、稳定和易于扩展的特点,在游戏开发领域受到广泛关注。在Windows环境下,Skynet的搭建和运行过程相对其他操作系统有所不同,...

    Skynet框架教程-非常详细.pdf

    Skynet框架是一种轻量级的网络服务框架,主要用于快速构建网络服务。这个框架是用C语言编写的,具有易于使用、高性能和可扩展性强等特点。Skynet框架中最重要的概念之一是Actor模型,这是它设计的基础。Actor模型是...

    skynet-vs2019.rar

    Skynet,一个轻量级、高并发的分布式系统框架,以其高效、稳定的特点,在游戏服务器开发领域备受青睐。本压缩包“skynet-vs2019.rar”提供的是Skynet在Windows平台上的版本,特别优化以适应Windows 10操作系统,并且...

    浅析SKYNET-X自动化系统监视源处理功能.rar

    SKYNET-X自动化系统是一款先进的监控解决方案,专为复杂的企业环境设计,旨在提供全面、实时的系统监控和管理。本文将深入探讨其核心功能之一——监视源处理,以帮助读者理解这一技术在IT运维中的重要性和应用。 ...

    skynet-源码-

    《深入剖析Skynet服务器框架》 Skynet,一个由云风开发并开源的轻量级、高并发的服务框架,以其简单、高效的设计理念在游戏服务器领域广泛应用。它以微服务的方式构建,支持分布式计算和消息通信,使得在处理大规模...

    浅析SKYNET-X自动化系统监视源处理功能.pdf

    SKYNET-X自动化系统是澳大利亚泰雷兹公司在中国推出的EUROCAT-X系统的一个本地化版本,由北京华泰英翔空管技术有限公司注册并提供。该系统是空中交通管制的核心,能够处理多种类型的监视数据,如报文、雷达、ADS-B...

    Skynet-启动流程

    Skynet的启动流程是其运行前的必要步骤,整个过程涉及多个阶段和组件的初始化。...Skynet的设计理念是轻量级和模块化,各个组件通过插件和模块化的方式集成到一起,从而提供高性能和高灵活性的网络服务框架。

    skynet-master.rar

    《深入剖析Skynet框架》 Skynet,一个轻量级、高性能的服务治理框架,因其分布式设计和微服务架构而备受开发者关注。这个名为"skynet-master.rar"的压缩包文件,包含了已经编译好的Skynet源码,为深入理解与实践...

    skynet-master

    "skynet-master" 是一个基于云风(yfeng1)开发的游戏服务端框架的源码仓库。这个框架的核心是用C语言编写的,旨在提供高效、稳定且可扩展的服务端解决方案。配合使用如Lua这样的脚本语言,使得开发者能够快速实现...

    skynet-mingw:对skynet无任何改动的windows版

    关于skynet-mingw 是的windows平台的实现。其主要特点是: skynet 以submodule链接,方便升级,确保不改。 仅扩展了700行代码,方便维护。 自动更新skynet,自动构建,自动化测试,确保质量。 编译 不想自行编译的...

    skynet-windows-master.zip

    skynet windows 编译

    Skynet基础入门例子详解(7)项目源码

    Skynet,作为一个高效、轻量级的游戏服务器框架,以其独特的微服务架构和强大的事件驱动机制,在游戏开发领域备受推崇。本文将深入探讨Skynet的基础入门例子,通过分析提供的项目源码,帮助读者更好地理解和运用这个...

    skynet-server:用skynet搭建的服务端框架

    用skynet搭建的服务端框架,架构使用棋牌大厅游戏的架构, 当然也可以用做全球同服的RPG游戏服务端 支持分布式布署, 网关和游戏服务可以是动态调整的 支持sproto协议, 兼容protobuf, 只需要做小小改动可以替换为...

    Skynet框架之菜鸟手册

    Skynet框架之菜鸟手册详细解读: 一、简介 Skynet是一个轻量级的网络游戏服务器架构。它并不是一个完整的游戏服务端,而是作为服务端的最底层框架。在这个框架之上,开发者需要自己开发与游戏相关的各种服务,包括...

    skynet-天网防火墙

    天网防火墙个人版是个人电脑使用的网络安全程序,根据管理者设定的安全规则把守网络,提供强大的访问控制、信息过滤等功能,帮你抵挡网络入侵和攻击,防止信息泄露。天网防火墙把网络分为本地网和互联网,可针对来自...

Global site tag (gtag.js) - Google Analytics