最近在研究数据中心的数据管理和性能优化,看了一篇2010的论文Nectar:Automatic Management of Data and Computation in Datacenters,还是有一定的启发的,简要介绍给大家。详细的建议大家download论文下来看下。
Nectar核心思路有两个:
1、大部分数据计算存储之后是无效的,根据论文中研究统计结果,有50%的文件在过去的250天之内完全未必访问过,所以这50%的存储是完全被浪费掉了,因此只计算和存储真正有用的数据就可以降低50%的存储使用。
2、数据计算的中间过程是可以被重用的。通过重用子计算,来降低数据中心的负荷。
Nectar怎么来做到上面两点呢?
核心方法: 实现数据和计算的统一自动化管理。实现计算和数据可交换,主要在于2点:
1、将计算的结果存放在Cache中统一管理,等到下次相似的计算进行的时候,首先从datecenter wide caching service中去查找是否已经完全或者部分执行过,如果有的话,就会避免相同数据的重复计算。
2、将废弃不用或者经常不使用的数据从数据中心的存储空间自动回收(使用了标准的mark-and-sweep Garbage Collector),并保留生成该数据的计算来取代该数据,但是当该数据需要的时候,就要重新提交该计算。
上面说的对计算和数据的管理,整个过程对用户是完全透明的。做到以上两点,核心在缓存策略,重算算法。看下图Nectar的架构:
1、用户提交程序的时候,程序会被rewriter,分解成子计算,然后到cache server中看是否被命中,命中的不需要重新计算,从而节省计算时间。
2、每次计算的中间过程,同样会被cache到cache server中。
3、Cache server并不保存数据,所有数据保存在Distribute FS上。Cache server上只是保存一个到Distributed FS映射。
这个系统也不是万能的,当前Nectar为了做到program rewriter,要求所有的程序只能是LINQ,另外,数据重算的策略对时效性要求高的是否适合也值得讨论。总的来说,系统的思路还是值的借鉴和学习的,推荐大家去down一下原生的论文看看。
2014年我给自己定了一个目标,看50篇英文论文,这个算是启发比较大的。
相关推荐
of-the-art solutions to the theoretical and prac- tical challenges stemming from the leverage of big data and its computational intelligence in supporting smart network operation, management, and ...
Direct3D 11 offers such a wealth of capabilities that users can sometimes get lost in the details of specific APIs and their implementation. While there is a great deal of low-level information ...
Springer出版社的关于网络统计分析的好书 This book provides an up-to-date... This book should be of substantial interest both to statisticians and to anyone else working in the area of ‘network science.’
Models of Computation for Big Data (Advanced Information and Knowledge Processing) By 作者: Rajendra Akerkar ISBN-10 书号: 3319918508 ISBN-13 书号: 9783319918501 Edition 版本: 1st ed. 2018 出版日期: ...
Elements of the Theory of Computation 2nd English verson
GeeksForGeeks Theory Of Computation and Automata Lecture Notes
Numerical Computation of INTERNAL AND EXTERNAL FLOJiJiS Volume 2: Computational Methods for Inviscid and Viscous Flows CharlesHirsch Departmentof Fluid Mechanics, Vrije Universiteit Brussel, Brussels,...
This course describes a number of different models of computation which were proposed and analysed over the past century. Many of these models were found to be equivalent, in the sense that they allow...
"This book marks an important landmark in the theory of distributed systems and I highly recommend it to students and practicing engineers in the fields of operations research and computer science, as...
Effective Computation in Physics Field Guide to Research with Python 英文epub 本资源转载自网络,如有侵权,请联系上传者或csdn删除 本资源转载自网络,如有侵权,请联系上传者或csdn删除
《Introduction To Automata Theory, Languages, And Computation》是由John E. Hopcroft、Jeffrey D. Ullman和Maurice J. Wolf合著的一本经典教材,它为读者提供了自动机理论、语言和计算的基础知识。这本书的第三...
Automata Theory, Languages, and Computation Automata Theory, Languages, and Computation 是计算理论和自动机理论的基础知识,涉及到自动机、语言和计算的基本概念和理论。以下是基于给定文件信息生成的相关...
**1.1.7 (g) {x:x is an integer and x^2=2}** 表示所有整数中平方等于2的整数构成的集合,但实际上不存在这样的整数,因此该集合为空集:\(\emptyset\)。 **1.2 集合的性质证明** 对于集合的并集与交集的性质...
Elements of the theory of computation (2nd)计算理论基础英文版 计算理论是国外计算机专业常见的课程。 ELEMENTS OF THE THEORY OF COMPUTATION Second Edition Harry R. Lewis Gordon McKay Professor of ...