`
085567
  • 浏览: 217424 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop与sector/sphere性能

阅读更多
转自http://hi.baidu.com/ltguo/blog/item/a656a03ece6d6df1828b1396.html

http://sector.sourceforge.net/



这是2006年启动的一个开源项目(C++),包括Sector和 Sphere两个子系统,分别对应到Hadoop的HDFS和MapReduce两个子系统,对外的接口也比较类似。不过,该系统在设计之初就考虑了跨多个数据中心的数据处理需求,因此在slave/master之间的安全以及client和系统之间的数据传输安全方面都提供了安全机制。这一点是hadoop没有考虑的。



粗略对比了Sphere和MapReduce之间的差别,可能不全面:

(1)slave和master之间提供数据保密机制(可选择不加密数据),hadoop目前没有;

(2)在使用系统时,client直接将数据传输到slave节点。 hadoop的机制与其类似;

(3)Sector中数据传输采用UDT协议,这是一个增加了流控的UDP协议,传输效率比目前hadoop采用的TCP高;目前Hadoop MR中采用HTTP,效率更低;

(4)在Sphere中UDF(类似于MapTask)的输出结果是通过push的方式发送出去的,而Hadoop采用pull的方式。这种方式孰优孰劣比较难断定,因为push方式有可靠性的问题;

(5)在Sphere中不采用按照blocksize和单独的文件来确定任务数。

(6)在Sphere中,Map任务有错误恢复机制,但Reduce不支持错误恢复,即如果Reduce Task 失败了,整个作业就失败了。



从Sector/Sphere网站上发布的terasort结果来看,其性能比hadoop高出不少(http://sector.sourceforge.net/benchmark.html ):



64节点(主节点:Dell 1950, dual dual-core Xeon 3.0GHz, 16GB RAM   / 子节点:Dell 1435s, single dual core AMD Opteron 2.0GHz, 4GB RAM, and 1TB single disk):



Sector/Sphere为1361妙,Hadoop(1副本)为 2617秒,而在我们的labs上测试的结果是...... 秒。





he performance value listed in this page was achieved using the Open Cloud Testbed. Currently the testbed consists of 4 racks. Each rack has 32 nodes, including 1 NFS server, 1 head node, and 30 compute/slave nodes. The head node is a Dell 1950, dual dual-core Xeon 3.0GHz, 16GB RAM. The compute nodes are Dell 1435s, single dual core AMD Opteron 2.0GHz, 4GB RAM, and 1TB single disk. The 4 racks are located in JHU (Baltimore), StarLight (Chicago), UIC (Chicago), and Calit2(San Diego). The inter-rack bandwidth is 10GE, supported by CiscoWave deployed over National Lambda Rail.

                             Sphere    Hadoop (3 replicas)   Hadoop (1 replica)

UIC                           1265        2889                       2252

UIC + StarLight               1361        2896                       2617

UIC + StarLight + Calit2      1430        4341                       3069

UIC + StarLight + Calit2 + JHU 1526       6675                       3702
分享到:
评论

相关推荐

    hadoop/etc/hadoop/6个文件

    hadoop/etc/hadoop/6个文件 core-site.xml hadoop-env.sh hdfs-site.xml mapred-site.xml yarn-env.sh yarn-site.xml

    hadoop/bin/hadoop.dll

    标题中的"hadoop/bin/hadoop.dll"指出这是一款与Hadoop框架相关的动态链接库(DLL)文件,它位于Hadoop安装目录的"bin"子目录下。在Windows操作系统中,DLL文件是程序运行所必需的组件,它们包含了可执行文件在运行...

    hadoop安装过程中的问题

    Hadoop/etc/hadoop/slaves 的IP地址要变。 5个重要的配置文件逐个检查,IP地址需要变 2.配置文件确认无错误,看日志: 从logs日志中寻找slave的namenode为什么没有起来。 3.最后发现是hdfs中存在上次的数据,删掉...

    hadoop安装与配置 Hadoop的安装与配置可以分成几个主要步骤: 1. 安装Java 2. 下载Hadoop 3. 配

    hadoop安装与配置 hadoop安装与配置 Hadoop的安装与配置可以分成几个主要步骤: 1. 安装Java 2. 下载Hadoop 3. 配置Hadoop ...编辑/usr/local/hadoop/etc/hadoop/hadoop-env.sh,设置JAVA_HOME: export JAVA_H

    hadoop.contrib/lucene源码

    通过这种结合,Hadoop的并行计算能力与Lucene的搜索性能相结合,使得大规模数据集的全文检索成为可能。开发者可以利用这些源码学习如何在分布式环境中优化搜索性能,同时也可以根据实际需求定制和扩展搜索功能。对于...

    hadoop-lzo-0.4.20.jar

    hadoop支持LZO压缩配置 将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/ core-site.xml增加配置支持LZO压缩 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> ...

    elephantdb, 在从Hadoop导出键/值数据时,分布式数据库专用.zip

    elephantdb, 在从Hadoop导出键/值数据时,分布式数据库专用 ElephantDB 0.5.1 ( cascalog-2.x ) ElephantDB 0.4.5 ( cascalog-1.x )ElephantDB是一个专门用于从Hadoop导出键/值数据的数据库。 Elephant

    Hadoop/HDFS/MapReduce/HBase

    对Hadoop中的HDFS、MapReduce、Hbase系列知识的介绍。如果想初略了解Hadoop 可下载观看

    hadoop-lzo-master

    1.安装 Hadoop-gpl-compression ...1.2 mv hadoop-gpl-...bin/hadoop jar /usr/local/hadoop-1.0.2/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.LzoIndexer /home/hadoop/project_hadoop/aa.html.lzo

    Windows平台下Hadoop的Map/Reduce开发

    在Windows平台上进行Hadoop的Map/Reduce开发可能会比在Linux环境下多一些挑战,但通过详细的步骤和理解Map/Reduce的工作机制,开发者可以有效地克服这些困难。以下是对标题和描述中涉及知识点的详细说明: **Hadoop...

    hadoop/bin/winutils.exe

    1. **下载**:首先,你需要从可靠的源下载与你的Hadoop版本兼容的`winutils.exe`文件。这通常可以在Hadoop的GitHub镜像或者Apache Hadoop官方网站上找到。 2. **放置位置**:将`winutils.exe`放到Hadoop的`bin`目录...

    [整理]Centos6.5 + hadoop2.6.4环境搭建

    配置Hadoop的配置文件,如`etc/hadoop/core-site.xml`和`etc/hadoop/hdfs-site.xml`。这些配置包括Hadoop的临时目录、NameNode和DataNode的数据存储位置等。这里是一个基本的配置示例: ```xml <!-- core-site.xml ...

    hadoop2.2.0/2.6.0/2.7.0/2.7.1 64位安装包

    hadoop2.2.0/2.6.0/2.7.0/2.7.1 64位安装包。

    hadoop-3.0.0.tar.gz

    Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据...

    mac hadoop2.6.0 lib/native

    mac下Hadoop native library,用于解决报错:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable。再次说明,本版本只适用于mac ...

    hadoop伪分布式安装.pdf

    - 使用命令`mv /root/soft/hadoop/etc/hadoop/mapred-site.xml.template /root/soft/hadoop/etc/hadoop/mapred-site.xml`。 - 使用命令`vim /root/soft/hadoop/etc/hadoop/mapred-site.xml`编辑文件。 - 在`...

    hadoop单机配置方法

    ### Hadoop单机配置详解 在大数据处理领域,Apache Hadoop是一个开源软件框架,用于分布式存储和处理大型数据集。本文将详细介绍如何在单机环境下配置Hadoop,使其能够运行基本的大数据处理任务。 #### 一、配置...

    hadoop2.6.0的源码jar hadoop-common-2.6.0-sources.jar

    下载hadoop2.6.0的源码辛苦编译成的,网上没找到编译好现成的,费了几个小时用maven编译好的带源码的jar包,中间还得安装编译protoc,可以直接供eclipse使用。

Global site tag (gtag.js) - Google Analytics