`

如何选择不同的Hadoop发行版

 
阅读更多

首先要了解什么是Hadoop发行版(Hadoop distribution),简单来说它就是基于开源的Apache Hadoop进行改造的商业解决方案,其中包括一系列定制的管理工具和软件。而事实上,Apache Hadoop本身也存在着一些版本差异,包括:

  ·Hortonworks主要专注于Hadoop 1(不包括YARN、HCatalog等),也是因为其技术比较成熟且能够投入生产环境。

  ·Cloudera发行版包括Hadoop 1和Hadoop 2两种选择,但Cloudera不建议将Hadoop 2投入生产环境。

  ·一些新晋的发行版提供商倾向于使用Hadoop 2。

  不同的提供商还会选择在其发行版当中添加不同的Apache Hadoop子项目,如Hive、Zookeeper等。另外还会添加一些专有代码作为补充甚至替换原始的Apache Hadoop代码,这些代码主要用来提升Hadoop分布式文件系统(HDFS)的性能,还有一些是新的管理工具。发行版提供商的管理套件是其主要的增值项目,其中最明显的就是Cloudera。而Hortonworks则选择将开源的Ambari添加到管理工具当中。

  用户选择Hadoop发行版的另外一个原因是厂商会提供相关的技术支持,因为企业内部对于Hadoop的部署和使用经验不足。Cloudera和Hortonworks的技术支持是业界最佳的,同时一些大型厂商如Oracle等也会提供一些级别的技术支持,比如在Oracle大数据一体机上面提供Tier 1技术支持。

  以下的几个提供商当中,我会列出其各自的优势,用户可以根据自己的需求选择不同的Hadoop供应商:

  Cloudera

  ·Cloudera的Hadoop管理工具非常成熟

  ·Cloudera还提供了应用导航的功能

  ·Cloudera在Hadoop领域是非常有经验的

  ·Cloudera对于Hadoop的发展起着重要作用

  ·Cloudera拥有广泛的合作伙伴支持

  ·Cloudera专攻Hadoop,同时资金充沛

  Hortonworks

  ·Hortonworks拥有大量的Hadoop专家,同时对Hadoop的发展也起到了重要作用

  ·Hortonworks也拥有广泛的合作伙伴支持

  ·Hortonworks与Cloudera很相似,也专攻Hadoop

  ·Hortonworks对专有代码的依赖低于Cloudera,因此用户不必担心“厂商锁定”问题。

  Intel

  ·Intel的Hadoop性能很好

  ·Intel的Hadoop发行版最先进入中国市场(在中国市场的一大重要优势)

  EMC/Pivotal/Greenplum

  ·使用Greenplum数据库的用户别犹豫了,就选择新的Pivotal HD吧

  MapR

  ·某种程度上说MapR的Hadoop发行版在性能方面具备优势

  IBM

  ·信任IBM的服务就选择它的Hadoop发行版

分享到:
评论

相关推荐

    不同Hadoop版本winutils文件包

    压缩包子文件“hadoop-winutils”很可能包含了适用于不同Hadoop版本的winutils.exe文件,可能有多个版本以适应不同的Hadoop发行版。用户需要根据自己的Hadoop版本选择合适的winutils文件,然后按照上述方法进行配置...

    Hadoop的发行版本.pdf

    【Hadoop发行版本详解】 Hadoop作为开源大数据处理...总的来说,选择Hadoop发行版本应根据具体需求和应用场景,考虑稳定性、安全性以及新特性的需求。同时,关注社区更新和版本维护,以便及时获取最新的功能和优化。

    英特尔Hadoop发行版 2.2 开发者指南

    ### 英特尔Hadoop发行版 2.2 开发者指南 #### 一、概述与准备工作 **英特尔Hadoop发行版(Intel Hadoop Distribution, IHD)2.2** 是一套由英特尔公司开发和维护的Hadoop软件包,旨在为大数据处理提供高性能和稳定...

    Hadoop各商业发行版之比较.pdf

    Hortonworks是由雅虎工程师创立的,其Hadoop发行版Hortonworks Data Platform (HDP)也是开源的。HDP包含了稳定版本的Apache Hadoop组件,并且拥有Ambari这样的安装和管理系统,以及HCatalog元数据服务。HDP强调了...

    Hadoop各商业发行版之比较.docx

    《Hadoop各商业发行版之比较》 Hadoop,作为大数据处理的核心框架,因其开源、分布式的特点,吸引...企业在选择Hadoop商业发行版时,应根据自身的业务需求、技术实力和预算进行综合考量,以实现最佳的大数据处理效果。

    hadoop,hbase,hive版本整合兼容性最全,最详细说明【适用于任何版本】

    此外,HBase官方也会提供特定版本的HBase支持的Hadoop版本,通常在发行说明或者兼容性文档中列出。对于最新版本,如果在官方文档中没有直接提供信息,用户还可以通过提问于HBase的社区论坛或者关注相关的视频教程来...

    各个版本Hadoop,hadoop.dll以及winutils.exe文件下载大合集

    标题提到的“各个版本Hadoop”指的是Hadoop的不同发行版本,每个版本可能包含了性能优化、新功能添加或已知问题修复。例如,`hadoop-2.6.5`和`hadoop-3.2.1`代表了两个重要的Hadoop版本。`2.6.5`属于Hadoop 2.x系列...

    windows hadoop 下bin文件(含多个版本的winutils.exe)

    不同的Hadoop发行版可能需要不同版本的`winutils.exe`来正确运行。通常,`winutils.exe`会随着Hadoop的版本更新而更新,以解决新版本中可能出现的问题或引入的新功能。 在使用`winutils.exe`前,需要将其添加到系统...

    大数据之路选择Hadoop还是MaxCompute?Hadoop开源与MaxCompute对比材料

    此外,市场上还有几家知名的Hadoop发行商,如Cloudera Manager、HortonWorks和MapR,它们分别提供了各自特色的产品和服务。 - **Cloudera Manager**:提供了一个统一的管理界面,简化了Hadoop集群的部署和管理过程...

    spark-3.2.1 不集成hadoop安装包

    这意味着这个Spark发行版没有内置对Hadoop的支持,用户需要自己配置和管理与Hadoop相关的依赖。 Hadoop是另一个重要的开源项目,它提供了一个分布式文件系统(HDFS)和MapReduce计算框架,是大数据处理的基础平台。...

    hadoop-2.6.0.tar.gz&hadoop-2.6.0-cdh5.16.2.tar.gz

    CDH是业界广泛采用的企业级Hadoop发行版,它不仅集成了Hadoop的核心组件,还包含了其他的开源大数据项目,如Hive、Pig、Spark、Impala等,提供了一整套大数据处理和分析解决方案。CDH 5.16.2是CDH系列的一个重要更新...

    Hadoop 2.0安装部署方法

    在选择Hadoop发行版时,有多种选择,包括Apache Hadoop(开源基础版本)、Hortonworks的HDP(Hortonworks Data Platform)和Cloudera的CDH(Cloudera's Distribution Including Apache Hadoop)。HDP和CDH在Apache ...

    HADOOP案例及测试资料

    DS评测结果.docx",虽然具体内容未知,但根据标题推测,前者可能包含了更广泛的Hadoop技术文档,后者可能涉及到特定厂商(如星环)对Hadoop发行版的性能测试和评估,对于关注Hadoop性能和厂商选择的用户来说具有参考...

    hadoop2.6.5中winutils+hadoop

    1. 下载Hadoop 2.6.5的二进制发行版,并解压缩到你选择的目录。 2. 将`winutils.exe`和`hadoop.dll`复制到`HADOOP_HOME\bin`目录。 3. 设置`HADOOP_HOME`环境变量指向Hadoop的安装目录。 4. 在PATH环境变量中添加`%...

    hadoop的各种jar包

    1. **导入JAR包**:下载Hadoop相关组件的JAR文件,通常可以从Apache Hadoop的官方网站或者通过Hadoop发行版获取。将这些JAR包添加到Eclipse项目的“lib”目录下。 2. **构建路径设置**:在Eclipse项目中右击,选择...

    hadoop入门经典书籍

    对于Ubuntu系统的用户,可以通过apt实用程序获取Hadoop发行版,该过程简单且不需要下载和构建源代码。需要对/etc/apt/sources.list.d/cloudera.list添加相应的源信息,并使用curl获取apt-key以验证下载的包。接着,...

    hadoop2.71 window环境下运行文件

    6. **配置Hadoop**: 在Windows上运行Hadoop,首先需要下载Hadoop发行版(如hadoop-2.7.1),解压后配置`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`和`mapred-site.xml`等配置文件,指定HDFS和YARN的相关参数...

    spark-2.3.0-bin-hadoop2.7版本.zip

    综上所述,"spark-2.3.0-bin-hadoop2.7版本.zip"是一个包含了完整的Spark 2.3.0发行版,集成了Hadoop2.7的环境,可供开发者在本地或集群环境中快速搭建Spark开发和测试环境。这个版本的Spark不仅在核心功能上有所...

    hadoop1.x与hadoop2.x配置异同

    GridGain FileSystem(GGFS)作为Hadoop HDFS的即插即用替代方案,能够为任何Hadoop发行版上的I/O和网络密集型Hadoop MapReduce作业提供高达10倍的性能提升。不同于其他文件系统,GGFS既可以作为Hadoop集群中的独立...

    hadoop 安装部署手册

    - **下载Hadoop发行版**:从Apache官方网站获取最新稳定版本的Hadoop,如Hadoop 2.x或3.x系列。 - **安装**:将下载的Hadoop压缩包解压至用户目录下的特定文件夹,如`/home/hadoop/hadoop-install`,然后设置环境...

Global site tag (gtag.js) - Google Analytics