`
weitao1026
  • 浏览: 1052972 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

CDH与原生态hadoop之间的区别

 
阅读更多
需要认识的几个问题
---------------------------------------------------------------------------------------------------------------------------
1.hadoop有几个版本?
2.CDH有几种安装方式?
3.CDH在安装认证方面做了什么改变?
----------------------------------------------------------------------------------------------------------------------------
Cloudera的CDH和Apache的Hadoop的区别  目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本,CDH和Apache版本主要区别如下:  

(1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;比Apache hadoop在兼容性,安全性,稳定性上有增强。  

(2)CDH3版本是基于Apache  hadoop  0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。

(3)安全 CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证 

(4)CDH文档清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。 

(5)CDH支持Yum/Apt包,Tar包,RPM包,CM安装,Cloudera Manager三种方式安装,Apache hadoop只支持Tar包安装。


注:CDH使用推荐的Yum/Apt包安装时,有以下几个好处: 
1、联网安装、升级,非常方便 
2、自动下载依赖软件包 

3、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。

4、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限。
 
分享到:
评论

相关推荐

    hadoop-2.6.0.tar.gz&hadoop-2.6.0-cdh5.16.2.tar.gz

    《Hadoop 2.6.0:Apache与CDH版本详解》 Hadoop,作为大数据处理领域的核心组件,是开源社区的重要成果,尤其在2.6.0版本中,其功能更加完善,性能显著提升。这里我们将深入探讨两个重要的Hadoop 2.6.0发行版——...

    hadoop-2.6.0-cdh5.14.2.tar.gz

    CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司对Hadoop生态的一套企业级发行版,它包含了Hadoop以及其他相关的开源项目,如HBase、Spark、Hue等,提供了一整套数据分析和处理的解决方案。CDH...

    hadoop-2.6.0-cdh5.12.1-x64-native.zip

    CDH是Cloudera公司提供的一个完整的、开源的Apache Hadoop发行版,包含了Hadoop生态系统中的多个组件,如HDFS、MapReduce、YARN等,同时提供了管理和监控工具,便于在企业环境中部署和管理Hadoop集群。 描述中的...

    Hadoop+Spark生态系统操作与实战指南.epub

     全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作...

    native(hadoop-2.5.0-cdh5.3.2

    这个版本是Cloudera Distribution Including Apache Hadoop(CDH)的一个发行版,CDH是一个流行的Hadoop生态系统的企业级打包,它提供了经过测试和优化的Hadoop组件。 在描述中,虽然信息简洁,但我们可以推测这是...

    cdh6.3.2 集成 Phoenix

    在大数据处理领域,CDH(Cloudera Distribution Including Apache Hadoop)是一款广泛使用的开源大数据平台,它包含了Hadoop生态系统中的多个组件,如HDFS、YARN、MapReduce、Hive等。而Phoenix是一个针对HBase的SQL...

    CDH软硬件配置建议

    CDH(Cloudera's Distribution including Apache Hadoop)是由Cloudera公司推出的Hadoop发行版本,它包含了Hadoop生态系统中多个重要组件,并对它们进行了集成和优化。在部署CDH时,选择合适的软硬件配置对于保证...

    适配CDH6.3.2的Spark3.2.2

    CDH是一个流行的Hadoop发行版,包含了Hadoop生态系统中的多个组件,如HDFS、YARN、Hive等,为大数据处理提供了一整套解决方案。 在CDH6.3.2中集成Spark3.2.2,用户可以利用Spark的新功能来提升大数据处理的效率和...

    hadoop study(适合新手学习)

    Hadoop相关资源部分提供了Github资源的收集信息,这些资源对于学习Hadoop生态系统中的各类工具与技术非常有用。 附录中还包含了POC(Proof of Concept)前的准备工作,这些准备工作对于实验和验证学习成果非常重要...

    CDH环境搭建步骤及如何使用C++进行开发

    CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的一个开源大数据平台,它包含了一系列Hadoop生态系统中的组件,如HDFS、YARN、HBase等。本篇文章将详细介绍如何在Linux环境中搭建CDH环境...

    CDH5-Phoenix安装包

    CDH是一个开源的大数据平台,包含了Hadoop生态系统中的多个组件,如HDFS、MapReduce、YARN、HBase等。而Phoenix是建立在HBase之上的SQL查询引擎,它允许用户通过SQL接口来操作NoSQL数据库,提高了对大数据处理的便利...

    olap4cloud cdh3 源码

    CDH3是Cloudera Distribution Including Apache Hadoop的第三个主要版本,包含了Hadoop生态系统中的多个组件,如HDFS、MapReduce、HBase等。源码的发布意味着我们可以深入理解OLAP4Cloud在CDH3环境下的实现细节,并...

    Big Data Made Easy (英文高清原版)

    书中也介绍了一些与Hadoop相关的基础组件,如YARN和ZooKeeper,它们是Hadoop生态系统中用于资源管理和协调的关键组件。通过阅读关于YARN和ZooKeeper的章节,读者可以了解到如何配置和管理大数据存储系统。 此外,...

    cdhproject:hadoop各组件使用,持续更新

    这个项目“cdhproject”专注于Hadoop生态系统的各个组件的使用方法,且强调了持续更新,这意味着它可能包含了最新的技术发展和优化策略。Hadoop是大数据处理的核心框架,由Apache软件基金会维护,其主要目标是提供...

    phoenix-cdh:基于chd-phoenix的功能扩展、优化等

    在Hadoop生态系统中,Cloudera Data Hub (CDH)是一个全面的、经过企业级验证的大数据平台,它集成了包括HBase和Phoenix在内的多种组件。"phoenix-cdh"项目则是针对CDH环境下的Phoenix进行的功能扩展和优化,旨在提高...

    大数据 java hive udf函数的示例代码(手机号码脱敏)

    --加入Hadoop原生态的maven仓库的地址--> <id>Apache Hadoop <name>Apache Hadoop <url>https://repo1.maven.org/maven2/</url> <!--加入cdh的maven仓库的地址--> <id>cloudera <name>cloudera <url>...

    使用开源分布式存储系统Alluxio来有效的分离计算与存储.pdf

    Alluxio在大数据和机器学习领域具有良好的互操作性,支持多种存储系统,包括HDFS、Amazon S3、Swift、Google Cloud Storage以及各种Hadoop发行版(如CDH、HDP、MAPR)的存储接口。 Alluxio的出现是为了应对数据生态...

    大数据面试题 (2).pdf

    【大数据面试题解析】 ...以上是对部分面试题目的详细解析,涵盖了Hadoop生态系统中的核心组件、配置、安全、故障恢复以及性能优化等多个方面。理解这些知识点对于理解和操作Hadoop集群至关重要。

    hive元数据导入sql生成工具

    1. **权限管理**:确保在导入元数据时,新环境中的用户和角色设置与原环境一致,以避免权限问题。 2. **数据一致性**:元数据导入仅处理表结构,实际数据仍需通过Hadoop的复制工具如DistCp进行迁移。 3. **依赖检查*...

Global site tag (gtag.js) - Google Analytics