需要认识的几个问题
---------------------------------------------------------------------------------------------------------------------------
1.hadoop有几个版本?
2.CDH有几种安装方式?
3.CDH在安装认证方面做了什么改变?
----------------------------------------------------------------------------------------------------------------------------
Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本,CDH和Apache版本主要区别如下:
(1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;比Apache hadoop在兼容性,安全性,稳定性上有增强。
(2)CDH3版本是基于Apache hadoop 0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。
(3)安全 CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证
(4)CDH文档清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。
(5)CDH支持Yum/Apt包,Tar包,RPM包,CM安装,Cloudera Manager三种方式安装,Apache hadoop只支持Tar包安装。
注:CDH使用推荐的Yum/Apt包安装时,有以下几个好处:
1、联网安装、升级,非常方便
2、自动下载依赖软件包
3、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。
4、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限。
2.CDH有几种安装方式?
3.CDH在安装认证方面做了什么改变?
----------------------------------------------------------------------------------------------------------------------------
Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本,CDH和Apache版本主要区别如下:
(1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;比Apache hadoop在兼容性,安全性,稳定性上有增强。
(2)CDH3版本是基于Apache hadoop 0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。
(3)安全 CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证
(4)CDH文档清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。
(5)CDH支持Yum/Apt包,Tar包,RPM包,CM安装,Cloudera Manager三种方式安装,Apache hadoop只支持Tar包安装。
注:CDH使用推荐的Yum/Apt包安装时,有以下几个好处:
1、联网安装、升级,非常方便
2、自动下载依赖软件包
3、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。
4、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限。
相关推荐
《Hadoop 2.6.0:Apache与CDH版本详解》 Hadoop,作为大数据处理领域的核心组件,是开源社区的重要成果,尤其在2.6.0版本中,其功能更加完善,性能显著提升。这里我们将深入探讨两个重要的Hadoop 2.6.0发行版——...
CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司对Hadoop生态的一套企业级发行版,它包含了Hadoop以及其他相关的开源项目,如HBase、Spark、Hue等,提供了一整套数据分析和处理的解决方案。CDH...
CDH是Cloudera公司提供的一个完整的、开源的Apache Hadoop发行版,包含了Hadoop生态系统中的多个组件,如HDFS、MapReduce、YARN等,同时提供了管理和监控工具,便于在企业环境中部署和管理Hadoop集群。 描述中的...
全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作...
这个版本是Cloudera Distribution Including Apache Hadoop(CDH)的一个发行版,CDH是一个流行的Hadoop生态系统的企业级打包,它提供了经过测试和优化的Hadoop组件。 在描述中,虽然信息简洁,但我们可以推测这是...
在大数据处理领域,CDH(Cloudera Distribution Including Apache Hadoop)是一款广泛使用的开源大数据平台,它包含了Hadoop生态系统中的多个组件,如HDFS、YARN、MapReduce、Hive等。而Phoenix是一个针对HBase的SQL...
CDH(Cloudera's Distribution including Apache Hadoop)是由Cloudera公司推出的Hadoop发行版本,它包含了Hadoop生态系统中多个重要组件,并对它们进行了集成和优化。在部署CDH时,选择合适的软硬件配置对于保证...
CDH是一个流行的Hadoop发行版,包含了Hadoop生态系统中的多个组件,如HDFS、YARN、Hive等,为大数据处理提供了一整套解决方案。 在CDH6.3.2中集成Spark3.2.2,用户可以利用Spark的新功能来提升大数据处理的效率和...
Hadoop相关资源部分提供了Github资源的收集信息,这些资源对于学习Hadoop生态系统中的各类工具与技术非常有用。 附录中还包含了POC(Proof of Concept)前的准备工作,这些准备工作对于实验和验证学习成果非常重要...
CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的一个开源大数据平台,它包含了一系列Hadoop生态系统中的组件,如HDFS、YARN、HBase等。本篇文章将详细介绍如何在Linux环境中搭建CDH环境...
CDH是一个开源的大数据平台,包含了Hadoop生态系统中的多个组件,如HDFS、MapReduce、YARN、HBase等。而Phoenix是建立在HBase之上的SQL查询引擎,它允许用户通过SQL接口来操作NoSQL数据库,提高了对大数据处理的便利...
CDH3是Cloudera Distribution Including Apache Hadoop的第三个主要版本,包含了Hadoop生态系统中的多个组件,如HDFS、MapReduce、HBase等。源码的发布意味着我们可以深入理解OLAP4Cloud在CDH3环境下的实现细节,并...
书中也介绍了一些与Hadoop相关的基础组件,如YARN和ZooKeeper,它们是Hadoop生态系统中用于资源管理和协调的关键组件。通过阅读关于YARN和ZooKeeper的章节,读者可以了解到如何配置和管理大数据存储系统。 此外,...
这个项目“cdhproject”专注于Hadoop生态系统的各个组件的使用方法,且强调了持续更新,这意味着它可能包含了最新的技术发展和优化策略。Hadoop是大数据处理的核心框架,由Apache软件基金会维护,其主要目标是提供...
在Hadoop生态系统中,Cloudera Data Hub (CDH)是一个全面的、经过企业级验证的大数据平台,它集成了包括HBase和Phoenix在内的多种组件。"phoenix-cdh"项目则是针对CDH环境下的Phoenix进行的功能扩展和优化,旨在提高...
--加入Hadoop原生态的maven仓库的地址--> <id>Apache Hadoop <name>Apache Hadoop <url>https://repo1.maven.org/maven2/</url> <!--加入cdh的maven仓库的地址--> <id>cloudera <name>cloudera <url>...
Alluxio在大数据和机器学习领域具有良好的互操作性,支持多种存储系统,包括HDFS、Amazon S3、Swift、Google Cloud Storage以及各种Hadoop发行版(如CDH、HDP、MAPR)的存储接口。 Alluxio的出现是为了应对数据生态...
【大数据面试题解析】 ...以上是对部分面试题目的详细解析,涵盖了Hadoop生态系统中的核心组件、配置、安全、故障恢复以及性能优化等多个方面。理解这些知识点对于理解和操作Hadoop集群至关重要。
1. **权限管理**:确保在导入元数据时,新环境中的用户和角色设置与原环境一致,以避免权限问题。 2. **数据一致性**:元数据导入仅处理表结构,实际数据仍需通过Hadoop的复制工具如DistCp进行迁移。 3. **依赖检查*...