本帖最后由 pig2 于 2014-10-14 12:42 编辑 问题导读: 1.什么是cloudera CM 、CDH? 2.CDH、CM有哪些版本? 3.CDH、CM有哪些安装方式? 4.CDH如何开发? <ignore_js_op style="word-wrap: break-word;"> 我们知道cloudera CDH 是为简化hadoop的安装,也对对hadoop做了一些封装。那么我们就像尝试学习cloudera。 cloudera本质hadoop的封装,那么学起来,应该不难。不就是下载下来,然后自动安装,最后管理hadoop生态系统的一些服务。 的确是这样的,但是也没有我们想象的那么简单。 基础知识 那么我们就开始第一步吧,第一步之前,那就是你的基础,这个是很关键的,如果不会使用Linux,那么你需要看一下另外一篇文章:零基础学习hadoop到上手工作线路指导(初级篇)。可以看看Linux的基础知识模块。需要掌握的内容还是不少的: Linux掌握了,那么我们是否需要掌握虚拟机的基础知识,在搭建hadoop集群中,可以这些是必须掌握的,那么cloudera是否需要,也是需要的,这里就不在罗列了,详细参考零基础学习hadoop到上手工作线路指导(初级篇)。但是cloudera CM的安装比起hadoop集群的安装对硬件的要求更高。内存至少10G,为什么会这么多,如果少于10G是否可以,答案是可以的,但是后面你会遇到各种问题,或许都找不到答案。 对于cloudera-scm-server就需要至少4G的内存,cloudera-scm-agent的内存至少也需要1.5G以上。那么如果你的机器是8G的,还是很吃力的。 在安装的过程中,后面有很多的服务安装遇到问题的可能性是很大的。 什么是CDH hadoop是一个开源项目,所以很多公司在这个基础进行商业化,Cloudera对hadoop做了相应的改变。 Cloudera公司的发行版,我们将该版本称为CDH。 很多新手问的最多的问题是,哪个是收费的,那个是免费的。 Cloudera Express版本是免费的 Cloudera Enterprise是需要购买注册码的 更多内容: Cloudera Hadoop什么是CDH及CDH版本介绍 CDH(Cloudera)与hadoop(apache)对比 大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术 官网介绍 <ignore_js_op style="word-wrap: break-word;"> 当我们学习的时候,我们该如何学习,有两种方式:第一种:先理论,后实践 第二种:先实践,后理论 上面两种方式各有各的场合,如果你要去面试、考试、搞理论思想类,第一种方式是没有问题的。因为这些都是停留在思想层面的。 对于一个编程技术人员来讲,本人觉得第二种方式更加的短平快。 上面两种方式都有些绝对,最佳的方式就是实践与理论相结合。 这里撰文一下,引用孔子的一句话 只看书,不实践,或则只倒腾部署、停留在某些问题得不到解决,但是又不去看书、百度、谷歌查找解决问题,这样也是不行的。 好了,开始我们的官网: 官网是我们学习标准,所以我们首先要记住官网地址: 主页: http://www.cloudera.com/content/cloudera/en/home.html 进入官网我们可以做些什么事情: 1.提供API 2.查看部署文档 3.下载安装包 那么我们如何查找API,如何查找部署文档,如何下载安装包? 详细可以查看 cloudera(CDH)官网介绍:安装包、离线包该如何下载、官方文档等介绍 安装包下载: 同时附上各个版本包的地址: Cloudera文档汇总 http://www.cloudera.com/content/support/en/documentation.html CDH4、CDH5包汇总 http://archive.cloudera.com/cdh4/ http://archive.cloudera.com/cdh5/ CM4、CM5包汇总 http://archive.cloudera.com/cm4/ http://archive.cloudera.com/cm5/ 官网CDH5下载 http://www.cloudera.com/content/ ... /cdh/cdh-5-1-0.html 以前版本地址: CDH1~CDH3 http://archive-primary.cloudera.com/cdh/ 当我们看到安装的时候,同时也困扰着我们,我们该选择哪个安装包。 首先需要介绍下CM(Cloudera Manager)及CDH的安装方式: CM(Cloudera Manager)有三种安装方式: 1.第一种使用cloudera-manager-installer.bin安装 这种安装方式,只要从官网下载cloudera-manager-installer.bin,然后执行这个bin文件,剩下的就是等待下载和安装。但是这个时间不是一般的长,最好吃个饭,睡个觉,最后看到还在安装过程中。此帖安装步骤及遇到问题记录很详细,可参考 Cloudera Manager5及CDH5在线(cloudera-manager-installer.bin)安装详细文档 Cloudera Manager5及CDH5安装指导(终极在线安装) 遇到的问题: 当我们安装完毕CM,那么我们就要添加主机,主机添加完毕,我们会看到安装进度: <ignore_js_op style="word-wrap: break-word;"> 但是并不是每个人都能看到上面进度,而是看到下面错误: 上面错误该如何解决: 可以使用下面方法解决: 2.第二种使用rpm、yum、apt-get方式在线安装 这种安装方式,在网上看的有点眼花缭乱,可能是因为我们对yum、apt、rpm了解的不多造成的,对于Linux基础缺乏的,可以参考:yum与rpm、apt的区别:rpm的缺陷及yum的优势,总的来说:由于rpm依赖关系不好,所以产生了yum,而yum和apt则都是Linux的包管理工具,并且解决了包与包的依赖关系。 这里列出一些安装文档 ubuntu 12.04 安装 Cloudera Manager5及CDH5(Mysql)【添加yum源方式安装集群】 遇到问题1:内存过小 使用yum安装因为mysql的配置至少需要对Cloudera server 4G的内存,否则mysql的重启过程中,就会遇到unknown instance. 遇到问题2:界面无法访问 界面无法访问,分为两种情况 一种是Cloudera-manager-server没有完全起来 当我们运行下面命令: <ignore_js_op style="word-wrap: break-word;"> 如果现在,输入url,访问web,可能会是无法访问 host/ip:7180,我这里是172.16.77.60:7180 <ignore_js_op style="word-wrap: break-word;"> 大概需要等10分钟左右,界面就可以访问了。 <ignore_js_op style="word-wrap: break-word;"> 一种则是权限问题 所以我们初次安装尽量使用root.还有我们需要会看日志。 Linux日志的位置: 下面为server日志 <ignore_js_op style="word-wrap: break-word;"> 下面为agent日志 <ignore_js_op style="word-wrap: break-word;"> 同时在我们安装服务的过程中,我们还需要会查看角色日志,这样从web界面就是可以看到,因为在我们安装过程中,服务的安装没有那么顺利。 这里暂时没有截图,我们只要记住角色日志,在界面中找到即可。 遇到问题3:无法找到cloudera agent客户端 我们使用下面命令安装了agent 当然还有很多其它需要安装,当我们的agent安装成功后,为什么我们的的界面中不能发现agent. 本来我们有三台,但是却只有一台,而且是cloudera server本地的agent 这是因为我们的在安装的过程中,agent都指向了本地localhost. 我们打开配置文件 修改 server_host为server ip地址 server_port为7180 下图CDH即为cloudera server的hostname 修改完毕: 首先重启Agent sudo service cloudera-scm-agent restart 然后重启server sudo service cloudera-scm-server restart 这时候会发现已经生效。 更详细内容可以参考 记录cloudera Manager安装Cloudera-Scm-Agent如何指向Cloudera-Scm-Server 更多文档可以参考: Cloudera Manager 和 CDH 4 终极安装(一) ClouderaManager以及CHD5.1.0集群部署安装 Cloudera Manager (centos)离线安装详细介绍 CM5、CDH5安装(CDH5半自动离线安装) Cloudera Manager 5 和 CDH5 本地(离线)安装指南 Cloudera Manager 和 CDH5 本地(离线)安装指导 3.第三种使用是Tarballs的方式 这种方式网上资料很少 安装的命令如下: 这个跟hadoop的安装方式是一样的 安装的方法详细可参考: 这里在列出官网给出的三种安装方式:
如果想安装CM,这次再次强调一定要有足够的内存。并且我们安装完毕CM,一般会 4.安装失败处理 上面如果我们安装失败该如何处理:使用 cloudera-manager-installer.bin(Parcles)安装失败后卸载cloudera 卸载 Cloudera Manager 5.1.x.和 相关软件【官网翻译:高可用】 5.目录结构: 由于我们大多采用在线安装的方式,所以出血,我们根本不知道cloudera安装在了什么位置,详细可以参考下面内容 解析Cloudera Manager内部结构、功能包括配置文件、目录位置等 亦可参考下面帖子: 卸载 Cloudera Manager 5.1.x.和 相关软件【官网翻译:高可用】 CDH安装方式: Yum/Apt包,Tar包,RPM包,CM安装 这些包的下载,可以在上文安装包汇总中可以找到。 CDH1~CDH3 http://archive-primary.cloudera.com/cdh/ CDH4~CDH5 http://archive.cloudera.com/cdh4/ http://archive.cloudera.com/cdh5/ 安装文档,下面可以参考 Linux(ubuntu12.04)单节点伪分布安装CDH5.1.X及提交wordcount到yarn高可靠文档 各个版本Linux单节点伪分布安装CDH5.1.X及提交wordcount到yarn高可靠文档 Hadoop CDH5 手动安装伪分布式模式 通过CM方式安装,大多在安装CM的时候,已经安装了CDH。 CDH开发 安装完毕,我们还想开发提到开发,我们就想到eclipse插件,其实我们在开发过程中,插件作用就是帮助我们能够方便的看到在Linux的文件。 所以开发方式也有两种, 一种插件开发 我们如何找到eclipse插件,可以参考 cloudera CDH(5)开发方式及CDH eclipse插件编译总结 一种是无插件开发 无插件开发,也就是直接添加开发包 可以参考:hadoop开发方式总结及操作指导 先总结到此,希望大家有所收获。 有的同学反映写的不够细,这里在补充一些内容: Cloudera Manager Server启动后又挂掉的原因总结 我们安装CDH的时候,会碰到cloudera server启动后又挂掉了,这是什么原因? 查看日志:包下面问题 可是明明已经安装jdk,并且已经设置了JAVA_HOME 也能返回版本 这是怎么回事,猜测cloudera server(5)认oracle jdk,对于sun jdk也需要是在线安装(至于是不识别sun jdk还未验证)。同时还必须是jdk1.7. 也就是需要执行下面命令: 原因是在后面执行scm-server数据库配合的时候,如果找不到Java_home可能会初始化失败。 Java_home默认安装路径如下。 从上面我们得出,如果想安装顺序,我们最好使用下面命令来安装jdk1.7 执行上面命令,那么还需要做下面工作: 然后我们接着执行命令: 认为终于好了,但是不幸的是,这次坚持了不到两分钟又挂掉了。 这次为什么会挂掉,不得不查看日志了: 看完日志,你是否还是云里雾里,这不得不说一下,我们该如何利用日志。 上面其实我只知道报的是一个Java异常,而且还跟链接有关系。 灵感来了,就像到了,是因为没有执行下面命令: 配置cloudera-manager-server数据库 但是又出问题了,如下: 其实这个问题已经解决了,安装我们可以进入上面步骤。 当我们安装完毕,ok了,终于好了: 当我们看到下面内容的时候,all done,说明我们配置成功了。 然后我们再次重启 ok始终在坚挺着,没有挂机,问题得到解决 |
发表评论
-
Hadoop组件之-HIVE(位图索引)
2016-06-24 15:43 1563索引概述 什么是索引? 索引是Oracl ... -
Hadoop组件之-HDFS(HA实现细节)
2016-06-23 10:10 2635Hadoop NameNode 高可用 (High ... -
Hadoop组件之-HDFS(FederationAndHA)
2016-06-23 10:06 904一、背景 天云趋势在2012年下半年开始为某大型国有银行 ... -
Spark-SQL简介
2016-01-11 22:09 1318分享到... -
Python-With...As语法
2015-12-22 14:12 844理解Python中的with…as…语法 Posted i ... -
Linux-RPM详解
2015-12-12 14:22 759rpm命令手册和查看rpm安装包的安装路径的方法 ... -
Linux-NTP服务配置
2015-12-10 20:51 731配置NTP服务ntpd/ntp.conf(搭建Hado ... -
Hadoop组件之-MapReduce(InputFormat)
2015-12-07 20:03 628Hadoop源码解析之: TextInputForma ... -
Hadoop组件之-Sqoop
2015-12-07 17:33 883前置条件 已经成功安装配置Hadoop和Mysql数据库服 ... -
Hadoop组件之-Kafka
2015-12-07 17:32 818一、入门 1、简介 Kafka is a ... -
Hadoop企业级搭建之-版本选择
2015-11-27 14:37 1056太多选择——如何挑选合适的大数据或Hadoop平台? ... -
Hadoop企业级搭建之-组网设计方案理解
2015-11-27 14:08 1332深入理解Hadoop集群和网 ... -
Hadoop企业级搭建之-组网设计(收敛比)
2015-11-27 13:55 1278高性能数据中心网络的流量收敛设计 收藏 打印 推 ... -
Hadoop企业级搭建之-组网设计(机架感知)
2014-11-25 11:18 566hadoop机架感知 背 ... -
spark
2014-11-06 22:23 718spark 安装 0.8 版本操作系统Ubuntu 10.04 ... -
map的环形内存缓冲区
2014-09-26 09:24 2419map的环形内存缓冲区 博客分类: hadoo ... -
MapReduce:详解Shuffle(copy,sort,merge)过程
2014-05-28 11:14 487Shuffle过程是MapReduce的核心,也被称为奇迹发 ...
相关推荐
CDH是业界广泛采用的企业级Hadoop发行版,它不仅集成了Hadoop的核心组件,还包含了其他的开源大数据项目,如Hive、Pig、Spark、Impala等,提供了一整套大数据处理和分析解决方案。CDH 5.16.2是CDH系列的一个重要更新...
Dell|Cloudera Hadoop解决方案是基于Dell硬件平台和Cloudera提供的Hadoop发行版而构建的一整套企业级大数据处理平台。它不仅包括了必要的硬件设施,还包含了全面的软件安装、配置指导以及最佳实践建议。 **硬件架构...
CDH(Cloudera Distribution Including Apache Hadoop)是由Cloudera公司提供的一款企业级大数据处理平台,它包含了多个开源Apache项目的集成,如Hadoop、Hive、HBase、Spark和Kafka等。CDH提供了统一的管理和监控...
CDH是一个开源的大数据平台,由Cloudera提供,它集成了Hadoop及相关项目,使得在企业环境中部署和使用Hadoop更加简单。搭建CDH5后,自带的example也已经能够运行,为编写自定义的MapReduce作业打下基础。 编写...
Hadoop作为大数据处理领域的重要工具之一,其集群的搭建对于企业级数据处理至关重要。本文将详细介绍Hadoop集群的搭建步骤及其注意事项,帮助读者顺利完成Hadoop集群的部署。 #### 一、硬件准备 首先,确定硬件...
**Cloudera** 是一家全球知名的公司,专注于为企业级用户提供先进的大数据处理解决方案。其核心产品Cloudera Enterprise 5.8.x提供了一个全面的平台,用于高效管理企业内部海量多样化的数据。 ##### 1.1 平台特性 -...
它提供了一种自动化的方式,用于部署、管理和监控Cloudera的企业级大数据平台,包括CDH(Cloudera Distribution Including Apache Hadoop)中的各种组件。通过Cloudera Manager,企业可以更有效地管理和维护大型...
安全性设置是企业级部署必不可少的部分,可能涉及到Kerberos认证、访问控制列表(ACLs)以及防火墙策略。 最后,集群搭建完成后,需要进行一系列的测试,如HDFS的读写测试、MapReduce任务运行测试等,以验证集群的...
CDH,全称Cloudera Distribution Including Apache Hadoop,是由Cloudera公司提供的一个开源大数据平台,它包含了多个Apache项目,如Hadoop、HBase、Spark等,为企业级用户提供了统一的数据管理与分析解决方案。...
Clouera Manager通过其独特的设计理念和技术实现,为企业级用户提供了以下几个核心价值: 1. **自动化安装与部署**:通过自动化流程简化Hadoop集群的安装和部署工作,显著降低了部署时间和复杂度。 2. **集中化管理...
- **案例研究**:通过具体实例介绍如何利用 Cloudera Manager 和 CDH5 解决实际问题,比如搭建企业级数据仓库、实现跨地域数据同步等。 - **最佳实践**:分享业内领先企业的成功经验,涵盖架构设计、性能优化、安全...
### 大数据之路选择Hadoop还是MaxCompute? #### 一、Hadoop与MaxCompute概述 ##### 1.1 Hadoop介绍与发展历程 Hadoop是由Apache软件基金会开发的一个开源分布式计算平台,采用Java语言编写,旨在支持大规模数据...
【Cloudera Search】是Cloudera公司提供...理解这些知识点对于成功部署和优化Cloudera Search至关重要,同时也展示了Cloudera产品如何与Apache Solr和Hadoop生态系统的深度整合,以提供高效、可扩展的企业级搜索功能。
Cloudera CDH搭建是企业级Hadoop发行版的安装过程,Cloudera CDH即Cloudera的Distribution包括Hadoop。CDH集成了多个Hadoop生态系统组件,包括但不限于HDFS、MapReduce、HBase、Hive、Oozie、Sqoop、ZooKeeper以及...
CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的一个全面、经过优化且企业级的Hadoop发行版,包含了多个相关项目,如Hive、HBase、Impala和Spark等。CDH5是该发行版的一个版本,它提供了...
多家公司如Cloudera、Hortonworks、MapR等已将其商业化,提供企业级解决方案,国内也有许多科技巨头如百度、阿里巴巴等在Hadoop基础上构建自己的大数据平台。 【需求分析】构建Hadoop完全分布式环境通常需要明确的...
Cloudera是提供Hadoop相关产品和服务的公司,其Cloudera Distribution Including Apache Hadoop(CDH)是企业级Hadoop发行版,包含了Hadoop生态系统中的多个组件,如HBase、Hive、Spark等。Cloudera Desktop则提供了...