一、包管理工具及CentOS的yum
1、包管理工具如何发现可以用的包
包管理工具依赖一系列软件源,工具下载源的信息存储在配置文件中,其位置随某包管理工具不同而变化
- 使用yum的RedHat/CentOS存储在:/etc/yum.repos.d
- 使用apt-get的Debian/Ubuntu在:/etc/apt/apt.conf (额外的源采用*.list文件指定,存储在/etc/apt/sources.list.d目录下)
例如在,CentOS下面:
[root@lemon ~]# ls -l /etc/yum.repos.d/ total 24 -rw-r--r--. 1 root root 1926 Feb 25 00:57 CentOS-Base.repo -rw-r--r--. 1 root root 638 Feb 25 00:57 CentOS-Debuginfo.repo -rw-r--r--. 1 root root 630 Feb 25 00:57 CentOS-Media.repo -rw-r--r--. 1 root root 3664 Feb 25 00:57 CentOS-Vault.repo drwxr-xr-x 3 root root 4096 Jun 12 23:37 cloudera-cdh4 -rw-r--r-- 1 root root 231 Jun 12 23:36 clouder-cdh4.repo
上述每个.repo文件对应着一个或者多个软件源,下面CentOS-Base.repo的片段说明,该文件定义了两个软件源,一个是Base,一个是Upadate。镜像列表参数指向一系列可以下载软件源的网址。
#……… [base] name=CentOS-$releasever - Base mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=os #baseurl=http://mirror.centos.org/centos/$releasever/os/$basearch/ gpgcheck=1 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6 #released updates [updates] name=CentOS-$releasever - Updates mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=updates #baseurl=http://mirror.centos.org/centos/$releasever/updates/$basearch/ gpgcheck=1 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6 #………
在CentOS下面可以使用:yum repolist 查看系统中启用的软件源。CentOS有如下软件源列表:
[root@lemon ~]# yum repolist Loaded plugins: fastestmirror, refresh-packagekit, security Loading mirror speeds from cached hostfile * base: mirror01.idc.hinet.net * extras: mirror01.idc.hinet.net * updates: ftp.stu.edu.tw repo id repo name status base CentOS-6 - Base 6,381 cloudera-cdh4 Cloudera's Distribution for Hadoop, Version 4 97 extras CentOS-6 - Extras 12 updates CentOS-6 - Updates 805 repolist: 7,295
二、创建自己的yum软件源(以Cloudera Hadoop的安装为例)
自定义软件源,给不能联网或者网络不畅的计算机安装软件提供了便利,使得待安装软件的主机可以使用本地的软件源完成安装。下面讲述如何创建本地包软件源,并指示本地主机直接使用。简要概括起来如下:将下载的RPM包放到本地主机的某一个目录下,接着完成创createrepo(创建软件源的工作),然后在网站上发布这一软件源。
1、下载Cloudera Manager安装文件
这里拿到的是cloudera-manager-installer.bin,自动安装包,需要服务器能连到外网,而且能连国外网站
Cloudera Manager的可以从如下网址获得:
http://archive.cloudera.com/cm4/installer/
这里选择Cloudera Manager 最新版4.6.0.1
http://archive.cloudera.com/cm4/installer/latest/cloudera-manager-installer.bin
2、下载相关的CM安装所需要的RPM包
这里下载的也是CloudManager的安装rpm,不涉及parcel
下载网址为:
http://archive.cloudera.com/cm4/redhat/6/x86_64/cm/4/RPMS/x86_64/
下载全部的7个rmp包,如下图所示:
3、创建软件源
将下载好的rpm文件拷贝到制定目录,如:/home/admin/RPMS中
[root@lemon RPMS]# ls cloudera-manager-agent-4.5.2-1.cm452.p0.327.x86_64.rpm cloudera-manager-daemons-4.5.2-1.cm452.p0.327.x86_64.rpm cloudera-manager-parcel-4.5.2-4.5.2-1.cm452.p0.327.x86_64.rpm cloudera-manager-server-4.5.2-1.cm452.p0.327.x86_64.rpm cloudera-manager-server-db-4.5.2-1.cm452.p0.327.x86_64.rpm enterprise-debuginfo-4.5.2-1.cm452.p0.327.x86_64.rpm jdk-6u31-linux-amd64.rpm
创建软件源的主机没有安装createrepo,可以通过shell命令yum install createrepo安装。
当在包含文件的目录下运行如下创建命令:
[root@lemon RPMS]# createrepo .
程序也会创建一个repodata目录,该目录包含一些描述软件源的xml文件。如下所示:
[root@lemon RPMS]# createrepo . Spawning worker 0 with 7 pkgs Workers Finished Gathering worker results Saving Primary metadata Saving file lists metadata Saving other metadata Generating sqlite DBs Sqlite DBs complete [root@lemon RPMS]# ls cloudera-manager-agent-4.5.2-1.cm452.p0.327.x86_64.rpm cloudera-manager-daemons-4.5.2-1.cm452.p0.327.x86_64.rpm cloudera-manager-parcel-4.5.2-4.5.2-1.cm452.p0.327.x86_64.rpm cloudera-manager-server-4.5.2-1.cm452.p0.327.x86_64.rpm cloudera-manager-server-db-4.5.2-1.cm452.p0.327.x86_64.rpm enterprise-debuginfo-4.5.2-1.cm452.p0.327.x86_64.rpm jdk-6u31-linux-amd64.rpm repodata [root@lemon RPMS]# cd repodata/ [root@lemon repodata]# lsother.xml.gz other.sqlite.bz2 filelists.sqlite.bz2 primary.xml.gz filelists.xml.gz primary.sqlite.bz2 repomd.xml
此命令之后,RPM包就会加入到本地的软件源中。
4、安装Apache httpd web服务器
如果你已经安装了一个web服务器,可以略过此步,如果未安装可以通过如下shell命令安装
[root@lemon ~]$ yum install httpd
安装完毕后,启动httpd服务
[root@lemon ~]$ service httpd start
5、发布软件源文件
将文件复制/移动到WEB服务器的根目录下,Linux下面默认是/var/www/html目录,
[root@lemon ~]$ mv /home/admin/RPMS /var/www/html [root@lemon ~]$ chmod -R ugo+rx /var/www/html/RPMS
并更改文件权限,使用户、同组、其他组都可以读/执行文件。
访问http://<hostname>:80/RPMS测试文件首页是否正常显示各文件的索引,通常要关闭selinux(重启生效),该yum软件源才能访问。
如果不能访问,出现403错误(在实体机上常见),即you don't have permission to access / on this server(Apache Server权限访问问题),则需要在/etc/httpd/httpd.conf中添加如下配置:
<Directory "/var/www/icons"> Options Indexes MultiViews FollowSymLinks AllowOverride None Order allow,deny Allow from all </Directory> Alias /CDH4-RPMS/ "/var/www/html/CDH4-RPMS/" <Directory "/var/wwww/html/CDH4-RPMS"> Options Indexes MultiViews FollowSymLinks AllowOverride None Order allow,deny Allow from all </Directory> Alias /CM4-RPMS/ "/var/www/html/CM4-RPMS/" <Directory "/var/www/html/CM4-RPMS"> Options Indexes MultiViews FollowSymLinks AllowOverride None Order allow,deny Allow from all </Directory> Alias /IMPALA-RPMS/ "/var/www/html/IMPALA-RPMS/" <Directory "/var/www/html/IMPALA-RPMS"> Options Indexes MultiViews FollowSymLinks AllowOverride None Order allow,deny Allow from all </Directory>
6、更改客户端配置,使其能够找到该软件源
在客户端新建如下格式的文件,内容如下所示:
[myrepo] name=myrepo baseurl=http://hostname/RPMS enabled=1 gpgcheck=0
主机名是刚才所建立的软件源的主机名。将文件命名为myrepo.repo,并将文件放到/etc/yum.repos.d目录下,即最终结果为/etc/yum.repos.d/myrepo.repo
这里的客户端指的是使用本地源的主机,(即待安装的不能联网的哪些主机)。
注意:/etc/yum.repos.d目录下仅仅保留自己创建的本地库,否则其他的库因为不能联网,会报错的,使得安装退出。本例中,仅仅保留myrepo.repo。
在CM的集群配置页面,设定好本地源后,会有相应的解析,找到本地的源。其中cloudera-manager.repo
cloudera-cdh4.repo、cloudera-impala.repo解析后新建的,原来自己配的源的名字分别是cm4repo.repo、cdh4repo.repo、impalarepo.repo(实际应用中发现,最好将名字命名为cloudera-manager.repo、cloudera-cdh4.repo、cloudera-impala.repo, 否则会可能出现无法解析错误,即cloudera-manager-installer-bin还是会向cloudera的官网去找)。
解析后的内容如下:
[root@lemon yum.repos.d]# cat cloudera-cdh4.repo [cloudera-cdh4] name = Cloudera CDH, Version (Custom) baseurl = http://192.168.2.171/CDH4-RPMS gpgcheck = 0 [root@lemon yum.repos.d]# cat cloudera-impala.repo [cloudera-impala] name = Impala, Version (Custom) baseurl = http://192.168.2.171/impala gpgcheck = 0 [root@lemon yum.repos.d]# cat cloudera-manager.repo [cloudera-manager] name = Cloudera Manager, Version 4.6.0 baseurl = http://192.168.2.171/RPMS gpgcheck = 0
安装的时候也可能会出现如下错误:
Resolving Dependencies --> Running transaction check ---> Package cloudera-manager-server-db.x86_64 0:4.6.0-1.cm460.p0.140 will be installed --> Processing Dependency: postgresql-server >= 8.0 for package: cloudera-manager-server-db-4.6.0-1.cm460.p0.140.x86_64 --> Finished Dependency Resolution Error: Package: cloudera-manager-server-db-4.6.0-1.cm460.p0.140.x86_64 (cm4repo) Requires: postgresql-server >= 8.0 You could try using --skip-broken to work around the problem You could try running: rpm -Va --nofiles --nodigest
所以,这个时候要安装postgresql-server8.4 或者是9.0(要求8.0及其以上),这个安装比较麻烦,需要解决各种依赖库。
我的解决方法:
自建centos自带的rpm仓库在里面安装就ok
yum list postgre*
安装那个带server的
postgresql说明:
postgresql包含许多不同的包,包括第三方类库,通常安装最重要的包即可(能满足大部分应用需求)。这些包如下:
- postgresql - 客户端类库及二进制文件
- postgresql-server - 核心的数据库服务器
- postgresql-contrib - 附加的供应组件
- postgresql-devel - 用户C语言开发的类库和头文件
- pgadmin3 - 数据库图像化管理工具第三版
9.0版本的rpm包具体下载地址为:
http://yum.postgresql.org/9.0/redhat/rhel-6-x86_64/repoview/
备注:研究发现缺少包这些问题是由虚拟机造成的,虚拟机安装的时候是默认安装,省去了里面很大一部分的包,比如虚拟机安装的时候不带jdk、postgresql数据库、mysql数据库,而这些都是在实体机安装的时候所没有的问题,所以实践很重要!在实体机下面缺少postgresql数据库所造成的问题根本就不存在!
7、使用本地类库安装CM
vi /etc/sysconfig/network
vi /etc/hosts
CM安装必须通过package方式,而CDH、Impala可以通过package、parcel方式安装。
安装程序默认从网络下载程序包安装,如果你已经配置好了本地软件源,并将本机(客户端)做了识别配置,
只需要在安装的时候添加参数(--skip_repo_package=1),shell命令如下:
$ sudo ./cloudera-manager-installer.bin --skip_repo_package=1
详细的安装步骤及过程,详见Cloudera Manager and CDH安装及配置
备注:CM包下载地址:http://archive.cloudera.com/cm4/
要构建本地仓库,或更新,具体的parcel在这里下:
CDH包下载地址:http://archive.cloudera.com/cdh4/
IMPALA包下载地址:http://archive.cloudera.com/impala/
另外下载时候要注意,如果X86_64同级目录还有noarch目录,且里面也有文件的时候也要一并下载,不然使用本地软件源的时候提示部分文件找不到。
我的解决方案:
cm502的话,是没必要预先用各个机器本地rpm安装的
建立自己的repos,cm界面选自定义路径就好
注意:repodata和mainfest.json,然后yum.conf的代理
另外cm的server和agent每个机器都安装了,具体功能后面再写。
hadoop产品的jar包在parcel中,大概1.8个G也在每台机器安装。
后续问题:
1. 安装activity monitor的时候报错
Install CMF4.5 failed when use custom databases: JDBC driver cannot be found. Unable to find the JDBC database jar on host : tongjitest163.
找不到jdbc驱动,查了是放jar包到/user/share/java/ 下效果有待验证
可能需要jar包改名mysql-connector-java.jar
2.配置的时候不要用ehmaster:3306用127.0.0.1:3306或者是ip
相关推荐
以下是对“cloudera对kafka安全、配置、优化和管理的建议”的详细解读。 **一、Kafka安全** 1. **权限控制**: Cloudera推荐使用Kerberos进行身份验证,以确保只有授权的用户和服务可以访问Kafka集群。Kerberos提供...
在Cloudera Manager中配置Hive使用MySQL数据库涉及多个步骤,从卸载CentOS默认MySQL到配置完毕,下面详细说明每一步的知识点。 首先,确保在添加Hive数据库前,系统中不存在先前安装的MySQL版本。使用命令rpm -qa |...
【Cloudera产品高可用性配置说明1】 在IT领域,特别是大数据处理中,Cloudera作为一家专注于Apache Hadoop的企业,提供了强大的数据管理和分析平台。为了确保关键业务的连续性和数据的可靠性,Cloudera产品高可用性...
大数据管理与监控:Cloudera Manager:Zookeeper服务配置与监控.docx
《Cloudera CDH集群运维手册》是一份深入解析Cloudera CDH集群管理与运维的详尽指南,尤其适合已经或计划使用Cloudera CDH进行大数据处理的团队参考。Cloudera CDH(Cloudera Distribution Including Apache Hadoop...
Cloudera CDH 安装和配置的知识点覆盖了系统规划、Linux系统配置、CDH Manager安装、高可用配置以及监控设置。为了便于系统管理员和Hadoop用户安装和管理Cloudera CDH,文档详细介绍了从机器规划到各组件的安装与...
128GB大数据服务器安装CDH HADOOP的配置,对hbase solr spark hdfs等服务的配置项 经过真实的数百亿数据的测试,单台10亿3台百亿30台千亿
大数据管理与监控:Cloudera Manager:ClouderaManager安装与配置.docx
- 完成配置后,Cloudera Manager会自动部署并配置所选的服务和组件,用户应耐心等待部署过程结束。 ### 结论 Cloudera Hadoop安装指南是一份非常重要的文档,对于想要部署Hadoop集群的用户来说具有极高的参考价值...
Cloudera Search安全配置是确保大数据环境中敏感信息得到保护的关键步骤。Cloudera Search作为集成在Hadoop平台中的搜索引擎,允许各种用户,如数据分析师和管理人员,方便地搜索和访问大量数据。然而,为了保障数据...
本文是关于Cloudera Manager的中文手册,将详细介绍Cloudera Manager的版本、安装、配置、API、安全以及与Cloudera CDH的关系等内容。Cloudera Manager是Cloudera公司开发的一款用于简化Apache Hadoop集群管理的工具...
cloudera-administration.pdf-配置管理文档 cloudera-datamgmt.pdf-数据管理文档 cloudera-impala.pdf-impala使用文档 cloudera-installation.pdf-安装CDH和CM的文档 cloudera-introduction.pdf-基本介绍文档 ...
5. **配置Cloudera Manager**:通过Web界面进行初始配置,包括设置管理员账号、添加主机、配置网络和安全设置。 6. **部署CDH**:在Cloudera Manager中选择要部署的CDH组件,如HDFS、YARN、Hive等,然后按照指导...
- **概述:** Cloudera Manager 是一款用于管理 Cloudera Hadoop 集群的工具,可以简化集群的安装、配置和监控过程。 - **优势:** 提供图形化界面,支持自动化部署,具备丰富的监控指标和警报系统。 4. **...
配置管理方面,Cloudera Manager的Server端从数据库中读取配置信息,然后将其压缩成ZIP格式传输给Agent端,Agent端再将这些配置解压并部署到指定目录,如/etc/下的各个配置目录中。这样,修改配置的操作通常需要在...
资源名称:cloudera官方文档资源目录:【】cloudera-administration【】cloudera-datamgmt【】cloudera-impala【】cloudera-installation【】cloudera-introduction【】cloudera-operation【】Cloudera-Opera ...
Cloudera 提供的数据云解决方案旨在为企业提供一个全面的一站式DataOps自助服务平台,它集成了数据处理的各个阶段,从数据采集、建模到分析和运维监控,以支持复杂数据源的同步需求和灵活的任务调度。这个平台的核心...
而**不使用Cloudera Manager**进行安装则需要手动处理更多的配置细节,比如安装ZooKeeper、配置Solr环境变量等。 总的来说,Cloudera Search的部署涉及多个层面,包括集群管理、索引构建、数据存储以及安全性。理解...
* 集群配置:Cloudera Manager提供了灵活的集群配置功能,能够满足不同用户的需求。 * 权限管理:Cloudera Manager提供了完善的权限管理功能,能够控制用户对Hadoop集群的访问权限。 监控功能 Cloudera Manager...
### Cloudera Manager API v14 关键知识点 #### 一、概述 Cloudera Manager API v14 是用于管理 Cloudera Data Platform (CDP) 和其他 Cloudera 产品的强大工具。它允许管理员通过 API 调用来监控、管理和配置集群...