折腾了一天,
装0.23的hdfs。
版本是0.23.1
官方文档写的这个是alpha,折腾了一下午,这个尼玛果然是alpha,一堆东西有问题。
废话少说,直入主题。
首先是下载官网上的安装包。
官网上也推荐把hdfs、mapred、yarn三个帐号分开。
配置ssh这里就不说了。
0.23的目录结构跟0.20.2比改动很大,这里大概说明下:
1,首先所有的配置文件都在HADOOP_HOME/etc/hadoop下。
2,原来的bin目录拆成了bin和sbin两个。
3,这个版本里面HADOOP_HOME/etc/hadoop下只有yarn-env.sh,而没有hadoop-env.sh,
需要拷贝yarn-env.sh成hadoop-env.sh,要不然起不来,这个应该是bug吧。
主要问题集中在配置文件上。
1,在自己建的hadoop_env.sh中配置JAVA_HOME环境变量。
2,配置hdfs-site.sh
刚开始思路有点混乱,总的来说配置可以分为1+n块。
首先配置所有公用的参数,
我配置了这三个:
dfs.federation.nameservices
dfs.namenode.name.dir
dfs.datanode.data.dir
然后针对每个namespace配置独有的参数。
dfs.namenode.rpc-address.<clusterId> 指定nn用的。值的格式host:port
dfs.namenode.http-address.<clusterId> 指定nn用的。值的格式host:port
dfs.namenode.secondary.http-address.<clusterId> 指定snn用的。值的格式host:port
dfs.namenode.checkpoint.dir.<clusterId> 指定checkpoint的保存路径用的,snn用。值的格式:绝对路径
dfs.namenode.checkpoint.edits.dir.<clusterId> 指定checkpoint的edits保存路径用的,snn用。值的格式:绝对路径
dfs.namenode.backup.address.<clusterId> backup node用。值的格式host:port
然后就没有然后了。
如果第一次安装,hadoop,就先格式化namenode,然后启动。
我是从cdh3u3升级上来的,
执行命令./start-dfs.sh -upgrade -clusterId <new_clusterID>.
然后nn、dn、snn就起来了。
要启动backupNode,需要到backupNode上去执行命令:nohup ./hdfs namenode -backup > backupNode.out &
好吧,这回真没有然后了。
backupNode在0.20时代没有,所以这个东西到底干嘛的,怎么干,尚不清楚。
参考链接:
http://hadoop.apache.org/common/docs/r0.23.1/hadoop-yarn/hadoop-yarn-site/Federation.html
http://eryk.iteye.com/blog/1291303
http://rq2-79.iteye.com/blog/1308245
http://www.blogjava.net/shenh062326/archive/2011/11/23/363472.html
http://www.blogjava.net/shenh062326/archive/2011/11/11/yuling_hadoop_0-23_hdfs_backup.html
分享到:
相关推荐
解压 sqoop-1.4.6.bin__hadoop-0.23.tar.gz 文件后,你会得到 Sqoop 的可执行文件、配置文件、文档和其他相关资源。安装步骤通常包括以下几个环节: 1. 将解压后的目录移动到 Hadoop 的 lib 目录下,或者将 Sqoop ...
本文档主要介绍了Hadoop HDFS 0.23.x版本的安装过程及其管理方法,特别强调了Namenode与Datanode的角色分配和功能。 ##### 2.1 环境准备 - **源码编译**:为了适应特定的需求,文档提到对Hadoop 0.18.1进行了源码...
配置 Hadoop 的核心是编辑其配置文件,这些配置文件位于 /etc/hadoop/ 目录下,主要包括 core-site.xml、hdfs-site.xml、mapred-site.xml 和 yarn-site.xml。对于 mapred-site.xml,需要使用模板文件 mapred-site....
5. **配置管理**:通过Properties和Configuration类来管理和加载Hadoop集群的配置信息。 6. **日志和监控**:支持日志聚合和节点健康检查,便于运维人员监控集群状态。 7. **资源管理**:包含如内存管理、磁盘空间...
【标题】"Hadoop HDFS HTTPFS 0.23.10" 是一个开源项目,主要用于提供基于HTTP协议访问Hadoop分布式文件系统(HDFS)的服务。HTTPFS是Hadoop生态系统中的一个重要组件,它允许通过标准的Web浏览器或者HTTP客户端来与...
之后需要下载Hadoop软件,解压,并配置Hadoop运行环境,格式化HDFS(Hadoop分布式文件系统),启动Hadoop环境并运行程序进行测试,最后查看集群状态确认安装和运行情况是否正常。 2. 集群Hadoop系统安装基本步骤 ...
这些问题在后续版本中得到了改进,例如Hadoop 0.23引入了YARN(Yet Another Resource Negotiator),将作业管理和资源调度分离,解决了这些问题。 总的来说,Hadoop 0.20.2作为早期版本,奠定了Hadoop在大数据处理...
Hadoop平台安装技术 Hadoop是一个大数据处理技术生态圈,包括众多软件框架。它起源于Apache Nutch项目,创始人为Doug Cutting。Hadoop的主要组件包括HDFS、MapReduce、YARN、HBase、Sqoop、Flume、Kafka、Storm、...
Hadoop的安装环境涉及配置Hadoop的运行环境,包括Java环境、SSH免密登录设置以及Hadoop的配置文件设置等。 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心子项目之一,它是一个高度容错的系统,适合在廉价硬件上...
### Hadoop配置与环境搭建详解 #### 一、概述 Hadoop是一款开源软件框架,用于分布式存储和处理大型数据集。本文将详细介绍如何在三台Linux服务器上搭建一个基本的Hadoop集群,包括Hadoop环境的配置过程。通过本...
配置Hadoop时,主要涉及到修改`conf/hadoop-env.sh`和`conf/core-site.xml`,`conf/hdfs-site.xml`以及`conf/mapred-site.xml`等配置文件。你需要设置`HADOOP_HOME`、`JAVA_HOME`路径,定义HDFS的命名节点和数据节点...
然后,下载并解压缩Hadoop,配置环境变量,修改配置文件如core-site.xml、hdfs-site.xml等。完成配置后,需将配置好的Hadoop复制到其他节点,并启动或停止Hadoop服务。通过运行简单的WordCount程序,可以验证Hadoop...
**配置和管理HDFS HA集群** - **Zookeeper**:在HA部署中,Zookeeper集群用于协调NameNode之间的状态转换,确保安全的切换。 - **JournalNodes**:这些节点存储edit logs的副本,帮助Standby NameNode快速同步,并...
解压并编译Hadoop 0.23.4后,用户需要配置Hadoop环境,设置HDFS和YARN的相关参数,如数据节点的数量、内存分配、网络拓扑等。然后,可以启动Hadoop服务,进行数据导入,编写MapReduce程序,或者使用其他Hadoop生态...
总的来说,《Hadoop大数据实战手册》这本书涵盖了Hadoop的基本知识、组件使用、版本选择、安装配置、集群管理、故障排查等多个方面,它既适合于初学者入门,也适合有一定经验的工程师进行深入学习。书中内容注重实战...
版本Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。...
其中,文件系统接口支持多种分布式存储系统,如HDFS(Hadoop Distributed File System)和其他兼容HDFS的文件系统。网络通信组件则包括RPC(Remote Procedure Call)协议,使得Hadoop中的各种服务能够相互通信。安全...
第二代Hadoop则包括0.23.x和2.x,这两个版本带来了全新的架构,主要特点是HDFS Federation和YARN。 Hadoop版本间的差异主要体现在以下几个关键特性: 1. **Append支持**:在Hadoop的某些版本中,文件追加功能...
### Hadoop 1.X 伪分布式安装知识点概览 #### 1. Hadoop 简介 - **定义**: Apache Hadoop 是一个开源框架,它允许开发者通过简单的编程模型来处理大量的数据集,并且能够在集群服务器上进行分布式处理。 - **特点**...