fs.default.name
To run HDFS, you need to designate (指派)one machine as a namenode. In this case, the
property fs.default.name is a HDFS filesystem URI, whose host is the namenode’s
hostname or IP address, and port is the port that the namenode will listen on for RPCs.
If no port is specified, the default of 8020 is used.
The fs.default.name property also doubles as specifying the default filesystem. The
default filesystem is used to resolve relative paths, which are handy (有用)to use since they
save typing (and avoid hardcoding knowledge of a particular namenode’s address). For
example, with the default filesystem defined in Example 9-1, the relative URI /a/b is
resolved to hdfs://namenode/a/b.
2 dfs.name.dir
here are a few other configuration properties you should set for HDFS: those that set
the storage directories for the namenode and for datanodes. The property
dfs.name.dir specifies a list of directories where the namenode stores persistent file-
system metadata (the edit log, and the filesystem image). A copy of each of the metadata
files is stored in each directory for redundancy( 冗余,即namenode在 dfs.name.dir 每一 项位置中存的数据都是一样的 ) .
It’s common to configure dfs.name.dir so that the namenode metadata is written to one or two local disks , and
a remote disk , such as a NFS-mounted directory. Such a setup guards against failure
of a local disk, and failure of the entire namenode, since in both cases the files can be
recovered and used to start a new namenode. (The secondary namenode takes only
periodic checkpoints of the namenode, so it does not provide an up-to-date backup of
the namenode.)
3 dfs.data.dir
You should also set the dfs.data.dir property, which specifies a list of directorie s for
a datanode to store its blocks. Unlike the namenode, which uses multiple directories
for redundancy(冗余), a datanode round-robins(轮循, datanode 在 dfs.data.dir 每一 项位置中存的数据是不一样的 ) . ) writes between its storage directories, so for
performance you should specify a storage directory for each local disk. Read perform-
ance also benefits from having multiple disks for storage, because blocks will be spread
across them, and concurrent reads for distinct blocks will be correspondingly spread
across disks.
4 fs.checkpoint.dir
Finally, you should configure where the secondary namenode stores its checkpoints of
the filesystem. The fs.checkpoint.dir property specifies a list of directories where the
checkpoints are kept. Like the storage directories for the namenode, which keep re-
dundant copies of the namenode metadata, the checkpointed filesystem image is stored
in each checkpoint directory for redundancy.
Note that the storage directories for HDFS are under Hadoop’s tempo-
rary directory by default (the hadoop.tmp.dir property, whose default
is /tmp/hadoop-${user.name}). Therefore it is critical that these proper-
ties are set so that data is not lost by the system clearing out temporary
directories.
分享到:
相关推荐
NameNode是Hadoop分布式文件系统HDFS的核心组件之一,负责维护文件系统的元数据。下面是NameNode的职责和相关知识点: NameNode的职责 NameNode是HDFS的中心节点,负责维护文件系统的命名空间。它的主要职责包括:...
这个错误通常意味着系统在尝试启动Hadoop服务时,无法找到配置中定义的HDFS名称节点用户(HDFS_NAMENODE_USER),因此导致启动操作失败,数据节点(Datanodes)无法正常启动。 Hadoop是Apache开源项目的一个关键...
HDFS体系结构主要由两部分组成:NameNode和DataNode。 NameNode NameNode是HDFS的中心节点,负责管理文件系统的命名空间。它维护着整个文件系统的目录结构、文件权限和数据块的映射关系。NameNode是HDFS的单点故障...
首先,可以配置Namenode在多个文件系统上同步保存元数据,通常包括本地磁盘和网络文件系统(NFS)。其次,可以运行一个辅助Namenode,它定期合并编辑日志以更新命名空间镜像,但并不能替代主Namenode。在Namenode...
在这个部署中,我们将使用 Hadoop 2.0 在两个 Ubuntu 服务器上部署双 Namenode 双 Datanode 集群。 Namenode 的作用 Namenode 是 Hadoop 集群中的主节点,负责管理文件系统的命名空间和数据块的分布。它维护着...
HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN NodeManager ResourceManager NodeManager NodeManager 3. 配置集群 (1)核心配置文件 配置core-site.xml (2)HDFS配置文件 配置 hadoop-env...
HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN NodeManager ResourceManager NodeManager NodeManager 3. 配置集群 (1)核心配置文件 配置core-site.xml (2)HDFS配置文件 配置 hadoop-env...
HDFS NameNode DataNode DataNode SecondaryNameNode DataNode YARN NodeManager ResourceManager NodeManager NodeManager 3. 配置集群 (1)核心配置文件 配置core-site.xml (2)HDFS配置文件 配置 hadoop-env...
2. 在NameNode节点的配置目录下创建`dfs.hosts`文件,列出所有活动DataNode的主机名或IP,这样NameNode就知道哪些节点是合法的DataNode。 3. 在新节点上安装相同的Hadoop版本,并配置HDFS的相关参数,使其与集群其余...
大家都知道HDFS的架构由NameNode,SecondaryNameNode和DataNodes组成,其源码类图如下图所示:正如上图所示,NameNode和DataNode继承了很多的protocol用于彼此间的通信,其实nameNode还实现了...实现了ClientProtocol...
"HDFS 配置 Kerberos" 本文档记录了为 Hadoop 的 HDFS 配置 Kerberos 的过程,Hadoop 的版本是 2.4.1。Kerberos 是一种常用的身份验证协议,用于提供安全的身份验证机制。在 Hadoop 中,Kerberos 可以用于 HDFS 和 ...
3. **故障检测**: 如果NameNode在设定的时间内(默认10分钟,可通过`dfs.namenode.heartbeat.recheck-interval`配置)未收到某个DataNode的心跳,那么会认为该节点失效。心跳返回的结果可能包含NameNode对DataNode的...
HDFS采用分块存储方式,大文件会被切分成多个数据块,并在多台DataNode上冗余存储,通常每个块都有多个副本,以提高容错性和可用性。数据读取时,HDFS会选择离客户端最近或者网络延迟最低的DataNode提供服务。 三、...
1. NameNode:作为HDFS的主节点,NameNode主要负责维护文件系统的元数据,包括文件和目录的名称空间、文件的Block到DataNode的映射关系。这些信息以两个关键文件形式存在:fsimage(文件系统元数据的静态快照)和...
HDFS 高可用配置是指 HDFS 集群的高可用性配置,包括 NameNode 和 DataNode 的高可用配置。在上面的配置文件中,HDFS 高可用配置包括: * dfs.nameservices:指定 HDFS 集群的名称服务 ID。 * dfs.ha.namenodes:...
* Namenode 与 Datanode 之间的通信:HDFS使用RPC机制来实现Namenode与Datanode之间的通信,以便于实现文件元数据的维护和数据块的存储。 * Client 与 Namenode 之间的通信:HDFS使用RPC机制来实现Client与Namenode...
角色变量hdfs_version - HDFS 版本hdfs_cloudera_distribution - Cloudera 发行版(默认: cdh5.4 ) hdfs_conf_dir - HDFS 的配置目录(默认: /etc/hadoop/conf ) hdfs_namenode - 确定节点是否为 HDFS NameNode ...
- 进入Hadoop目录,使用`bin/start-all.sh`命令启动所有Hadoop守护进程,包括Namenode、Datanode、JobTracker和TaskTracker。 通过以上步骤,我们完成了Hadoop HDFS的基本配置过程。这些步骤是构建Hadoop集群的...
hdfs-site.xml文件是Hadoop分布式文件系统(HDFS)的核心配置文件之一,它定义了HDFS的很多关键行为和属性。了解hdfs-site.xml的配置项对于调优Hadoop集群,满足特定需求是非常有帮助的。下面对hdfs-site.xml中的...