HDFS(Hadoop Distributed File System)是Hadoop应用用到的一个最主要的分布式存储系统。一个HDFS集群主要由一个NameNode和多个Datanode组成:Namenode管理文件系统的元数据,而Datanode存储了实际的数据。基本上,客户端是通过联系Namenode以获取文件的元数据或修饰属性,而真正的文件I/O操作是Namenode直接和Datanode进行交互的。
调用文件系统命令应使用bin/hadoop fs <args>的形式。所有的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认scheme(见core-site.xml配置文件的fs.default.name属性)。一个HDFS文件或目录比如/user/myuser可以表示成hdfs://namenode:namenodeport/user/myuser,或者更简单的/user/myuser(假设你配置文件中的默认值是namenode:namenodeport)。接下来从查询类、新增类、删除类及修改类四个角度来列举HDFS命令。
1 查询类
1.1 查看指定目录下内容
hadoop dfs –ls /user/myuser
1.2 lsr
hadoop fs -lsr <args>
ls命令的递归版本。
1.3 打开某个已存在文件
hadoop fs -cat URI [URI ...]
hadoop dfs -cat /user/myuser/data.txt file:///file hdfs://host:port/user/myuser
1.4 将hadoop上某个文件down至本地已有目录下
hadoop fs –get /user/test/bqh/in.txt /home/test/
1.5 将hadoop指定目录下所有内容保存为一个文件,同时down至本地
hadoop dfs –getmerge /user /home/t
1.6 copyToLocal
hadoop fs -copyToLocal URI <localdst>
除了限定目标路径是一个本地文件外,和get命令类似
1.7 du
hadoop fs -du URI [URI ...]
显示目录中所有文件的大小,或者当只指定一个文件时,显示此文件的大小。
1.8 dus
hadoop fs -dus <args>
显示文件的大小。
1.9 stat
hadoop fs -stat URI [URI ...]
返回指定路径的统计信息。
1.10 tail
hadoop fs -tail URI
将文件尾部的内容输出到stdout。
1.11 test
hadoop fs -test -[ezd] URI
-e 检查文件是否存在。如果存在则返回0。
-z 检查文件是否是0字节。如果是则返回0.
-d 检查路径是个目录,则返回1,否则返回0.
1.12 text
hadoop fs -text <src>
将源文件输出为文本格式。
2 新增类
2.1 mkdir
hadoop fs -mkdir <paths>
接受路径指定的URI作为参数,创建这些目录。类似于Unix的mkdir -p,它会创建路径中的各级父目录。
2.2 将本地文件存储至hadoop
hadoop fs –put /home/myuser/file.txt /user/t
2.3 将本地文件夹存储至hadoop
hadoop fs –put /home/t/dir_name /user/t
2.4 在hadoop指定目录内创建新目录
hadoop fs –mkdir /user/myuser/t
2.5 在hadoop指定目录下新建一个空文件
hadoop fs -touchz /user/myuser/new.txt
2.6 copyFromLocal
hadoop fs -copyFromLocal <localsrc> URI除了限定资源路径是一个本地文件外,和put命令相似。
2.7 moveFromLocal
hadoop dfs -moveFromLocal <src> <dsr>
3 删除类
3.1 删除hadoop上指定文件
hadoop fs –rm /user/myuser/ok.txt
hadoop fs –rmr /user/myuser/ok.txt
3.2 删除hadoop上指定文件夹(包含子目录等)
hadoop fs –rmr /user/myuser/t
3.3 Expunge
hadoop fs -expunge
清空回收站
4 修改类
4.1 将hadoop上某个文件重命名
hadoop fs –mv /user/test.txt /user/ok.txt
4.2 改变文件必属的组。
hadoop fs -chgrp [-R] GROUP [URI ...]
使用-R将使改变在目录结构下递归进行。
4.3 改变文件的权限
hadoop fs -chmod [-R] <MODE[,MODE]> URI [URI ...]
使用-R将使改变在目录结构下递归进行。
4.4 改变文件的拥有者
hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI]
使用-R将使改变在目录结构下递归进行。
4.5 cp
hadoop fs -cp URI [URI ...] <dest>
将文件从源路径复制到目标路径。这个命令允许有多个源路径,此时目标路径必须是一个目录。
相关推荐
【大数据技术之Hadoop(HDFS文件系统)】 Hadoop是一个开源框架,主要设计用于处理和存储大规模数据,尤其适用于大数据分析。其中,HDFS(Hadoop Distributed File System)是Hadoop的核心组件,是一个分布式文件...
HDFS采用主从架构,其中NameNode负责管理文件系统的命名空间以及客户端对文件的访问,而DataNode负责存储实际的数据块。 - **MapReduce**:用于处理和生成大型数据集,是一种分布式计算模型。它将复杂的任务分解成一...
Hadoop是一个开源框架,主要用于存储和处理大规模数据,而HDFS(Hadoop Distributed File System)是Hadoop的核心部分,是一个分布式文件系统,为大数据处理提供了可靠且可扩展的存储解决方案。HBase则是在Hadoop之...
Hadoop分布式文件系统(HDFS)可以存储大规模的数据集,而MapReduce是Hadoop的核心组件,用于处理大规模数据集。除此之外,Hadoop生态系统中还包括了HBase(列式存储数据库)、Hive(数据仓库)、Pig(数据流语言)...
HDFS是一种高容错性的分布式文件系统,它能够将大规模数据分布在多台廉价服务器上,提供高吞吐量的数据访问。MapReduce是Hadoop用于大规模数据处理的编程模型,由“Map”阶段(数据分发和预处理)和“Reduce”阶段...
7. HDFS(Hadoop 分布式文件系统)中负责数据存储的是 DataNode。 8. HDFS 1.0 的默认 Block Size 是 64MB。 9. Hadoop-2.x 集群中,默认的 HDFS 副本块的个数是 3,以提供冗余和容错能力。 10. DataNode 是 HDFS...
Hadoop的核心组件之一是HDFS(Hadoop Distributed File System),即Hadoop分布式文件系统,它是一个高度可靠且具有高吞吐量的数据访问特性,非常适合用来存储大量的数据。 #### 二、HDFS命令介绍 HDFS提供了丰富...
首先,Hadoop是Apache基金会的一个开源项目,其核心由HDFS(分布式文件系统)和MapReduce(并行计算模型)组成。HDFS提供了高容错性的分布式存储,允许数据在集群中的多台服务器上冗余存储,确保即使硬件故障也能...
1. 文件系统模型:HDFS采用主从结构,由一个Namenode作为元数据管理节点,多个Datanode作为数据存储节点。 2. 文件切块:HDFS将大文件切分成多个块,每个块默认大小为128MB,以便于并行处理。 3. 数据冗余:为了保证...
Hadoop的组件主要包括HDFS(Hadoop分布式文件系统)和MapReduce,它们通过一系列守护进程协同工作。 Hadoop的启动和停止命令通常位于`hadoop/sbin`目录下,为方便使用,可以将该目录添加到系统的PATH环境变量中。...
【尚硅谷大数据技术之Hadoop】是一门深入探讨大数据处理技术的课程,主要聚焦于开源框架Hadoop。Hadoop是Apache软件基金会开发的一个分布式计算项目,它为大规模数据集(大于1TB)提供了高容错性的分布式存储和计算...
项目博客大数据概述分布式文件系统HDFS分布式资源调度YARN全局计算框架MapReduceHadoop项目实战Hadoop集成Spring的使用大数据相关技术拓展spark-train,spark-数据可视化Spark Streaming实时流处理项目实战本课程从...
《HDFS——Hadoop分布式文件系统深度实践》这本书是针对Hadoop分布式文件系统(HDFS)的详尽指南,旨在帮助读者深入理解HDFS的工作原理、设计思想以及在实际应用中的最佳实践。HDFS是Apache Hadoop项目的核心组件之...
HDFS是一种分布式文件系统,它将大型数据集分布在多台廉价硬件上,确保高可用性和容错性。MapReduce则是一种并行计算模型,用于处理和生成大数据集。 二、HDFS详解 1. 数据分块与复制:HDFS将大文件分割成多个块,...
Hadoop的核心组件包括分布式文件系统(HDFS)和分布式计算框架(最初是MapReduce,现在是YARN)。Hadoop设计的目标是高可扩展性和容错性,即使在硬件故障频繁的环境中也能提供高可用的服务。 Hadoop的运行环境主要...
Hadoop作为大数据技术平台中最流行的一个生态系统,其技术复杂而全面,涵盖从数据存储到数据处理的多个环节。Hadoop生态系统的核心技术包括HDFS和MapReduce,HDFS负责数据的分布式存储,而MapReduce负责数据的分布式...
6.2.1 HDFS文件系统的原型GFS 6.2.2 HDFS文件的基本结构 6.2.3 HDFS的存储过程 6.3 MapReduce编程框架 6.3.1 MapReduce的发展历史 6.3.2 MapReduce的基本工作过程 6.3.3 LISP中的MapReduce 6.3.4 MapReduce...
Hadoop的核心设计包括Hadoop分布式文件系统(HDFS),用于存储海量数据,以及MapReduce编程模型,用于计算海量数据。 本文主要围绕Hadoop框架及其数据处理流程展开研究,并提供了实际案例实践。Hadoop不仅在存储...
标签 "Hadoop" 确定了主要讨论的主题,即分布式计算框架Hadoop。Hadoop由两个主要部分组成:Hadoop Distributed File System (HDFS) 和 MapReduce,它们分别负责大规模数据的存储和并行处理。 压缩包子文件的文件...
基于大数据hadoop图书分析系统 框架html + css + jquery + python +Django + hadoop + hive + hdfs + MySQL + orm 用户类型 管理员 admin 123456 普通用户 qqq 123456 模块介绍 管理员 登录注册 系统首页 可视...