hdfs文件的相关操作主要使用hadoop fs、hadoop dfs、hdfs dfs 命令,以下对最常用的相关命令进行简要说明。
hadoop fs -ls 显示当前目录结构,-ls -R 递归显示目录结构
hadoop fs -mkdir 创建目录
hadoop fs -rm 删除文件,-rm -R 递归删除目录和文件
hadoop fs -put [localsrc] [dst] 从本地加载文件到HDFS
hadoop fs -get [dst] [localsrc] 从HDFS导出文件到本地
hadoop fs - copyFromLocal [localsrc] [dst] 从本地加载文件到HDFS,与put一致
hadoop fs -copyToLocal [dst] [localsrc] 从HDFS导出文件到本地,与get一致
hadoop fs -test -e 检测目录和文件是否存在,存在返回值$?为0,不存在返回1
hadoop fs -text 查看文件内容
hadoop fs -du 统计目录下各文件大小,单位字节。-du -s 汇总目录下文件大小,-du -h 显示单位
hadoop fs -tail 显示文件末尾
hadoop fs -cp [src] [dst] 从源目录复制文件到目标目录
hadoop fs -mv [src] [dst] 从源目录移动文件到目标目录
下面的对上面命令的操作演示
1,hadoop fs -ls 显示当前目录结构,-ls -R 递归显示目录结构
2,hadoop fs -mkdir 创建目录
3,hadoop fs -rm 删除文件,-rm -R 递归删除目录和文件
4,hadoop fs -put [localsrc] [dst] 从本地加载文件到HDFS
5,hadoop fs -get [dst] [localsrc] 从HDFS导出文件到本地
6,hadoop fs - copyFromLocal [localsrc] [dst] 从本地加载文件到HDFS,与put一致
7,hadoop fs -copyToLocal [dst] [localsrc] 从HDFS导出文件到本地,与get一致
8,hadoop fs -test -e 检测目录和文件是否存在,存在返回值$?为0,不存在返回1
9,hadoop fs -text 查看文件内容
10,hadoop fs -du 统计目录下各文件大小,单位字节。-du -s 汇总目录下文件大小,-du -h 显示单位
11,hadoop fs -tail 显示文件末尾
12,hadoop fs -cp [src] [dst] 从源目录复制文件到目标目录
13,hadoop fs -mv [src] [dst] 从源目录移动文件到目标目录
from:https://blog.csdn.net/afafawfaf/article/details/80254989
HDFS 文件操作命令
注,其实常用命令不用网上搜,和linux下的命令很类似,触类旁通,直接在linux 上 hadoop fs 看一下就行了,不需要刻意去记
我把 linux 上的 help 列举下,方便直接看吧,hdfs dfs 与 hadoop fs 效果一样
常用的就是
hdfs dfs -copyFromLocal /local/data /hdfs/data:将本地文件上传到 hdfs 上(原路径只能是一个文件)
hdfs dfs -put /tmp/ /hdfs/ :和 copyFromLocal 区别是,put 原路径可以是文件夹等
hadoop fs -ls / :查看根目录文件
hadoop fs -ls /tmp/data:查看/tmp/data目录
hadoop fs -cat /tmp/a.txt :查看 a.txt,与 -text 一样
hadoop fs -mkdir dir:创建目录dir
hadoop fs -rmr dir:删除目录dir
刚开始学hdfs的时候,不知道怎么cd到hdfs的下级目录,我以为同linux命令一样是cd进去的,然而。。恩,不知道有新司机也一样想
[orco@node1 sbin]$ hadoop fs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p] [-l] <localsrc> ... <dst>] [-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-count [-q] [-h] <path> ...] [-cp [-f] [-p | -p[topax]] <src> ... <dst>] [-createSnapshot <snapshotDir> [<snapshotName>]] [-deleteSnapshot <snapshotDir> <snapshotName>] [-df [-h] [<path> ...]] [-du [-s] [-h] <path> ...] [-expunge] [-find <path> ... <expression> ...] [-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-getfacl [-R] <path>] [-getfattr [-R] {-n name | -d} [-e en] <path>] [-getmerge [-nl] <src> <localdst>] [-help [cmd ...]] [-ls [-d] [-h] [-R] [<path> ...]] [-mkdir [-p] <path> ...] [-moveFromLocal <localsrc> ... <dst>] [-moveToLocal <src> <localdst>] [-mv <src> ... <dst>] [-put [-f] [-p] [-l] <localsrc> ... <dst>] [-renameSnapshot <snapshotDir> <oldName> <newName>] [-rm [-f] [-r|-R] [-skipTrash] <src> ...] [-rmdir [--ignore-fail-on-non-empty] <dir> ...] [-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]] [-setfattr {-n name [-v value] | -x name} <path>] [-setrep [-R] [-w] <rep> <path> ...] [-stat [format] <path> ...] [-tail [-f] <file>] [-test -[defsz] <path>] [-text [-ignoreCrc] <src> ...] [-touchz <path> ...] [-truncate [-w] <length> <path> ...] [-usage [cmd ...]]
HDFS的管理命令
一般管理员才会用下面的命令,举例:
hdfs dfsadmin -report:显示所有dataNode
hdfs dfsadmin -safemode leave:离开安全模式
[orco@node1 hadoop-2.7.3]$ bin/hdfs dfsadmin Usage: hdfs dfsadmin Note: Administrative commands can only be run as the HDFS superuser. [-report [-live] [-dead] [-decommissioning]] [-safemode <enter | leave | get | wait>] [-saveNamespace] [-rollEdits] [-restoreFailedStorage true|false|check] [-refreshNodes] [-setQuota <quota> <dirname>...<dirname>] [-clrQuota <dirname>...<dirname>] [-setSpaceQuota <quota> [-storageType <storagetype>] <dirname>...<dirname>] [-clrSpaceQuota [-storageType <storagetype>] <dirname>...<dirname>] [-finalizeUpgrade] [-rollingUpgrade [<query|prepare|finalize>]] [-refreshServiceAcl] [-refreshUserToGroupsMappings] [-refreshSuperUserGroupsConfiguration] [-refreshCallQueue] [-refresh <host:ipc_port> <key> [arg1..argn] [-reconfig <datanode|...> <host:ipc_port> <start|status>] [-printTopology] [-refreshNamenodes datanode_host:ipc_port] [-deleteBlockPool datanode_host:ipc_port blockpoolId [force]] [-setBalancerBandwidth <bandwidth in bytes per second>] [-fetchImage <local directory>] [-allowSnapshot <snapshotDir>] [-disallowSnapshot <snapshotDir>] [-shutdownDatanode <datanode_host:ipc_port> [upgrade]] [-getDatanodeInfo <datanode_host:ipc_port>] [-metasave filename] [-triggerBlockReport [-incremental] <datanode_host:ipc_port>] [-help [cmd]]
单独启动某个服务
hadoop-deamon.sh start namenode
启动一个 DN
hadoop-daemon.sh start datanode
hadoop-daemon.sh start nodemanager
from:https://www.cnblogs.com/sorco/p/6898807.html
Others:
hadoop-daemon.sh start namenode
hadoop-daemon.sh start zkfc
yarn-daemon.sh start resourcemanager
yarn-daemon.sh stop resourcemanager
zkServer.sh start
zkServer.sh stop
start-dfs.sh
start-yarn.sh
hadoop-daemon.sh start zkfc
hadoop-daemon.sh start namenode
hadoop-daemon.sh start journalnode
hdfs namenode -bootstrapStandby
zkServer.sh status
hdfs dfs -ls /data/wc/output
hdfs dfs -get /data/wc/output/* ./
hdfs dfs -get /data/wc/output/* ./
hdfs dfs -cat /data/wc/output/* ./
hdfs dfs -cat /data/wc/output/part-r-00000
hdfs dfs -cat /data/wc/output/_SUCCESS
hadoop jar hadoop-mapreduce-examples-2.6.5.jar wordcount /user/root/test.txt /data/wc/output
hdfs dfs -mkdir -p /user/root
hdfs dfs -D dfs.blocksize=1048576 -put test.txt
相关推荐
2. `hdfs dfs -du`: 该命令统计目录下各文件的大小,`-s` 参数汇总所有文件大小,而 `-h` 参数使输出以人类可读的单位(如KB、MB、GB)显示。 3. `hdfs dfs -count`: 用来计算路径下的文件和目录的数量。可选的`-q`...
Hadoop HDFS分布式文件系统常用命令汇总 Hadoop HDFS分布式文件系统是大数据存储和处理的核心组件。作为一个分布式文件系统,HDFS提供了高可靠性、高可扩展性和高性能的存储解决方案。在使用HDFS时,经常需要执行...
**cat** 和 **text**:用于查看HDFS文件的内容。`cat`直接显示文件内容,`text`则更适合查看文本文件,处理行尾的特殊字符。 **copyToLocal** 和 **moveToLocal**:从HDFS复制或移动文件到本地文件系统,可以使用`-...
HDFS 基础知识大总结 HDFS(Hadoop Distributed File System)是 Hadoop 项目中的一部分,是一种分布式文件系统。...HDFS 是一种功能强大且灵活的分布式文件系统,提供了许多便捷的命令和 Web 界面来操作文件系统。
根据提供的标题、描述和部分文本内容,我们可以提炼出与Hadoop相关的知识点,特别是关于如何使用HDFS命令行工具操作Hadoop分布式集群。 ### Hadoop基础知识 #### 什么是Hadoop? Hadoop是一个开源软件框架,用于...
fs -cp命令是HDFS中的基本命令之一,用于将文件从一个位置复制到另一个位置。该命令可以单进程地复制文件,但是对于大规模数据传输速度较慢。 2. distcp命令 distcp命令是HDFS中的分布式拷贝命令,用于将大规模...
4. 格式化HDFS文件系统 在Hadoop集群上部署新系统时,需要格式化一个新的分布式文件系统。这可以通过执行`hadoop namenode -format`命令来完成。 5. 启动与停止HDFS和MapReduce服务 Hadoop提供了一系列的shell脚本...
停止HDFS可以使用命令`$bin/stop-dfs.sh`,该命令会在NameNode上参照`$HADOOP_CONF_DIR/slaves`文件的内容,在所有列出的从节点上停止DataNode守护进程。 **9. 停止Map/Reduce服务** 停止Map/Reduce服务则需要执行...
- **目的**:让开发者能够在单机环境中体验Hadoop的功能,熟悉HDFS和MapReduce的基本操作。 - **步骤**: - 下载Hadoop的发行版。 - 编辑`conf/hadoop-env.sh`文件,设置`JAVA_HOME`环境变量。 - 使用`bin/hadoop...
- **datanode**:是HDFS的数据存储节点,负责存储实际的数据块,并根据namenode的指令执行数据读写操作。 2. **MapReduce**: - **map阶段**:数据的拆分与处理,将大任务分解为多个小任务,每个任务在一个工作...
Hadoop提供一系列文件系统命令(FSShell),允许用户直接对HDFS文件进行操作。这些命令包括但不限于文件的创建、修改权限、移动、复制、删除等。 3.3 命令手册 提供了Hadoop命令的详细说明,包括常规选项、用户命令...
这些命令为用户提供了对HDFS文件系统的灵活控制能力,使得用户能够在不需要编写复杂程序的情况下完成对文件系统的管理任务。 #### 四、Java API与Hadoop RPC机制 除了命令行工具外,Hadoop还提供了丰富的Java API...
2. HDFS文件存储系统:HDFS是Hadoop生态中的一种分布式文件存储系统。 3. Hive和HBase的关系:Hive和HBase是Hadoop生态中的两个重要组件,分别负责数据仓库和NoSQL数据库等功能。 大数据思维: 1. 算法复杂度:...
5. **查看结果**:使用HDFS Shell命令查看作业输出的结果文件。 #### 练习题 - WordCount程序中Mapper和Reducer是如何协同工作的? - 如何优化WordCount程序的性能? 通过以上几个实验的学习,可以全面掌握Hadoop...
本课程主要介绍了Hadoop大数据开发的基础知识,包括Hadoop的概述、HDFS分布式文件系统、Hadoop伪分布环境搭建、HDFS Shell命令操作、Java API访问HDFS目录等方面的内容。 一、Hadoop概述 Hadoop是一个开源的大数据...
Hadoop分布式文件系统(HDFS)是Hadoop的重要组成部分,实验二要求学员熟悉HDFS的基本操作,包括文件的上传下载、查看目录结构、文件的复制与移动、权限的管理等。HDFS的操作往往通过Hadoop提供的命令来完成,例如:...
我们的目标是通过配置Flume来将这些日志文件实时地收集并汇总到 C 机器上,然后再统一存储到 HDFS 中,以便进行后续的日志分析。最终的HDFS目录结构应如以下所示: - `/source/access/20160101/**` - `/source/...
HDFS文件写入机制 - **知识点**: HDFS支持的数据写入机制。 - **解释**: HDFS默认不允许对文件进行多次写入操作,也不支持在文件任意位置进行修改。文件块默认会被复制三次,并分布在网络的不同节点上。 #### 19. ...