cp
用法:
hdfs dfs -cp [-f] URI [URI ...] <dest>
从源文件拷贝到目标文件,支持多源文件操作不过目标需要是目录。-f选项如果目标存在就会覆盖。如:
hdfs dfs -cp /user/hadoop/file1 /user/hadoop/file2 hdfs dfs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir
成功返回0,失败返回-1.
du
用法:
hdfs dfs -du [-s] [-h] URI [URI ...]
展示目录包括的文件和目录大小,如果是文件的话那么就是他的size。
选项:
-s 展示文件合计大小 -h 格式化显示 如 64.0m标示 67108864
例子:
hdfs dfs -du /user/hadoop/dir1 /user/hadoop/file1 hdfs://nn.example.com/user/hadoop/dir1
成功返回0,失败返回-1.
dus
用法:
hdfs dfs -dus <args>
展示文件大小,等同于 hdfs dfs -du -s
expunge
用法:
hdfs dfs -expunge
清空hdfs的垃圾箱,更多信息参考hdfs的架构设计
get
用法:
hdfs dfs -get [-ignorecrc] [-crc] <src> <localdst>
拷贝文件到本地,-ignorecrc会拷贝CRC检测失败的文件,-crc可以使得CRC和文件一起被拷贝,例如:
hdfs dfs -get /user/hadoop/file localfile hdfs dfs -get hdfs://nn.example.com/user/hadoop/file localfile
成功返回0失败返回-1.
getmerge
用法:
hdfs dfs -getmerge <src> <localdst> [addnl]
源文件和目标文件作为输入,将源文件中的所有文件合并成一个本地文件,addnl可选,用于在每个文件的结尾加一个换行符。
ls
用法:
hdfs dfs -ls <args>
文件的话返回如下格式:
permissions number_of_replicas userid groupid filesize modification_date modification_time filename
目录的话罗列其子文件跟unix类似,格式如下:
permissions userid groupid modification_date modification_time dirname
例子如下:
hdfs dfs -ls /user/hadoop/file1
成功返回0,失败返回-1
lsr
用法:
hdfs dfs -lsr <args>
ls的递归版本,等同于linux的ls -R
mkdir
用法:
hdfs dfs -mkdir [-p] <paths>
创建目录,-p选项等同于unix的mkdir -p,创建其父目录
例子:
hdfs dfs -mkdir /user/hadoop/dir1 /user/hadoop/dir2 hdfs dfs -mkdir hdfs://nn1.example.com/user/hadoop/dir hdfs://nn2.example.com/user/hadoop/dir
成功返回0,失败返回-1.
moveFromLocal
用法:
dfs -moveFromLocal <localsrc> <dst>
跟put类似,源文件在拷贝之后将会被删除。
moveToLocal
用法:
hdfs dfs -moveToLocal [-crc] <src> <dst>
显示“还未实现”的信息
mv
用法:
hdfs dfs -mv URI [URI ...] <dest>
源文件移动到目标文件,此命令允许多源文件,不过目标文件必须为目录,跨集群操作是不允许的。
例如:
hdfs dfs -mv /user/hadoop/file1 /user/hadoop/file2 hdfs dfs -mv hdfs://nn.example.com/file1 hdfs://nn.example.com/file2 hdfs://nn.example.com/file3 hdfs://nn.example.com/dir1
成功返回0,失败返回-1.
put
用法:
hdfs dfs -put <localsrc> ... <dst>
从本地源文件拷贝到目标文件系统上,允许多源文件,不过目标文件必须为目录,同时也支持命令行输入然后写到文件系统上去。
例子:
hdfs dfs -put localfile /user/hadoop/hadoopfile hdfs dfs -put localfile1 localfile2 /user/hadoop/hadoopdir hdfs dfs -put localfile hdfs://nn.example.com/hadoop/hadoopfile hdfs dfs -put - hdfs://nn.example.com/hadoop/hadoopfile Reads the input from stdin.
成功返回0,失败返回-1.
rm
用法:
hdfs dfs -rm [-skipTrash] URI [URI ...]
删除文件或者目录,-skipTrash会直接删除而不是先进文件系统的垃圾站,不过如果在超额目录下删除文件的时候是非常有用的,换句话说在文件比较大的时候有用,递归删除请参看rmr
例子:
hdfs dfs -rm hdfs://nn.example.com/file /user/hadoop/emptydir
成功返回0,失败返回-1.
rmr
用法:
hdfs dfs -rmr [-skipTrash] URI [URI ...]
递归删除,-skipTrash会直接删除而不是先进文件系统的垃圾站,不过如果在超额目录下删除文件的时候是非常有用的,换句话说在文件比较大的时候有用。
例子:
hdfs dfs -rmr /user/hadoop/dir hdfs dfs -rmr hdfs://nn.example.com/user/hadoop/dir
成功返回0,失败返回-1.
setrep
用法:
hdfs dfs -setrep [-R] [-w] <numRepicas> <path>
修改文件的备份个数,如果path为一个目录那么他会递归修改所有子文件的备份个数。
选项:
-w 会等待复制知道完成之后才会退出,这个可能要等很大一会 -R 没啥影响向后兼容
例子:
hdfs dfs -setrep -w 3 /user/hadoop/dir1
成功返回0,失败返回-1.
stat
用法:
hdfs dfs -stat URI [URI ...]
返回此路径的相关信息。
例子:
hdfs dfs -stat path
成功返回0,失败返回-1.
tail
用法:
hdfs dfs -tail [-f] URI
展示文件的最后1kb到屏幕上。选项-f选项指定当文件发生改变的时候在屏幕上追加显示。
例子:
hdfs dfs -tail pathname
成功返回0,失败返回-1.
test
用法:
hdfs dfs -test -[ezd] URI
选项说明:
-e 检测文件是否存储,如果存在那么退出返回0 -z 检测文件长度是否为0,如果是那么返回0 -d 检测文件是否为目录,如果是那么返回0
例子:
hdfs dfs -test -e filename
text
用法:
hdfs dfs -text <src>
输出文件为text格式,支持zip and TextRecordInputStream.
touchz
用法:
hdfs dfs -touchz URI [URI ...]
创建一个空的文件
例子:
hadoop -touchz pathname
成功返回0,失败反馈-1
ps:
查看命令执行返回值命令为:
echo $?
相关推荐
hadoop2.2.0 在window下进行MapReduce 测试时需要的工具,使用时需要修改 源码org.apache.hadoop.util.Shell.java 的277行fullName的路径如: String fullExeName = "d:/hadoop" + File.separator + executable; ...
它通过分布式文件系统(HDFS)和MapReduce计算模型实现了这一目标。Hadoop Common是Hadoop生态系统中的一个基础组件,提供了各种通用工具和服务,支持Hadoop其他模块的运行。 描述中提到,Hadoop是由Apache基金会...
标题 "apache-hive-2.2.0-bin.tar.gz" 暗示这是一个Apache Hive的二进制发行版,版本号为2.2.0,打包格式为tar.gz。这通常包含Hive的所有运行时组件,如Hive服务器、元存储、客户端工具以及相关的库文件,用于在...
YARN是Hadoop生态系统中的资源管理器,负责集群资源的调度和分配。Spark on YARN允许Spark应用程序在Hadoop集群上运行,利用YARN进行任务调度和数据存储管理。这种模式下,Spark运行在YARN的容器中,而不是在独立的...
如果出现如下bug:“Could not locate executable null\bin\winutils.exe in the Hadoop binaries”,则下载该文件,放入hadoop的bin文件夹下,并设置环境变量HADOOP_HOME:F:\hadoop2.2.0即可。
1. **下载Hadoop**:首先,你需要从Apache官方网站下载Hadoop 2.2.0的源码或二进制包。 2. **配置环境变量**:在系统环境变量中设置HADOOP_HOME,指向Hadoop的安装目录。 3. **配置hadoop-env.sh**:在HADOOP_HOME/...
【标签】"hadoop" 明确了本资源的主题,Hadoop是一个开源的大数据处理框架,由Apache软件基金会开发,它提供了分布式文件系统(HDFS)和MapReduce计算模型,用于处理和存储大量数据。 【压缩包子文件的文件名称列表...
Spark 2.2.2支持多种数据源,包括HDFS(Hadoop分布式文件系统)、Cassandra、HBase等,这使得它能无缝集成到Hadoop生态中。此外,它内置了Spark SQL模块,用于执行SQL查询,同时支持DataFrame和Dataset操作,以及...
首先,winutils-2.2.0是专门为Hbase设计的Windows版实用工具,它提供了与Linux环境下hadoop的bin目录下同名的winutils.exe程序,使得在Windows操作系统上可以执行Hadoop相关的命令,如设置HADOOP_HOME环境变量、启动...
这个"spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz"压缩包是Spark的一个特定版本,用于与Cloudera Distribution Including Apache Hadoop (CDH) 5.14.0兼容。CDH是Cloudera公司提供的一个全面、集成、管理的Hadoop堆栈,...
Spark是Apache软件基金会下的一个开源大数据处理框架,它以其高效、灵活和易用性而闻名。Spark-x.x.x-bin-hadoop版本是Spark针对Hadoop的一个特定发行版,其中包含了运行Spark所需的所有组件,包括Spark核心、Spark ...
Hive是Apache Hadoop生态系统中的一个数据仓库工具,它允许用户使用SQL-like的语言(HQL,Hive Query Language)对大规模数据进行分析。本指南将详细阐述如何在Linux环境下安装Hive,包括创建目录、解压安装包、设置...
- 从Apache Hive官网下载Hive 0.12.0的二进制包,将其解压至/home/hadoop/source/目录。 - 创建软链接方便访问:`ln -s /home/hadoop/source/hive-0.12.0-bin/ ./hive` - 更新环境变量:在/etc/profile文件中添加...
2.2.0版本的Hadoop Common提供了文件系统接口和其他基本功能,如网络通信、错误报告、配置管理等。它是Hadoop其他模块(如HDFS和MapReduce)运行所依赖的基础组件。 2. **Hadoop Distributed File System (HDFS)**...