`
小网客
  • 浏览: 1241323 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

[综合]Apache Hadoop 2.2.0文件系统shell(一)[翻译]

 
阅读更多

概述

文件系统shell包括各种跟shell类似的命令来跟hdfs交互,同时也支持其他的hadoop支持的文件系统如:本地FS, HFTP FS, S3 FS等,shell命令调用方式如下:

 

bin/hadoop fs <args>

所有的命令文件路径都作为参数传入,文件路径的格式如 scheme://authority/path。对于hdfs而言scheme为hdfs,对于本地系统scheme 为 file。scheme 和authority 都是可选的,如果不指定那么默认采用系统配置的参数。hdfs的文件或者目录如/parent/child 写全了就是hdfs://namenodehost/parent/child ,简短即 /parent/child(配置文件指向了hdfs://namenodehost)。

 

大部分的文件系统shell命令类unix命令。每个命令的不同支持都会描述清楚。执行错误信息执行stderr ,其他输出执行stdout。

 

appendToFile

用法:

hdfs dfs -appendToFile <localsrc> ... <dst>

 追加本地文件一个或者多个到目标系统上,同时也可以从命令行输入信息追加到目标文件系统文件上去,如:

hdfs dfs -appendToFile localfile /user/hadoop/hadoopfile
hdfs dfs -appendToFile localfile1 localfile2 /user/hadoop/hadoopfile
hdfs dfs -appendToFile localfile hdfs://nn.example.com/hadoop/hadoopfile
hdfs dfs -appendToFile - hdfs://nn.example.com/hadoop/hadoopfile 命令行输入.

成功返回0,错误返回1

 

cat

用法:

 hdfs dfs -cat URI [URI ...]

展示目标文件内容到屏幕,如:

hdfs dfs -cat hdfs://nn1.example.com/file1 hdfs://nn2.example.com/file2
hdfs dfs -cat file:///file3 /user/hadoop/file4

成功返回0,失败返回-1

 

chgrp

用法:

 hdfs dfs -chgrp [-R] GROUP URI [URI ...]

修改文件的用户组。执行操作人必须拥有此文件或者是超级用户,更多信息参考权限指南。

选项:

-R 会递归修改文件用户组权限。

 

chmod

用法:

hdfs dfs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI ...]

修改文件权限,-R参数会递归修改子目录及文件,操作者必须拥有此文件或者是超级用户,更多信息参见权限指南。

 

chown

用法:

hdfs dfs -chown [-R] [OWNER][:[GROUP]] URI [URI ]

修改文件拥有者,-R参数会递归修改子目录及文件,用户必须为超级用户,更多信息参见权限指南。

 

copyFromLocal

用法:

hdfs dfs -copyFromLocal <localsrc> URI

跟put命令类似,目标文件不能是一个引用。-f选项是当目标文件存在的时候会覆盖目标文件。

 

copyToLocal

用法:

 hdfs dfs -copyToLocal [-ignorecrc] [-crc] URI <localdst>

同get命令,目标文件不能是一个文件引用。

 

count

用法:

hdfs dfs -count [-q] <paths>

统计其子路径目录数,文件数,内容大小,其列分别为: DIR_COUNT, FILE_COUNT, CONTENT_SIZE FILE_NAME,选项-q那么他的列为: QUOTA, REMAINING_QUATA, SPACE_QUOTA, REMAINING_SPACE_QUOTA, DIR_COUNT, FILE_COUNT, CONTENT_SIZE, FILE_NAME

如:

hdfs dfs -count hdfs://nn1.example.com/file1 hdfs://nn2.example.com/file2
hdfs dfs -count -q hdfs://nn1.example.com/file1

成功返回0,失败返回-1.

 

count

用法:

hdfs dfs -cp [-f] URI [URI ...] <dest>

拷贝源文件到目标文件,支持多源文件,不过目标文件需要是一个目录,-f选项为当存在的时候会覆盖,如:

hdfs dfs -cp /user/hadoop/file1 /user/hadoop/file2
hdfs dfs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir

成功返回0,失败返回-1.

 

0
0
分享到:
评论

相关推荐

    hadoop2.2.0 winutils.exe

    hadoop2.2.0 在window下进行MapReduce 测试时需要的工具,使用时需要修改 源码org.apache.hadoop.util.Shell.java 的277行fullName的路径如: String fullExeName = "d:/hadoop" + File.separator + executable; ...

    hadoop-common-2.2.0-bin-master

    它通过分布式文件系统(HDFS)和MapReduce计算模型实现了这一目标。Hadoop Common是Hadoop生态系统中的一个基础组件,提供了各种通用工具和服务,支持Hadoop其他模块的运行。 描述中提到,Hadoop是由Apache基金会...

    apache-hive-2.2.0-bin.tar.gz

    从"压缩包子文件的文件名称列表"来看,只有一个主要文件 "apache-hive-2.2.0-bin",这意味着解压后将得到完整的Hive安装目录,包括以下关键组件: 1. **bin** 目录:包含了Hive的命令行工具,如`hive` shell和`...

    spark-2.2.0-bin-hadoop2.6.tgz

    Spark是Apache软件基金会下的一个大数据处理框架,以其高效、易用和可扩展性著称。在给定的压缩包"spark-2.2.0-bin-hadoop2.6.tgz"中,包含了运行Spark在Hadoop YARN(Yet Another Resource Negotiator)模式下所需...

    winutils.exe:解决hadoop在windows运行出现的bug

    如果出现如下bug:“Could not locate executable null\bin\winutils.exe in the Hadoop binaries”,则下载该文件,放入hadoop的bin文件夹下,并设置环境变量HADOOP_HOME:F:\hadoop2.2.0即可。

    传智黑马赵星老师hadoop七天课程资料笔记-第一天(全)

    【标签】"hadoop" 明确了本资源的主题,Hadoop是一个开源的大数据处理框架,由Apache软件基金会开发,它提供了分布式文件系统(HDFS)和MapReduce计算模型,用于处理和存储大量数据。 【压缩包子文件的文件名称列表...

    winutils-2.2.0.rar

    首先,winutils-2.2.0是专门为Hbase设计的Windows版实用工具,它提供了与Linux环境下hadoop的bin目录下同名的winutils.exe程序,使得在Windows操作系统上可以执行Hadoop相关的命令,如设置HADOOP_HOME环境变量、启动...

    Spark+Hadoop+IDE环境搭建

    HDFS是分布式文件系统,用于存储大规模数据;MapReduce则是一种并行计算模型,用于处理和生成大数据集。在Hadoop 2.2.0版本中,引入了YARN(Yet Another Resource Negotiator),作为资源管理器,进一步提升了系统的...

    spark-2.2.2-bin-hadoop2.7.tgz

    Spark 2.2.2支持多种数据源,包括HDFS(Hadoop分布式文件系统)、Cassandra、HBase等,这使得它能无缝集成到Hadoop生态中。此外,它内置了Spark SQL模块,用于执行SQL查询,同时支持DataFrame和Dataset操作,以及...

    spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz

    这个"spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz"压缩包是Spark的一个特定版本,用于与Cloudera Distribution Including Apache Hadoop (CDH) 5.14.0兼容。CDH是Cloudera公司提供的一个全面、集成、管理的Hadoop堆栈,...

    本地调试所需spark-x.x.x-bin-hadoop包

    Spark是Apache软件基金会下的一个开源大数据处理框架,它以其高效、灵活和易用性而闻名。Spark-x.x.x-bin-hadoop版本是Spark针对Hadoop的一个特定发行版,其中包含了运行Spark所需的所有组件,包括Spark核心、Spark ...

    hive安装指南

    Hive是Apache Hadoop生态系统中的一个数据仓库工具,它允许用户使用SQL-like的语言(HQL,Hive Query Language)对大规模数据进行分析。本指南将详细阐述如何在Linux环境下安装Hive,包括创建目录、解压安装包、设置...

    hbase相关的安装包

    2.2.0版本的Hadoop Common提供了文件系统接口和其他基本功能,如网络通信、错误报告、配置管理等。它是Hadoop其他模块(如HDFS和MapReduce)运行所依赖的基础组件。 2. **Hadoop Distributed File System (HDFS)**...

    大数据集群配置过程_hive篇.docx

    在大数据处理领域,Hive是一个基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,使得数据分析人员无需编写MapReduce程序就能对存储在Hadoop上的大量数据进行处理。...

Global site tag (gtag.js) - Google Analytics