可以用bin/hadoop fs -ls 来读取HDFS上的文件属性信息。
也可以采用HDFS的API来读取。如下:
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.FileStatus;
public class FileInfo
{
public static void main(String[] args) throws Exception
{
if(args.length != 1){
System.out.println("Usage FileInfo <target>");
System.exit(1);
}
Configuration conf = new Configuration();
FileSystem hdfs = FileSystem.get(URI.create(args[0]),conf);
FileStatus fs = hdfs.getFileStatus(new Path(args[0]));
System.out.println("path: "+fs.getPath());
System.out.println("length: "+fs.getLen());
System.out.println("modify time: "+fs.getModificationTime());
System.out.println("owner: "+fs.getOwner());
System.out.println("replication: "+fs.getReplication());
System.out.println("blockSize: "+fs.getBlockSize());
System.out.println("group: "+fs.getGroup());
System.out.println("permission: "+fs.getPermission().toString());
}
}
分享到:
相关推荐
在Java编程环境中,Hadoop分布式文件系统(HDFS)提供了丰富的Java API,使得开发者能够方便地与HDFS进行交互,包括文件的上传、下载、读写等操作。本篇文章将详细探讨如何使用HDFS Java API来实现文件上传的功能。 ...
除了基本的上传和下载,HDFS客户端还提供了诸如重命名、移动、删除、查看文件属性等丰富的文件管理功能。用户可以直观地看到HDFS中的文件结构,并进行相应的操作,大大提升了工作效率。 5. **安全性与权限** 在...
今天我们将聚焦于一个特定的Python库——hdfs3,其最新版本hdfs3-0.1.2.tar.gz可以从PyPI官网上获取。这个压缩包包含了该库的源代码和其他相关文件,使得开发者能够轻松地在自己的项目中集成和使用hdfs3。 hdfs3是...
在大数据处理场景中,为了优化性能和降低成本,HDFS支持了多种存储策略,包括“冷热温”存储策略以及内存存储策略——LAZY PERSIST。 一、HDFS内存存储策略支持 1. LAZY PERSIST介绍 LAZY PERSIST是一种内存存储...
从提供的文件信息来看,该文档的标题为“数据结构和管理(三)续——第三章 文件、记录、字段.pdf”,其内容涉及到数据结构、数据分析、大数据等概念。这些知识点可以被细分为以下几个部分: ### 文件系统的概念和...
### Hadoop 2.7.1 —— NFS 部署详解 #### 一、概述 随着大数据技术的发展,Hadoop作为主流的大数据处理框架之一,其分布式存储系统HDFS得到了广泛的应用。为了提高Hadoop集群的数据访问效率,通常会采用网络文件...
【Hadoop 3自学入门笔记(2)—— HDFS分布式搭建】 在学习Hadoop 3分布式文件系统(HDFS)的搭建过程中,首先要了解Hadoop 2与Hadoop 3的差异,特别是在端口配置方面。Hadoop 3相较于Hadoop 2在安全性、可扩展性和...
NameNode作为主节点负责管理文件系统的元数据(如文件名、文件块列表、文件属性等),而DataNode则是从节点,存储实际的数据块。此外,还有一个Secondary NameNode用于辅助NameNode进行周期性的元数据备份,防止数据...
- **功能:**用户可以通过此工具打开、复制、移动或删除文件,还可以查看文件属性和执行搜索操作。 #### 五、logoff——注销当前用户 **知识点:** - **用途:**logoff 命令用于注销当前登录的用户账户。 - **功能...
扁平文件服务处理文件的创建、删除和属性查询等操作,而目录服务则管理文件名和标识符的映射。用户端模块负责在客户端上实现这些操作,并提供与本地文件系统类似的接口,以降低用户使用的复杂性。 HDFS的NameNode是...
- Parquet文件索引信息不足,导致在查询时无法有效地定位数据。 - 文件数量过多(每小时约600个),这会影响获取split的性能。 3. **底层文件组织形式及存储系统变化带来的维护负担**: - 底层文件的组织形式(如...
这通常通过修改`hdfs-default.xml`文件中的相关属性来实现: - `dfs.namenode.checkpoint.period`: 设置CheckPoint周期,默认为3600秒(1小时)。 - `dfs.namenode.checkpoint.txns`: 规定Edits文件达到指定操作...
HDFS(Hadoop Distributed File System)作为Hadoop的核心组件之一,提供了一种高可靠、高扩展性的分布式文件存储系统。读取HDFS中的数据通常遵循以下流程: 1. **与NameNode通信查询元数据**: - 客户端向NameNode...
一个Event由Header和Body两部分组成,Header用来存放该event的一些属性,为键值(K-V)结构;Body用来存放该条数据,形式为字节数组。 安装部署步骤如下: 1. 将apache-flume-1.7.0-bin.tar.gz上传到linux的/usr/apps...
文件访问权限可以通过右键属性,权限命令来设置。不同的用户可以拥有不同的权限,可以对文件的访问权限进行设置。 十、shell 命令的使用 shell 命令可以用来完成许多功能,如查看当前进程所有者及其他一些详细信息...
- 合并小文件:小文件过多会降低HDFS性能,可以通过设置HDFS参数或使用工具合并小文件。 - Spark缓存:利用Spark的内存计算能力,对常用数据进行缓存,减少重复计算。 7. **作业流程调度** - 使用如Airflow或...
- **配置**:Log4j 的配置文件通常是 XML 或者 properties 文件格式,通过这些配置文件可以灵活地定制日志的输出格式、级别等属性。 - **优势**:使用 Log4j 可以极大地简化日志记录的过程,提高代码的可维护性。...
元数据是分布式文件系统中的关键组成部分,它描述了文件系统中数据的结构和管理信息,比如文件的权限、位置以及文件属性等。由于其重要性,元数据管理成为影响DFS性能、稳定性和可靠性的关键因素。 传统的DFS元数据...
- **core-site.xml**:这是Hadoop的核心配置文件,定义了诸如Hadoop默认的文件系统、I/O缓冲区大小等核心属性。 - **hdfs-site.xml**:用于配置HDFS的参数,比如副本数量、块大小、数据节点和名称节点的地址等。 ...