上次我们讨论了利用HDFS的url的方式读取HDFS内文件内容的方法,今天我们讨论使用HDFS的API对HDFS内的文件进行读取.
HDFS主要通过FileSystem类来完成对文件的打开操作.和java使用java.io.File来表示文件很不相同,hadoop的HDFS文件系统中的文件是通过Hadoop的Path类来表示的.
FileSystem通过静态方法 get(Configuration conf)来获得FileSystem的实例.通过该实例,我们可以通过FileSystem的open,seek等方法来实现对hdfs的访问,具体的方法如下所示:
public FSDataInputStream open(Path f) throws IOException
public abstract FSDataInputStream open(Path f, int bufferSize)
throws IOException;
通过FileSystem的源代码可以看到,最终open方法落到一个抽象方法public abstractFSDataInputStream open(Path f, int bufferSize)来实现文件的打开,具体的实现方式由继承自FileSystem的具体文件系统的实现来决定.
有了上面的简单解释,我们来看一个通过HDFS的API来访问文件系统的例子:
import org.apache.hadoop.fs.*;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
public class HDFSCatWithAPI {
/**
* @param args
*/
public static void main(String[] args) throws Exception{
// 指定Configuration
Configuration conf = new Configuration();
//定义一个DataInputStream
FSDataInputStream in = null;
try{
//得到文件系统的实例
FileSystem fs = FileSystem.get(conf);
//通过FileSystem的open方法打开一个指定的文件
in = fs.open(new Path("hdfs://localhost:9000/user/myname/input/fixFontsPath.sh"));
//将InputStream中的内容通过IOUtils的copyBytes方法拷贝到System.out中
IOUtils.copyBytes(in,System.out,4096,false);
//seek到position 1
in.seek(1);
//在执行一边拷贝输出工作
IOUtils.copyBytes(in,System.out,4096,false);
}finally{
IOUtils.closeStream(in);
}
}
}
输出如下:
#!/bin/sh
# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements. See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version
..........(中间内容略去)
</map:sitemap>
EOF
!/bin/sh
# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements. See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version
..........(中间内容略去)
</map:sitemap>
EOF
上面的例子简单介绍了Hdfs读取文件的API.值得提出的是seek方法,这里我们使用了seek(1)可以看到第二遍输出比第一遍少了一个#号,这就是seek(1)的结果.另外seek方法相对来说是一个代价比较大的操作(具体可以参见DFSInputStream中对于seek,read等的实现).因此发挥hadoop的特长还是通过Stream数据来处理数据.
分享到:
相关推荐
在Hadoop的分布式文件系统(HDFS)中,文件的读写是整个大数据处理的核心操作。HDFS的设计目标是提供高容错性、高吞吐量的数据访问,以支持大规模数据处理的应用。以下是对Hadoop文件读写及相关属性的详细说明。 ##...
《深入剖析Hadoop文件系统源代码》 Hadoop文件系统(HDFS)是Apache Hadoop项目的核心组件之一,它是一个分布式文件系统,旨在处理和存储大量数据。由鲍亮教授提供的西电版Hadoop文件系统源代码,为学习和理解HDFS...
Java API提供了访问HDFS的接口,例如`org.apache.hadoop.fs.FileSystem`类,可以用于读取、写入和管理文件系统中的文件。 2. **Hadoop MapReduce**:MapReduce是Hadoop用于并行处理和分析大数据的编程模型。在GROUP...
《深入理解Hadoop分布式文件系统(HDFS)》 Hadoop分布式文件系统(HDFS)是Apache Hadoop项目的核心组件之一,它是一个高度容错、可扩展的分布式文件系统,旨在运行在廉价的硬件上,处理和存储海量数据。HDFS的...
【基于Django的Hadoop文件管理系统】 在信息技术领域,Django和Hadoop是两个非常重要的技术组件,分别在Web开发和大数据处理方面发挥着关键作用。这个“基于Django的Hadoop文件管理系统”是一个结合了这两者优势的...
### Hadoop分布式文件系统使用指南 #### Hadoop分布式文件系统(HDFS)概述 Hadoop分布式文件系统(HDFS)是Hadoop项目的核心组件之一,主要用于存储和管理大规模数据集。它提供了一种高容错性的文件存储方式,...
但我们可以从Hadoop文件系统(HDFS)的角度来探讨Hadoop如何处理文件。 【标签】:“tt”同样没有提供具体的信息,这里我们将基于Hadoop的相关概念进行阐述。 **Hadoop文件系统(HDFS):** HDFS是Hadoop的核心...
### Hadoop分布式文件系统(HDFS)架构及源码分析 #### 一、HDFS的架构和设计分析 ##### 1.1 引言 Hadoop分布式文件系统(HDFS)是一种专门为运行在通用硬件上的分布式文件系统而设计的解决方案。与其他分布式文件...
### Hadoop文件存储结构:深入理解HDFS #### 引言与目标设定 Hadoop分布式文件系统(HDFS)作为一款专为运行在廉价硬件上的分布式文件系统设计,其架构和功能设定旨在应对大规模数据集的高效管理和处理。不同于...
在Java编程环境中,Hadoop文件系统的API提供了一种与Hadoop分布式文件系统(HDFS)交互的方法。这篇博文“Java API操作Hadoop文件”可能是关于如何利用Java代码来读取、写入、管理和操作存储在Hadoop集群上的数据。...
### Hadoop分布式文件系统(HDFS)运行测试知识点详解 #### 实验背景与目的 本次实验旨在通过对Hadoop分布式文件系统(HDFS)进行运行测试,深入理解并掌握Hadoop及其核心组件之一——HDFS的基本原理与操作方法。随着...
HDFS是Hadoop的核心,它是一个分布式文件系统,设计用于处理大规模数据集。HDFS的主要优点在于其高容错性和适合批处理的特点。它将数据分布在多台廉价的硬件上,通过数据复制来保证容错性,即使部分节点失效,数据也...
《HDFS——Hadoop分布式文件系统深度实践》这本书是针对Hadoop分布式文件系统(HDFS)的详尽指南,旨在帮助读者深入理解HDFS的工作原理、设计思想以及在实际应用中的最佳实践。HDFS是Apache Hadoop项目的核心组件之...
Hadoop文件系统 接口 Java接口 从Hadoop URL中读取数据 通过FileSystem API读取数据 写入数据 目录 查询文件系统 删除数据 数据流 文件读取剖析 文件写入剖析 一致模型 通过 distcp并行...
在这个场景中,我们讨论的是如何利用Struts2这个Java Web框架来实现文件的上传和下载功能,目标是将文件存入Hadoop分布式文件系统(HDFS)中,并能够从HDFS中检索这些文件。下面将详细介绍这一过程涉及的关键知识点...
标题中的“Hadoop fs包文件系统抽象”指的是Hadoop生态系统中的一个核心组件——FileSystem API,它是Hadoop处理分布式存储的基础。FileSystem API为不同类型的文件系统(如本地文件系统、HDFS、S3等)提供了一个...
### Hadoop分布式文件系统使用指南:深度解析与实践 #### 概述 Hadoop分布式文件系统(HDFS)是Hadoop框架的核心组成部分之一,旨在处理大规模数据集的存储与访问需求。HDFS的设计目标是在商用硬件上实现高容错性...
这两个文件对于Windows用户来说是至关重要的,因为Hadoop通常在Linux环境下运行,而这些文件则使得Hadoop可以在Windows系统上运行。 hadoop.dll是Hadoop在Windows平台上的动态链接库文件,它包含了Hadoop运行所需的...