`
wbj0110
  • 浏览: 1603567 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

Hadoop编程调用HDFS

阅读更多

前言

HDFS 全称Hadoop分步文件系统(Hadoop Distributed File System),是Hadoop的核心部分之一。要实现MapReduce的分步式算法时,数据必需提前放在HDFS上。因此,对于HDFS的操作就变得非常重要。Hadoop的命令行,提供了一套完整命令接口,就像Linux命令一样方便使用。

不过,有时候我们还需要在程序中直接访问HDFS,我们可以通过API的方式进行HDFS操作。

目录

  1. 系统环境
  2. ls操作
  3. rmr操作
  4. mkdir操作
  5. copyFromLocal操作
  6. cat操作
  7. copyToLocal操作
  8. 创建一个新文件,并写入内容

1. 系统环境

Hadoop集群环境

    • Linux Ubuntu 64bit Server 12.04.2 LTS
    • Java 1.6.0_29
    • Hadoop 1.1.2

如何搭建Hadoop集群环境? 请参考文章:Hadoop历史版本安装

开发环境

        • Win7 64bit
        • Java 1.6.0_45
        • Maven 3
        • Hadoop 1.1.2
        • Eclipse Juno Service Release 2

如何用Maven搭建Win7的Hadoop开发环境? 请参考文章:用Maven构建Hadoop项目

注:hadoop-core-1.1.2.jar,已重新编译,已解决了Win远程调用Hadoop的问题,请参考文章:Hadoop历史版本安装

Hadooop命令行:java FsShell


~ hadoop fs

Usage: java FsShell
           [-ls ]
           [-lsr ]
           [-du ]
           [-dus ]
           [-count[-q] ]
           [-mv  ]
           [-cp  ]
           [-rm [-skipTrash] ]
           [-rmr [-skipTrash] ]
           [-expunge]
           [-put  ... ]
           [-copyFromLocal  ... ]
           [-moveFromLocal  ... ]
           [-get [-ignoreCrc] [-crc]  ]
           [-getmerge   [addnl]]
           [-cat ]
           [-text ]
           [-copyToLocal [-ignoreCrc] [-crc]  ]
           [-moveToLocal [-crc]  ]
           [-mkdir ]
           [-setrep [-R] [-w]  ]
           [-touchz ]
           [-test -[ezd] ]
           [-stat [format] ]
           [-tail [-f] ]
           [-chmod [-R] <mode[,mode]... |="" octalmode="" style="margin: 0pt; padding: 0pt;"> PATH...]
           [-chown [-R] [OWNER][:[GROUP]] PATH...]
           [-chgrp [-R] GROUP PATH...]
           [-help [cmd]]

上面列出了30个命令,我只实现了一部分的HDFS的命令!

新建文件:HdfsDAO.java,用来调用HDFS的API。


public class HdfsDAO {

    //HDFS访问地址
    private static final String HDFS = "hdfs://192.168.1.210:9000/";

    public HdfsDAO(Configuration conf) {
        this(HDFS, conf);
    }

    public HdfsDAO(String hdfs, Configuration conf) {
        this.hdfsPath = hdfs;
        this.conf = conf;
    }

    //hdfs路径
    private String hdfsPath;
    //Hadoop系统配置
    private Configuration conf;

    //启动函数
    public static void main(String[] args) throws IOException {
        JobConf conf = config();
        HdfsDAO hdfs = new HdfsDAO(conf);
        hdfs.mkdirs("/tmp/new/two");
        hdfs.ls("/tmp/new");
    }        
    
    //加载Hadoop配置文件
    public static JobConf config(){
        JobConf conf = new JobConf(HdfsDAO.class);
        conf.setJobName("HdfsDAO");
        conf.addResource("classpath:/hadoop/core-site.xml");
        conf.addResource("classpath:/hadoop/hdfs-site.xml");
        conf.addResource("classpath:/hadoop/mapred-site.xml");
        return conf;
    }

    //API实现
    public void cat(String remoteFile) throws IOException {...}
    public void mkdirs(String folder) throws IOException {...}
    
    ...
}

2. ls操作

说明:查看目录文件

对应Hadoop命令:


~ hadoop fs -ls /
Found 3 items
drwxr-xr-x   - conan         supergroup          0 2013-10-03 05:03 /home
drwxr-xr-x   - Administrator supergroup          0 2013-10-03 13:49 /tmp
drwxr-xr-x   - conan         supergroup          0 2013-10-03 09:11 /user

Java程序:


    public void ls(String folder) throws IOException {
        Path path = new Path(folder);
        FileSystem fs = FileSystem.get(URI.create(hdfsPath), conf);
        FileStatus[] list = fs.listStatus(path);
        System.out.println("ls: " + folder);
        System.out.println("==========================================================");
        for (FileStatus f : list) {
            System.out.printf("name: %s, folder: %s, size: %d\n", f.getPath(), f.isDir(), f.getLen());
        }
        System.out.println("==========================================================");
        fs.close();
    }

    public static void main(String[] args) throws IOException {
        JobConf conf = config();
        HdfsDAO hdfs = new HdfsDAO(conf);
        hdfs.ls("/");
    }   

控制台输出:

ls: /
==========================================================
name: hdfs://192.168.1.210:9000/home, folder: true, size: 0
name: hdfs://192.168.1.210:9000/tmp, folder: true, size: 0
name: hdfs://192.168.1.210:9000/user, folder: true, size: 0
==========================================================

3. mkdir操作

说明:创建目录,可以创建多级目录

对应Hadoop命令:


~ hadoop fs -mkdir /tmp/new/one
~ hadoop fs -ls /tmp/new
Found 1 items
drwxr-xr-x   - conan supergroup          0 2013-10-03 15:35 /tmp/new/one

Java程序:


    public void mkdirs(String folder) throws IOException {
        Path path = new Path(folder);
        FileSystem fs = FileSystem.get(URI.create(hdfsPath), conf);
        if (!fs.exists(path)) {
            fs.mkdirs(path);
            System.out.println("Create: " + folder);
        }
        fs.close();
    }

    public static void main(String[] args) throws IOException {
        JobConf conf = config();
        HdfsDAO hdfs = new HdfsDAO(conf);
        hdfs.mkdirs("/tmp/new/two");
        hdfs.ls("/tmp/new");
    }   

控制台输出:


Create: /tmp/new/two
ls: /tmp/new
==========================================================
name: hdfs://192.168.1.210:9000/tmp/new/one, folder: true, size: 0
name: hdfs://192.168.1.210:9000/tmp/new/two, folder: true, size: 0
==========================================================

4. rmr操作

说明:删除目录和文件

对应Hadoop命令:


~ hadoop fs -rmr /tmp/new/one
Deleted hdfs://master:9000/tmp/new/one

~  hadoop fs -ls /tmp/new
Found 1 items
drwxr-xr-x   - Administrator supergroup          0 2013-10-03 15:38 /tmp/new/two

Java程序:


    public void rmr(String folder) throws IOException {
        Path path = new Path(folder);
        FileSystem fs = FileSystem.get(URI.create(hdfsPath), conf);
        fs.deleteOnExit(path);
        System.out.println("Delete: " + folder);
        fs.close();
    }

    public static void main(String[] args) throws IOException {
        JobConf conf = config();
        HdfsDAO hdfs = new HdfsDAO(conf);
        hdfs.rmr("/tmp/new/two");
        hdfs.ls("/tmp/new");
    }     

控制台输出:


Delete: /tmp/new/two
ls: /tmp/new
==========================================================
==========================================================

5. copyFromLocal操作

说明:复制本地文件系统到HDFS

对应Hadoop命令:


~ hadoop fs -copyFromLocal /home/conan/datafiles/item.csv /tmp/new/

~ hadoop fs -ls /tmp/new/
Found 1 items
-rw-r--r--   1 conan supergroup        210 2013-10-03 16:07 /tmp/new/item.csv

Java程序:


    public void copyFile(String local, String remote) throws IOException {
        FileSystem fs = FileSystem.get(URI.create(hdfsPath), conf);
        fs.copyFromLocalFile(new Path(local), new Path(remote));
        System.out.println("copy from: " + local + " to " + remote);
        fs.close();
    }

    public static void main(String[] args) throws IOException {
        JobConf conf = config();
        HdfsDAO hdfs = new HdfsDAO(conf);
        hdfs.copyFile("datafile/randomData.csv", "/tmp/new");
        hdfs.ls("/tmp/new");
    }    

控制台输出:


copy from: datafile/randomData.csv to /tmp/new
ls: /tmp/new
==========================================================
name: hdfs://192.168.1.210:9000/tmp/new/item.csv, folder: false, size: 210
name: hdfs://192.168.1.210:9000/tmp/new/randomData.csv, folder: false, size: 36655
==========================================================

6. cat操作

说明:查看文件内容

对应Hadoop命令:


~ hadoop fs -cat /tmp/new/item.csv
1,101,5.0
1,102,3.0
1,103,2.5
2,101,2.0
2,102,2.5
2,103,5.0
2,104,2.0
3,101,2.5
3,104,4.0
3,105,4.5
3,107,5.0
4,101,5.0
4,103,3.0
4,104,4.5
4,106,4.0
5,101,4.0
5,102,3.0
5,103,2.0
5,104,4.0
5,105,3.5
5,106,4.0

Java程序:


    public void cat(String remoteFile) throws IOException {
        Path path = new Path(remoteFile);
        FileSystem fs = FileSystem.get(URI.create(hdfsPath), conf);
        FSDataInputStream fsdis = null;
        System.out.println("cat: " + remoteFile);
        try {  
            fsdis =fs.open(path);
            IOUtils.copyBytes(fsdis, System.out, 4096, false);  
          } finally {  
            IOUtils.closeStream(fsdis);
            fs.close();
          }
    }

    public static void main(String[] args) throws IOException {
        JobConf conf = config();
        HdfsDAO hdfs = new HdfsDAO(conf);
        hdfs.cat("/tmp/new/item.csv");
    } 

控制台输出:


cat: /tmp/new/item.csv
1,101,5.0
1,102,3.0
1,103,2.5
2,101,2.0
2,102,2.5
2,103,5.0
2,104,2.0
3,101,2.5
3,104,4.0
3,105,4.5
3,107,5.0
4,101,5.0
4,103,3.0
4,104,4.5
4,106,4.0
5,101,4.0
5,102,3.0
5,103,2.0
5,104,4.0
5,105,3.5
5,106,4.0

7. copyToLocal操作

说明:从HDFS复制文件在本地操作系

对应Hadoop命令:


~ hadoop fs -copyToLocal /tmp/new/item.csv /home/conan/datafiles/tmp/

~ ls -l /home/conan/datafiles/tmp/
-rw-rw-r-- 1 conan conan 210 Oct  3 16:16 item.csv

Java程序:


    public void download(String remote, String local) throws IOException {
        Path path = new Path(remote);
        FileSystem fs = FileSystem.get(URI.create(hdfsPath), conf);
        fs.copyToLocalFile(path, new Path(local));
        System.out.println("download: from" + remote + " to " + local);
        fs.close();
    }

    public static void main(String[] args) throws IOException {
        JobConf conf = config();
        HdfsDAO hdfs = new HdfsDAO(conf);
        hdfs.download("/tmp/new/item.csv", "datafile/download");
        
        File f = new File("datafile/download/item.csv");
        System.out.println(f.getAbsolutePath());
    }    

控制台输出:


2013-10-12 17:17:32 org.apache.hadoop.util.NativeCodeLoader 
警告: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
download: from/tmp/new/item.csv to datafile/download
D:\workspace\java\myMahout\datafile\download\item.csv

8. 创建一个新文件,并写入内容

说明:创建一个新文件,并写入内容。

            • touchz:可以用来创建一个新文件,或者修改文件的时间戳。
            • 写入内容没有对应命令。

对应Hadoop命令:


~ hadoop fs -touchz /tmp/new/empty

~ hadoop fs -ls /tmp/new
Found 3 items
-rw-r--r--   1 conan         supergroup          0 2013-10-03 16:24 /tmp/new/empty
-rw-r--r--   1 conan         supergroup        210 2013-10-03 16:07 /tmp/new/item.csv
-rw-r--r--   3 Administrator supergroup      36655 2013-10-03 16:09 /tmp/new/randomData.csv

~ hadoop fs -cat /tmp/new/empty

Java程序:


    public void createFile(String file, String content) throws IOException {
        FileSystem fs = FileSystem.get(URI.create(hdfsPath), conf);
        byte[] buff = content.getBytes();
        FSDataOutputStream os = null;
        try {
            os = fs.create(new Path(file));
            os.write(buff, 0, buff.length);
            System.out.println("Create: " + file);
        } finally {
            if (os != null)
                os.close();
        }
        fs.close();
    }

    public static void main(String[] args) throws IOException {
        JobConf conf = config();
        HdfsDAO hdfs = new HdfsDAO(conf);
        hdfs.createFile("/tmp/new/text", "Hello world!!");
        hdfs.cat("/tmp/new/text");
    }   

控制台输出:


Create: /tmp/new/text
cat: /tmp/new/text
Hello world!!

完整的文件:HdfsDAO.java
https://github.com/bsspirit/maven_mahout_template/blob/mahout-0.8/src/main/java/org/conan/mymahout/hdfs/HdfsDAO.java

转自:
http://blog.fens.me/hadoop-hdfs-api/

分享到:
评论

相关推荐

    董西城--Hadoop技术内幕--深入解析HADOOP COMMON和HDFS架构设计与实现原理--完整版528页--带完整书签

    《董西城--Hadoop技术内幕--深入解析HADOOP COMMON和HDFS架构设计与实现原理》这本书是针对Hadoop生态系统中的核心组件Hadoop Common和HDFS进行深度剖析的权威指南。全书共528页,内容详实且结构清晰,带有完整的...

    java操作Hadoop源码之HDFS Java API操作-创建目录

    在描述中提到的压缩包里,你应该能找到这些必要的依赖,确保将它们添加到项目的类路径中,以便能调用HDFS的API。 在Java代码中,我们首先需要导入HDFS相关的包,如下: ```java import org.apache.hadoop.conf....

    大数据技术基础实验报告-调用Java API实现HDFS操作.doc

    总的来说,本实验旨在使学习者熟悉Hadoop环境下的Java编程,理解如何调用HDFS API进行文件操作,这是一项重要的技能,因为在大数据处理中,HDFS是数据存储的核心组件。通过这样的实践,学生将能够更好地理解和应用大...

    java整合spring和hadoop HDFS全部jar

    首先,Java是编写应用程序的通用编程语言,它提供了丰富的库和框架来支持各种任务,包括与Spring框架的集成和对Hadoop HDFS的访问。 Spring是一个开源的应用程序框架,它主要用于简化Java企业级应用的开发。它提供...

    elcipse java hadoop操作hdfs的api

    8. **异常处理**:在实际编程中,需要适当地处理HDFS操作可能抛出的异常,如`FileNotFoundException`、`IOException`等。 9. **最佳实践**:在使用HDFS API时,遵循最佳实践,如批量操作以减少网络开销,使用缓冲区...

    大数据实验二-HDFS编程实践

    ### 大数据实验二-HDFS编程实践 #### 实验内容概览 本次实验的主要目标是通过对HDFS(Hadoop Distributed File System)的操作实践,加深学生对HDFS在Hadoop架构中的作用及其基本操作的理解。实验内容包括两大部分...

    hadoop的HDFS

    7. HDFS API:HDFS提供了Java API供应用程序访问,同时支持其他的编程语言,如Python和C++,通过Hadoop的MapReduce框架或直接调用API进行数据读写。 8. 源码阅读:深入理解HDFS,可以阅读Hadoop源代码,了解其内部...

    基础学习hadoop 编程篇.pdf

    【Hadoop编程基础】 Hadoop是一个开源的Java框架,它主要设计用于分布式存储和处理大量数据,极大地提升了数据处理的效率。在学习Hadoop编程之前,首先需要掌握Java语言的基础知识,包括对象、接口、继承、多态的...

    Hadoop学习文档笔记,基本原理 HDFS

    在HDFS中,我们可以通过编程接口进行文件操作,如上传、下载、删除等。 以下是一些使用Java API操作HDFS的基本步骤: 1. **配置HDFS连接**: 在Java代码中,首先需要创建一个`Configuration`对象,并设置HDFS的...

    基于Hadoop的Java调用Matlab混合编程的车牌识别.pdf

    基于Hadoop的Java调用Matlab混合编程的车牌识别技术是现代交通管理领域的一个重要应用,它结合了Hadoop的大数据处理能力以及Matlab强大的数值计算和图像处理能力,为车牌识别的准确性和实时性提供了新的解决方案。...

    hadoop搭建

    Hadoop是一个开源框架,它允许在计算机集群上使用简单编程模型来存储和处理大数据。它包括几个关键组件:Hadoop Distributed File System (HDFS)用于存储、YARN用于资源管理和MapReduce用于数据处理。 搭建Hadoop...

    PHP操作操作hdfs是代码例子

    而Hadoop则是大数据处理领域的核心框架,它提供了分布式文件系统(HDFS)来存储大量数据。将PHP与Hadoop结合,可以使得Web应用程序能够直接访问和操作分布式存储的数据。下面我们将深入探讨如何使用PHP通过Thrift...

    大数据之路选择Hadoop还是MaxCompute?Hadoop开源与MaxCompute对比材料

    Hadoop的核心组件包括Hadoop Distributed File System (HDFS) 和 MapReduce。其中: - **HDFS**:用于存储大量数据,这些数据分布在多台服务器上,每份数据会被复制到多台机器以提高容错能力。 - **MapReduce**:是...

    Hadoop入门程序java源码

    Hadoop的主要组件包括HDFS(Hadoop分布式文件系统)和MapReduce,这两个部分将在下面详细介绍。 HDFS是Hadoop的核心组成部分,它是一个分布式文件系统,可以将大文件分割成多个块,并将这些块分布在不同的节点上...

    HDFS实例基本操作

    2. 使用HDFS API:对于Java应用程序,可以使用Hadoop的FSDataOutputStream类,通过创建一个FileSystem实例,然后调用`create()`方法来上传文件。 三、HDFS的文件下载 1. 命令行工具:使用`hadoop fs -get`命令将...

    基于Hadoop的Java调用Matlab混合编程的车牌识别.zip

    标题中的“基于Hadoop的Java调用Matlab混合编程的车牌识别”是一个综合性的技术主题,涉及到大数据处理、分布式计算框架Hadoop、编程语言Java以及数值计算软件Matlab。这个项目可能是在解决大规模图像处理问题,特别...

    hadoop重要源码包和jar包

    在开发过程中,开发者可以将这些jar包添加到类路径中,以便调用Hadoop的功能。同时,Hadoop还提供了一些工具jar包,如`hadoop-tools.jar`,它包含了诸如HDFS的DFSAdmin工具和数据迁移工具等。 在实际应用中,我们...

    Google +Hadoop使用编程

    **HDFS (Hadoop Distributed File System)** 是Hadoop中的分布式文件系统,类似于GFS,但针对Hadoop进行了优化。HDFS同样将文件分割成块,并将这些块分布存储在网络中的不同节点上。它支持数据块的多副本存储,以...

Global site tag (gtag.js) - Google Analytics