`

Hadoop调用API对HDFS进行文件操作

 
阅读更多

 

通过java代码对HDFS进行操作:创建文件文件,读取文件,删除文件,文件列表,创建目录,当地文件上传到hdfs,获取所有节点信息,文件写入数据。

 

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.PathFilter;
import org.apache.hadoop.hdfs.DistributedFileSystem;
import org.apache.hadoop.hdfs.protocol.DatanodeInfo;


public class HDFSTest {
	public static void main(String[] args) throws Exception
	{
		//uploadLocalFile2HDFS("E:/1.txt","/tmp/1.txt");//E盘下文件传到hdfs上
		//createNewHDFSFile("/tmp/create2", "hello");
		//String str = new String(readHDFSFile("/tmp/create2"));
		//System.out.println(str);
		
		//mkdir("/tmp/testdir");
		//deleteDir("/tmp/testdir");
		//listAll("/tmp/");
		//getDateNodeHost();
		listByFilter("");
	}
	
	//获取HDFS集群上所有节点名称信息
	public static void getDateNodeHost() throws IOException{
		
		Configuration conf = getConf();

        FileSystem fs=FileSystem.get(conf);
        DistributedFileSystem hdfs = (DistributedFileSystem)fs;
        DatanodeInfo[] dataNodeStats = hdfs.getDataNodeStats();
        for(int i=0;i<dataNodeStats.length;i++){
            System.out.println("DataNode_"+i+"_Name:"+dataNodeStats[i].getHostName());

        }
	}
	/*
	 * upload the local file to the hds 
	 * 路径是全路径
	 */
	public static void uploadLocalFile2HDFS(String s, String d) 
		throws IOException
	{
		Configuration conf = getConf();
		FileSystem hdfs = FileSystem.get(conf);
		
		Path src = new Path(s);
		Path dst = new Path(d);
		
		hdfs.copyFromLocalFile(src, dst);
		
		hdfs.close();
	}
	
	/*
	 * 创建一个新文件
	 * create a new file in the hdfs.
	 * notice that the toCreateFilePath is the full path
	 * and write the content to the hdfs file.
	 */
	public static void createNewHDFSFile(String toCreateFilePath, String content) throws IOException
	{
		Configuration conf = getConf();
		FileSystem hdfs = FileSystem.get(conf);
		
		FSDataOutputStream os = hdfs.create(new Path(toCreateFilePath));

		os.write(content.getBytes("UTF-8"));
		
		os.close();
		
		hdfs.close();
	}
	
	/* 
	 * 删除某个文件
	 * delete the hdfs file 
	 * notice that the dst is the full path name
	 */
	public static boolean deleteHDFSFile(String dst) throws IOException
	{
		Configuration conf = getConf();
		FileSystem hdfs = FileSystem.get(conf);
		
		Path path = new Path(dst);
		boolean isDeleted = hdfs.delete(path);
		
		hdfs.close();
		
		return isDeleted;
	}
	
	
	/* 
	 * 读取某个文件
	 * read the hdfs file content
	 * notice that the dst is the full path name
	 */
	public static byte[] readHDFSFile(String dst) throws Exception
	{
		Configuration conf = getConf();
		FileSystem fs = FileSystem.get(conf);
		
		// check if the file exists
		Path path = new Path(dst);
		if ( fs.exists(path) )
		{
			FSDataInputStream is = fs.open(path);
			// get the file info to create the buffer
			FileStatus stat = fs.getFileStatus(path);
		 
			//IO工具 数据读取到控制面板 
			//IOUtils.copyBytes(is , System.out, 1024,false  );
			
			// create the buffer
			byte[] buffer = new byte[Integer.parseInt(String.valueOf(stat.getLen()))];
		    is.readFully(0, buffer);
		    
		    is.close();
		    fs.close();
		    
		    return buffer;
		}
		else
		{
			throw new Exception("the file is not found .");
		}
	}
	
	
	/*
	 * make a new dir in the hdfs
	 * the dir may like '/tmp/testdir'
	 */
	public static void mkdir(String dir) throws IOException
	{
		Configuration conf = getConf();
		FileSystem fs = FileSystem.get(conf);
		fs.mkdirs(new Path(dir));
		
		fs.close();
	}
	
	/*
	 * delete a dir in the hdfs
	 * dir may like '/tmp/testdir'
	 */
	public static void deleteDir(String dir) throws IOException
	{
		Configuration conf = getConf();
		FileSystem fs = FileSystem.get(conf);
		fs.delete(new Path(dir));
		
		fs.close();
	}
	//文件系统连接到 hdfs的配置信息 
	private static Configuration getConf(){
		Configuration conf = new Configuration();
		// 这句话很关键
		conf.set("mapred.job.tracker", "192.168.142.128:9001");
		conf.set("fs.default.name", "hdfs://192.168.142.128:9000");
		return conf;
	}
	
	/**
	* @Title: listAll 
	* @Description: 列出目录下所有文件 
	* @return void    返回类型 
	* @throws
	 */
	public static void listAll(String dir) throws IOException
	{
		Configuration conf = getConf();
		FileSystem fs = FileSystem.get(conf);
		FileStatus[] stats = fs.listStatus(new Path(dir));
		for(int i = 0; i < stats.length; ++i)
		{
			if (!stats[i].isDir())
			{
				// regular file
				System.out.println(stats[i].getPath().toString());
			}
			else 
			{
				// dir
				System.out.println(stats[i].getPath().toString());
			}
//			else if(stats[i].())
//			{
//				// is s symlink in linux
//				System.out.println(stats[i].getPath().toString());
//			}
 				
		}
		fs.close();
	}
	//查询目录中的所有文件,通过统配符号过滤
	public static void listByFilter(String dir) throws IOException
	{
		Configuration conf = getConf();
		FileSystem fs = FileSystem.get(conf);
		
		//列出 目录下  符合规则的文件 
		 FileStatus[] stats = fs.globStatus(new Path("/tmp/*"),
				  new PathFilter(){
					@Override
					public boolean accept(Path path) {
						return !path.toString().matches(".*txt" );
				 }
			  
		  });
 
		 
		//FileStatus[] stats = fs.listStatus(new Path(dir));
		for(int i = 0; i < stats.length; ++i)
		{
			if (!stats[i].isDir())
			{
				// regular file
				System.out.println(stats[i].getPath().toString());
			}
			else 
			{
				// dir
				System.out.println(stats[i].getPath().toString());
			}
//			else if(stats[i].())
//			{
//				// is s symlink in linux
//				System.out.println(stats[i].getPath().toString());
//			}
 				
		}
		fs.close();
	}
	
}

 

分享到:
评论

相关推荐

    大数据技术基础实验报告-调用Java API实现HDFS操作.doc

    本实验主要涵盖了大数据技术的基础,特别是如何在Linux环境下利用Java API对Hadoop分布式文件系统(HDFS)进行操作。实验涉及的主要步骤包括Eclipse的安装、Java项目的创建以及所需JAR包的添加。 首先,Eclipse是...

    java操作Hadoop源码之HDFS Java API操作-创建目录

    以上就是使用Java API操作Hadoop HDFS创建目录的完整过程。在实际应用中,你可能需要处理异常,优化错误处理,并根据具体需求进行更复杂的操作,比如读写文件、检查文件是否存在等。通过熟练掌握HDFS的Java API,你...

    elcipse java hadoop操作hdfs的api

    1. **HDFS API**:HDFS API是Hadoop的核心组件之一,提供了对分布式文件系统的基本操作,如打开、创建、读取、写入、移动和删除文件或目录。主要类包括`FSDFSClient`、`FileSystem`、`Path`等。 2. **FileSystem...

    JavaWeb操作hadoop2.6 HDFS,从页面上传,下载,列表展示的demo

    1. **HDFS API集成**:为了操作HDFS,我们需要使用Hadoop的Java API。这包括创建HDFS客户端,连接NameNode,执行读写操作等。例如,`FileSystem`类用于打开、关闭和管理文件系统,`FSDataInputStream`和`...

    HDFS实例基本操作

    2. 使用HDFS API:对于Java应用程序,可以使用Hadoop的FSDataOutputStream类,通过创建一个FileSystem实例,然后调用`create()`方法来上传文件。 三、HDFS的文件下载 1. 命令行工具:使用`hadoop fs -get`命令将...

    搭建hadoop后hdfs基本操作 ecplisec操作

    在Eclipse中进行HDFS操作,我们需要使用Hadoop的Java API。首先,确保你的开发环境中已经安装了Hadoop并配置了相关的环境变量,包括HADOOP_HOME和PATH。接下来,创建一个新的Java项目,并引入Hadoop的相关依赖库,...

    eclipse操作HDFS需要文件

    5. **测试HDFS操作**:通过Eclipse内置的HDFS浏览器或者在代码中调用HDFS API,进行文件的读取、写入和删除等操作。 6. **运行和调试**:利用Eclipse的运行和调试功能,可以直接在本地或远程集群上执行Hadoop作业。...

    hadoop中hdfs文件(上传、下载、查看)操作.docx

    通过使用Hadoop的API,我们可以高效地进行分布式文件系统的操作,从而充分利用Hadoop的分布式计算能力。在设计和实现这类服务时,需要注意异常处理、资源管理和安全性,确保系统稳定且安全地运行。

    使用Java API操作HDFS分布式文件系统

    - **org.apache.hadoop.fs.FileSystem**:文件系统接口,提供与HDFS交互的高级API。 - **org.apache.hadoop.fs.Path**:表示文件或目录的路径对象。 - **org.apache.hadoop.io.IOUtils**:辅助类,包含I/O操作的...

    web中进行HDFS文件系统操作的demo

    在这个“web中进行HDFS文件系统操作的demo”中,我们将探讨如何通过Web界面与HDFS进行交互,使得用户能够方便地管理HDFS上的文件和目录,而无需直接使用命令行工具。这个demo是由jsp(JavaServer Pages)编写的,这...

    第3章 HadoopAPI操作.pdf

    确保HDFS服务(无论是全分布还是伪分布)已启动,之后便可以在Eclipse中对HDFS进行操作,如创建目录、上传下载文件及删除操作。 创建Map/Reduce项目是Hadoop编程的关键步骤。在Eclipse中,可以选择Map/Reduce ...

    Hadoop学习文档笔记,基本原理 HDFS

    本文将深入探讨HDFS的基本原理和操作,以及如何通过Java API进行文件操作。 Hadoop分布式文件系统(HDFS)是Google文件系统(GFS)的一种实现,设计用于处理海量数据。HDFS的核心特点是分布式存储,它将大文件分割...

    hadoop api.doc

    2. **org.apache.hadoop.fs**: 提供了抽象文件系统的API,定义了对任何支持的文件系统的通用操作,如创建、删除、移动文件和目录。`FileSystem`是这个包的核心类,它允许应用程序以统一的方式访问不同的文件系统。 ...

    Hadoop 培训课程(2)HDFS

    Hadoop 培训课程(2)HDFS 分布式文件系统与HDFS HDFS体系结构与基本概念*** HDFS的shell操作*** java接口及常用api*** ---------------------------加深拓展---------------------- RPC调用** HDFS的分布式存储架构的...

    大数据实验二-HDFS编程实践

    二是通过Hadoop提供的Java API实现对HDFS文件的增删查改等操作。 #### 实验目的 1. **理解HDFS的角色**:HDFS作为Hadoop的核心组件之一,主要负责存储海量数据。理解其在Hadoop生态中的位置对于掌握整个大数据处理...

    SpringBoot整合Hadoop的案例代码demo,含HDFS文件操作、MapReduce分词操作、案例数据分析,系统推荐等

    通过使用Hadoop的Java API,开发者可以在SpringBoot应用中编写代码,实现对HDFS的CRUD(创建、读取、更新和删除)操作,增强了应用的存储能力。 其次,MapReduce是Hadoop用于大规模数据处理的编程模型,主要包含Map...

    HadoopAPI使用

    org.apache.hadoop.fs 包定义了抽象的文件系统 API,用于访问和管理 Hadoop 分布式文件系统(HDFS)。org.apache.hadoop.dfs 包实现了 HDFS 模块,用于提供高可用性和高性能的文件存储服务。 org.apache.hadoop.io ...

Global site tag (gtag.js) - Google Analytics