读取hadoop文件内容 - 后知后觉的it路 - ITeye博客

`

chengjianxiaoxue

浏览: 1323966 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jaingbei：可以通过继承FileOutputFormat来简化相关代码
自定义OutputFormat
star12396：楼主，那hbase结合hive使用，这种架构稳定不？机器的内存 ...
hbase+hive结合使用
atMe0804： ...
kafka集群搭建和使用Java写kafka生产者消费者
ztao2333： thanks
eclipse 设置自动补全快捷键
Will_forme：你好最近在使用kylin的时候有点疑问，我安装这些都没问题 ...
kylin 搭建和简单测试结果

读取hadoop文件内容

博客分类：

hadoop2

阅读更多

import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class ReadHdfsFile {

	public static String getHdfsFileContent(String hdfsFile) throws Exception {
		
		Configuration conf = new Configuration();
		String content = "";	
		FileSystem fs = FileSystem.get(new URI(hdfsFile), conf);
		Path path = new Path(hdfsFile);
		if(fs.exists(path)){
			FSDataInputStream  fis = fs.open(path); // 打开文件流
			FileStatus  stat = fs.getFileStatus(path); // 读取文件状态
			byte[] buf = new byte[Integer.parseInt(String.valueOf(stat.getLen()))] ; 
			fis.readFully(0, buf);
			fis.close();// 文件流关闭
			fs.close();//文件操作系统关闭
			content = new String(buf);
		}
		return content;
	}
	
	
	public static void main(String[] args) {
		
		try {
			System.out.println(getHdfsFileContent("/log_data/act"));
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}

分享到：

hive对应mysql 元数据表介绍 | HBase-namespace命名空间介绍

2018-07-05 18:54
浏览 787
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop分布式文件系统的文件读写: 以下是对Hadoop文件读写及相关属性的详细说明。 ### 一、HDFS的文件写入 1. **Block分裂**：HDFS将大文件划分为多个固定大小的块（默认128MB），每个块最多存储在一个DataNode上。如果文件大小不足一个块，也会...

hadoop2 文件读写原理: 在Hadoop 2中，文件读写是分布式存储系统的核心操作。本文档将详细解析Hadoop 2如何处理文件的创建、数据写入以及关闭文件的过程。以下是对这一原理的深入探讨。首先，我们来看一下文件写入的流程： 1. **文件...

Java API操作Hadoop文件: 这篇博文“Java API操作Hadoop文件”可能是关于如何利用Java代码来读取、写入、管理和操作存储在Hadoop集群上的数据。由于没有具体的描述，我将根据一般实践来讲解这个主题。首先，你需要引入Hadoop的相关库到你的...

hadoop 读写文件流程详解: 在hadoop中，有三大法宝——HDFS，MapReduce，Hbase，但是无论是MapReduce，Hbase还是hadoop中的其他组件如：Hive等他们要处理的...可见HDFS可以说是hadoop存储的基础和核心，因此对HDFS的文件读写操作显得十分重要。

hadoop文件上传下载: 在这个场景中，我们讨论的是如何利用Struts2这个Java Web框架来实现文件的上传和下载功能，目标是将文件存入Hadoop分布式文件系统（HDFS）中，并能够从HDFS中检索这些文件。下面将详细介绍这一过程涉及的关键知识点...

基于django的hadoop文件管理系统-期末实训项目: 【基于Django的Hadoop文件管理系统】在信息技术领域，Django和Hadoop是两个非常重要的技术组件，分别在Web开发和大数据处理方面发挥着关键作用。这个“基于Django的Hadoop文件管理系统”是一个结合了这两者优势的...

一步一步跟我学习hadoop(6)----hadoop利用FileSystem API 执行hadoop文件读写操作: 本篇文章将详细讲解如何利用`FileSystem API`执行Hadoop文件的读写操作，带你一步步深入理解这一关键知识点。首先，我们要了解`FileSystem API`的基本概念。它是一个抽象接口，用于与不同的文件系统（如HDFS、本地...

hadoop的默认配置文件: 比如，`fs.defaultFS`指定了HDFS的默认名称节点地址，`io.file.buffer.size`决定了读写文件时缓冲区的大小。`fs.trash.interval`则设定了垃圾回收的时间间隔。核心配置文件对整个Hadoop环境的稳定性和性能有着直接...

Hadoop3.1.3 配置文件: `io.file.buffer.size`则控制读写文件时的缓冲区大小。 2. `hdfs-site.xml`：此文件专注于Hadoop分布式文件系统（HDFS）的配置。其中，`dfs.replication`属性定义了数据块的副本数，对数据的容错性和存储效率有直接...

hadoop/bin目录文件，含hadoop.dll + winutils.exe: 至于压缩包子文件“9.pptx”，可能是关于Hadoop、Spark在Windows环境下的使用教程或者介绍资料，可能包含了如何配置Hadoop环境、如何使用winutils.exe以及如何在Windows 7上开发和调试Spark应用程序等内容。...

eclipse+maven+hadoop+文件增删改查: - **读取文件**：`FSDataInputStream`类的`open()`方法用于打开HDFS上的文件，然后可以使用`read()`方法读取文件内容。 - **删除文件**：通过`FileSystem`对象的`delete()`方法可以删除HDFS上的文件或目录。记得...

java 从hadoop hdfs读取文件进行groupby并显示为条形图: 3. **从HDFS读取文件**：使用`FileSystem`类的`open()`方法可以打开HDFS中的文件，然后通过`FSDataInputStream`读取内容。数据通常是以文本格式存储，如CSV或TSV，便于解析成Java对象。 4. **数据解析与预处理**：...

02_Hadoop 分布式文件系统(HDFS).docx: 《深入理解Hadoop分布式文件系统（HDFS）》 Hadoop分布式文件系统（HDFS）是Apache Hadoop项目的核心组件之一，它是一个高度容错、可扩展的分布式文件系统，旨在运行在廉价的硬件上，处理和存储海量数据。HDFS的...

Hadoop文件系统源代码.rar: 《深入剖析Hadoop文件系统源代码》 Hadoop文件系统（HDFS）是Apache Hadoop项目的核心组件之一，它是一个分布式文件系统，旨在处理和存储大量数据。由鲍亮教授提供的西电版Hadoop文件系统源代码，为学习和理解HDFS...

Hadoop 2.2.0 配置文件: 在这个配置文件中，我们将会探讨Hadoop 2.2.0 在4台CentOS 6.4系统上运行所需的配置细节。首先，Hadoop的核心组件包括HDFS（Hadoop Distributed File System）和MapReduce，它们都需要通过一系列的配置文件来定制...

《Hadoop大数据开发实战》教学教案—03HDFS分布式文件系统.pdf: 本节课程主要介绍 HDFS 的概念、HDFS 存储架构和数据读写流程、HDFS 的 Shell 命令、Java 程序操作 HDFS、Hadoop 序列化、Hadoop 小文件处理、通信机制 RPC 等知识点。 HDFS 概念 HDFS（Hadoop Distributed File ...

分布式文件系统Hadoop: HBase是一个基于Hadoop的分布式数据库，提供实时读写和强一致性。该文档会讲解如何安装HBase，配置HBase与Hadoop的交互，以及如何使用HBase Shell进行基本操作。 "Hadoop的MapReduce执行过程介绍"涵盖了MapReduce...

Hadoop默认配置文件: 1. **文件系统**：定义了Hadoop默认的文件系统（如hdfs://localhost:9000），以及文件操作的缓冲区大小、文件权限等。 2. **日志管理**：配置日志级别、日志路径和日志聚合策略。 3. **命名空间**：包括Hadoop元数据...

Hadoop分布式文件系统——翻译: - **数据持久性和可靠性**：为了保证数据的持久性和可靠性，HDFS通过将文件内容复制到多个DataNode上来实现。这种方式不仅保证了数据的可靠性，还提高了数据传输带宽和计算本地化的可能性。 #### 3. HDFS的关键技术...

Global site tag (gtag.js) - Google Analytics