`

读写sequenceFile

阅读更多
public class WriteReadSequenceFileTest {

/**
* @param args
*/
public static void main(String[] args) {
Configuration conf=new Configuration();
conf.set("fs.default.name", "hdfs://172.168.8.54:9000");
conf.set("hadoop.job.ugi", "hadoop");

try {
FileSystem fs=FileSystem.get(conf);

//写文件
//===========================================================
Text key=new Text();
Text value=new Text();
//有三种类型压缩
//CompressionType.NONE 不压缩
//CompressionType.RECORD 默认 只压缩value
//CompressionType.BLOCK 全部压缩

// conf.set("io.seqfile.compression.type", "BLOCK");

Path path=new Path("/tmp/2/sequenceFile01.dat");
if(fs.exists(path)){
fs.delete(path, true);
}

SequenceFile.Writer writer=SequenceFile.createWriter(fs, conf, new Path("/tmp/2/sequenceFile01.dat"), Text.class, Text.class);
for(int i=0;i<100;i++){
key.set("key"+i);
value.set("value"+i);
writer.append(key, value);
}
writer.close();

FileStatus[] files=fs.listStatus(new Path("/tmp/2/"));
for(FileStatus file:files){
System.out.println(file.getPath().toUri().getPath());
}

//读文件
//============================================================
SequenceFile.Reader reader=new SequenceFile.Reader(fs,new Path("/tmp/2/sequenceFile01.dat"),conf);
while(reader.next(key, value)){
System.out.println(key+":"+value);
}
reader.close();
} catch (IOException e) {
e.printStackTrace();
}
}

}
分享到:
评论

相关推荐

    21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件

    SequenceFile支持各种类型的键值对,通过序列化和反序列化进行数据的读写。在上述代码示例中,`WriteSeqFileMapper`类展示了如何使用MapReduce将文本文件内容写入SequenceFile。Mapper的输入键是`LongWritable`,...

    22、MapReduce使用Gzip压缩、Snappy压缩和Lzo压缩算法写文件和读取相应的文件

    在大数据处理领域,MapReduce是Hadoop框架中的一个核心组件,用于执行分布式计算任务。在处理海量数据时,为了提高存储效率和传输速度,通常会采用数据压缩技术。本篇文章将详细探讨MapReduce如何使用Gzip、Snappy和...

    Hadoop C++ 扩展

    13. **SequenceFileReader & SequenceFileWriter**:用于读写SequenceFile格式的文件。 #### 五、相关工作 HCE项目在设计之初就参考了其他类似的技术方案,比如Apache Avro、Thrift等用于跨语言的数据序列化,以及...

    sequencefile&mapfile代码

    SequenceFile的主要优点是高效读写,因为其内部结构优化了磁盘I/O操作。 在`TestSequenceFile.java`中,我们可以预期看到如何创建、读取和写入SequenceFile的示例代码。通常,测试会包括初始化Writer和Reader对象,...

    spark-SequenceFile及MapFile讲解

    在 Spark 中,我们可以使用 SequenceFile 来读写数据。例如,使用 SequenceFile.Writer 来写入记录,使用 SequenceFile.Reader 来读取记录。 二、MapFile MapFile 是一种特殊的 SequenceFile,是排序后的 ...

    云计算技术实验报告六SequenceFile使用

    实验报告的主题是“云计算技术实验报告六SequenceFile使用”,主要涉及了云计算环境下的大数据处理技术,特别是Apache Hadoop中的SequenceFile。SequenceFile是一种高效的、序列化的文件格式,常用于存储和处理大...

    C++ 读写 parquet 文件 Demo

    **C++ 读写 Parquet 文件 Demo 知识点详解** Parquet 是一种列式存储格式,被广泛用于大数据处理和分析场景,如 Apache Hadoop、Spark、Impala 等。它支持高效的读写操作,尤其适用于大规模数据处理,因为它的设计...

    11、hadoop环境下的Sequence File的读写与合并

    本文将详细介绍如何在Hadoop环境下读写和合并Sequence Files,以及其格式特点。 1. **Sequence File的格式** Sequence File有三种格式:未压缩、基于Record压缩和基于Block压缩。 - **未压缩格式**:每个记录...

    content.zip

    由于其高效读写,MapReduce可以直接处理SequenceFile,减少了数据转换的开销。 总结,"content.zip"中的Java代码示例旨在教授如何在Hadoop环境中使用SequenceFile进行文件合并、读取和写入。掌握这些技能对于在...

    分析型数据仓库中读写分离的实现.pdf

    ### 分析型数据仓库中读写分离的实现 #### 一、引言 随着大数据时代的到来,企业对数据处理的需求日益增长,特别是对于数据分析的速度和灵活性提出了更高的要求。传统的关系型数据库如MySQL虽然在事务处理方面表现...

    图像文件转换为MapReduce可以读写的二进制文件代码

    图像文件转换为MapReduce可以读写的二进制文件代码Hadoop的计算框架只能处理文本文件,对于图像数据不能直接处理,本代码可以实现将图像文件转换成Mapreduce可以读取的SequenceFile,其中包括单机写入和读取,以及...

    图像文件转换为MapReduce可以读写的二进制文件代码Hadoop

    图像文件转换为MapReduce可以读写的二进制文件代码Hadoop的计算框架只能处理文本文件,对于图像数据不能直接处理,本代码可以实现将图像文件转换成Mapreduce可以读取的SequenceFile,其中包括单机写入和读取,以及...

    sequencify-CBIR-on-hadoop:将图像转换为 Hadoop SequenceFile 格式,适用于基于内容的图像检索系统

    它提供了高效的读写性能,适合大规模数据存储和处理。SequenceFile中的每个记录都是键值对,且都经过序列化,便于在Hadoop MapReduce作业中使用。 2. **基于内容的图像检索(CBIR)**: CBIR是一种不同于基于文本...

    How-to: Use HBase Bulk Loading, and Why

    HBase适用于处理海量结构化数据,尤其在实时读写性能方面表现出色。本篇文章将深入讲解如何使用HBase的批量加载功能以及其背后的原因,以提高数据导入效率。 首先,我们需要理解为什么需要使用HBase的批量加载。在...

    hadoop the definitive guide 3nd edition

    Hadoop I/O是Hadoop处理数据的核心,包括数据压缩、序列化框架、自定义Writable实现以及基于文件的数据结构如SequenceFile和MapFile。数据压缩可以减少存储空间和网络传输的数据量,提高Hadoop处理数据的效率。序列...

    00-大数据技术之高频面试题+汇总.pdf

    2. HDFS读流程和写流程:了解HDFS的读写流程,包括Block的读写、数据的复制等。 3. HDFS小文件处理:了解如何处理小文件的问题,例如使用SequenceFile、使用CombineFileInputFormat等。 4. HDFS的NameNode内存:了解...

    【MapReduce篇08】MapReduce优化1

    2. **SequenceFile**:使用SequenceFile这种二进制文件格式,提高数据读写的效率。 3. **配置参数**:如`mapreduce.map.memory.mb`和`mapreduce.reduce.memory.mb`分别控制Map和Reduce Task的内存使用,`mapreduce....

    Hadoop C++扩展

    13. **SequenceFileReader & SequenceFileWriter**:处理SequenceFile格式的读写操作,优化数据序列的存储与检索。 #### 关键技术点解析 - **内存管理与性能优化**:C++提供更低级别的内存访问和控制,HCE充分利用...

Global site tag (gtag.js) - Google Analytics