hadoop 要使一个类能序例化, 要实现Writable接口, Writable 调用DataInput和DataOutput实现序例化。
DataOutput是JDK中IO包下的一个类, 提供了writeBoolean, writeByte, writeShort。等方法了。
这样让用户决定哪一个字段序例化, 怎么反序例化。
在org.apache.hadoop.io包下包含了大量的可序列化的组件,它们都实现了Writable接口,Writable接口提供了两个方法,write和readFields,分别用来序列化和反序列化。
/**
* Licensed to the Apache Software Foundation (ASF) under one
* or more contributor license agreements. See the NOTICE file
* distributed with this work for additional information
* regarding copyright ownership. The ASF licenses this file
* to you under the Apache License, Version 2.0 (the
* "License"); you may not use this file except in compliance
* with the License. You may obtain a copy of the License at
*
* http://www.apache.org/licenses/LICENSE-2.0
*
* Unless required by applicable law or agreed to in writing, software
* distributed under the License is distributed on an "AS IS" BASIS,
* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
* See the License for the specific language governing permissions and
* limitations under the License.
*/
package org.apache.hadoop.io;
import java.io.DataOutput;
import java.io.DataInput;
import java.io.IOException;
import org.apache.hadoop.classification.InterfaceAudience;
import org.apache.hadoop.classification.InterfaceStability;
/**
* A serializable object which implements a simple, efficient, serialization
* protocol, based on {@link DataInput} and {@link DataOutput}.
*
* <p>Any <code>key</code> or <code>value</code> type in the Hadoop Map-Reduce
* framework implements this interface.</p>
*
* <p>Implementations typically implement a static <code>read(DataInput)</code>
* method which constructs a new instance, calls {@link #readFields(DataInput)}
* and returns the instance.</p>
*
* <p>Example:</p>
* <p><blockquote><pre>
* public class MyWritable implements Writable {
* // Some data
* private int counter;
* private long timestamp;
*
* public void write(DataOutput out) throws IOException {
* out.writeInt(counter);
* out.writeLong(timestamp);
* }
*
* public void readFields(DataInput in) throws IOException {
* counter = in.readInt();
* timestamp = in.readLong();
* }
*
* public static MyWritable read(DataInput in) throws IOException {
* MyWritable w = new MyWritable();
* w.readFields(in);
* return w;
* }
* }
* </pre></blockquote></p>
*/
@InterfaceAudience.Public
@InterfaceStability.Stable
public interface Writable {
/**
* Serialize the fields of this object to <code>out</code>.
*
* @param out <code>DataOuput</code> to serialize this object into.
* @throws IOException
*/
void write(DataOutput out) throws IOException;
/**
* Deserialize the fields of this object from <code>in</code>.
*
* <p>For efficiency, implementations should attempt to re-use storage in the
* existing object where possible.</p>
*
* @param in <code>DataInput</code> to deseriablize this object from.
* @throws IOException
*/
void readFields(DataInput in) throws IOException;
}
分享到:
相关推荐
在Hadoop源码分析中,我们能看到这些Google技术的影子,例如Chubby和ZooKeeper,GFS和HDFS,BigTable和HBase,MapReduce和Hadoop。通过对比这些技术,学习者可以更容易地把握Hadoop的设计思路。 Hadoop源码复杂且...
org.apache.hadoop.io中定义了大量的可序列化对象,他们都实现了Writable接口。 Hadoop的源代码分析可以帮助我们更好地了解Hadoop的架构和实现机制。通过对Hadoop的源代码分析,我们可以更好地理解Hadoop的工作原理...
在`org.apache.hadoop.io`包中定义了一系列实现`Writable`接口的对象。这种自定义的序列化机制优化了数据在网络传输过程中的效率,减少了序列化和反序列化带来的开销,对于提高MapReduce任务的执行速度具有重要意义...
### Hadoop源代码分析知识点详解 #### 一、Hadoop背景与关键技术介绍 Hadoop作为一款开源的大数据处理框架,其设计灵感源自Google的一系列核心论文。这些论文详细阐述了Google构建其基础设施的方法论和技术原理,...
以下是Hadoop中一些关键包的功能分析: - `tool`:提供命令行工具,例如DistCp和archive,用于数据的分布式复制和归档。 - `mapreduce`:Hadoop的MapReduce实现,负责数据处理和计算。 - `filecache`:为HDFS文件...
### Hadoop源代码分析知识点概览 #### 一、Hadoop背景与关键技术 - **Google核心技术**:Google凭借其先进的计算平台在业界确立了领先地位,其中主要包括以下几项关键技术: - **Google Cluster**:提供了关于...
在深入分析Hadoop源代码的过程中,我们关注到其在数据通信和序列化方面的重要机制。Hadoop并没有简单地采用Java自带的序列化方法,而是设计了一套自有的系统,这主要是为了提高性能、可扩展性和跨平台兼容性。在...
在Hadoop源代码分析中,首先,我们可以看到HDFS(Hadoop分布式文件系统)是所有基于Hadoop项目的基础。HDFS的设计灵感来源于Google的GFS(Google File System),它通过将大文件分割成块并复制到多个节点来确保数据...
这个包包含了Hadoop中的基本输入/输出类,如`BytesWritable`、`Text`等,以及序列化和反序列化机制,如`Writable`和`WritableComparable`接口。这些接口和类是HDFS数据传输的基础。 #### 3.2 RPC实现方法 Hadoop...
在Hadoop中,ObjectWritable是一个关键类,它封装了各种Java基本类型、字符串、枚举、空值以及Writable子类,适应了字段需要使用多种类型的需求。在RPC过程中,序列化和反序列化参数,或者在一个SequenceFile的值中...
- **组件对应**:在Hadoop中,各个组件对应Google的技术如下: - Chubby → ZooKeeper - GFS → HDFS - BigTable → HBase - MapReduce → Hadoop MapReduce - **扩展项目**:除了核心的Hadoop项目外,还衍生出...
### Hadoop源代码分析 #### 一、Hadoop与Google的核心技术 Hadoop是一个开源的分布式计算框架,其设计初衷是为了模拟Google所采用的核心技术。Google通过一系列文章介绍了自己的技术栈,包括分布式集群管理...
Hadoop源代码中自定义了Writable接口,它类似于Java序列化中的Serializable接口,但是为Hadoop内部的分布式计算进行了优化。例如,MyWritable类实现了Writable接口,使得它可以被序列化和反序列化,以便在网络上传输...
在Hadoop的序列化机制中,`org.apache.hadoop.io`包定义了许多实现了`Writable`接口的类。`Writable`接口定义了对象如何写入和读取数据流,这是Hadoop内部通信的关键。例如,自定义的`MyWritable`类会实现`write`...
在Hadoop大数据处理框架中,IFile是一种内部数据结构,主要用于管理Mapper的输出,以便在Reducer阶段进行数据处理。...通过对IFile源代码的深入分析,可以更深入地理解Hadoop在大数据处理中的内部工作原理。