Hadoop读书笔记----（四）序列化 - 平衡 trade-off - ITeye博客

`

yjhexy

浏览: 334869 次
性别:
来自: 火星

最近访客更多访客>>

gao_xianglong

Janne

hellohank

awei

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

zhanggang807：这个ibatis 还真是不好用啊。楼主解决了我看文档也没解决的 ...
IBATIS Iterate用法初探
lijunwyf41：不错 SqlMapClientTemplate sqlMa ...
IBATIS batch用法探究
huyuancai1010： .
struts2 常量配置详解
jd2bs： 2楼肯定是people.xsd格式错了
spring schema 扩展
xiaokang1582830：遇到同样的问题,请教如何解决的java.io.NotSeria ...
ibatis 延迟加载探究

Hadoop读书笔记----（四）序列化

博客分类：

hadoop

阅读更多

Hadoop 分布式计算，序列化是Hadoop通过RPC调用，使得每个节点之间有效沟通的方法。

于是序列化就成为了分布式计算的一个重要课题。

序列化之后，对于分布式计算还需要排序。因此排序也相当重要：

Hadoop要求对象在序列化之后的字节也能够支持排序，以提高计算速度，还不必产生很多无谓的数据。

下面两张图记录了JAVA原生类型转化成序列化以后所占的字节数

Hadoop里关于Writeable 相关类的继承树：

A，Text类相当于 java.lang.String，不同的是Text用的是UTF-8的编码来解析的。

也就是说在Indexing的时候会和String有不一样地方：

举例：

System.out.println(s.length())

输出为5

System.out.println(s.getLength())

输出为10

联系：

String 的charAt返回 char所在的第几个为止========== Text的find()方法与之效果一样

String 的 codePointAt 返回unicode地址 ========== Text 的charAt()返回 unicode 地址

举例：

String s = "\u0041\u00DF\u6771\uD801\uDC00";

assertThat(s.codePointAt(3), is(0x10400));

输出： true

Text s = "\u0041\u00DF\u6771\uD801\uDC00";

assertThat(t.charAt(6), is(0x10400));

输出： true (此输出与 String.codePointAt()效果一样)

B，NullWritable 单例

查看图片附件

分享到：

JAVA 机密机制初探（JCA）—— 概览 | Hadoop读书笔记----（三）压缩与解压缩

2010-01-09 11:26
浏览 2090
评论(0)
分类:非技术
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop权威指南----读书笔记: - 序列化与反序列化： - 将对象转换为字节流以便传输或存储。 - Hadoop采用Writables格式，具有紧凑性和高速度，但主要适用于Java语言。 - SequenceFile和MapFile： - SequenceFile：无索引，按key排序。 - ...

Hadoop学习笔记.pdf: - Avro：是一种数据序列化系统，用于高效的跨语言数据交换。 - HDFS Federation：是Hadoop 2.x版本的一个新特性，用于解决单个NameNode的扩展性限制。 Hadoop的源码项目结构主要包括hadoop-common-project、hadoop-...

传智黑马赵星老师hadoop七天课程资料笔记-第三天(全): 【标题】"传智黑马赵星老师hadoop七天课程资料笔记-第三天(全)" 涵盖了Hadoop技术体系中的关键知识点，主要针对Hadoop MapReduce的执行流程、本地模式、日志格式、序列化以及HTTP相关概念进行了深入讲解。...

hadoop学习笔记: Hadoop使用RPC（Remote Procedure Call）机制来实现序列化与反序列化，确保了进程间能够高效、准确地传递数据。与Java的序列化机制相比较，Hadoop采用的序列化方式更加紧凑且快速，减少了内存的使用，并且可以支持多...

尚硅谷大数据技术之Hadoop（MapReduce）1: 【尚硅谷大数据技术之Hadoop（MapReduce）1】深入解析MapReduce MapReduce是Google提出的一种用于处理和生成大规模数据集的编程模型，被广泛应用于大数据处理领域。Hadoop将其作为核心组件，实现了分布式计算的功能...

Hadoop 讲义基础篇: - **Avro**: 一种数据序列化系统，用于高效地序列化和反序列化数据结构。 #### 代码版本控制 1. **GitLab**: - GitLab是一款用于源代码管理的工具，提供了一个私有仓库供团队协作。 - 主流云主机已经搭建了基础...

hadoop笔记: - **序列化并上传元数据**：将合并后的元数据序列化到磁盘，并上传给Namenode以替换原有的FsImage文件。 #### 三、Namenode启动流程 - **加载镜像文件**：加载FsImage文件，还原Checkpoint时间点前的元数据信息。 ...

提高hadoop的mapreduce job效率笔记: Hadoop 中的 Writeable 接口用于序列化和反序列化数据。不同的 Writeable 类有不同的性能特性。例如，IntWritable 比 LongWritable 更快，因为存储和处理整数所需的字节数更少。根据实际数据类型选择最合适的 ...

hadoop文档: - **hadoop笔记.ppt**：这可能是一个PPT形式的学习笔记，整理了Hadoop的关键概念、核心组件的工作原理以及一些实例分析。总之，Hadoop作为一个强大的分布式计算框架，对于大数据处理和分析有着至关重要的作用。...

hdp-day03-05笔记: 这里，单词作为key，1作为value，两者都是Hadoop序列化框架中的类型，如Text对应String，IntWritable对应Integer。 - 注意：map阶段的输入和输出数据必须实现Hadoop的序列化接口。 2. Reduce阶段： - 输入：来自...

hadoopention-model-for-ne开发笔记: 本开发笔记主要探讨的是如何在Hadoop环境中构建一个基于CNN（卷积神经网络）和Bi-LSTM（双向长短期记忆网络）的注意力模型，用于网络入侵检测。网络入侵检测是网络安全领域的重要组成部分，通过这种模型可以有效地...

Spark-SourceCode-Analysis:Apache Spark笔记本-spark source code: Spark-SourceCode分析 ...内存计算：Hadoop中本机的Map Reduce是基于磁盘的，对于需要反复重复的算法，中间结果重复转移插入磁盘，产生大量的I / O和序列化/反序列化堆积。而Spark的核心Spark Core在内

完整图文版阿里巴巴数据产品平台大数据与云计算技术系列教程 Hadoop之Hive学习笔记（共63页）.rar: 6. **Hive与其它组件的集成**：如HBase、Spark、Pig等，Hive可以通过Hive SerDe（序列化/反序列化）与其他数据源进行交互，增强了数据处理的灵活性。 7. **Hive的版本发展**：从早期的Hive 0.x到Hive 3.x，Hive经历...

hadoop_note.zip: 四、Python与Hadoop Python是广泛使用的编程语言，与Hadoop结合可以实现数据处理的高效编程。主要通过以下方式： 1. PyDoop：一个Python API，允许用户直接在Python环境中编写MapReduce程序，简化了开发流程。 2. ...

RPC入门学习笔记: 2. 序列化：请求被转换为可传输的格式，如JSON或XML，这一过程称为序列化。 3. 发送请求：客户端通过网络将序列化的请求发送到服务器。 4. 反序列化：服务器接收到请求后，将其反序列化恢复成可处理的数据结构。 5. ...

大数据之Hadoop资料.zip: 在当今信息化社会，大数据已成为企业竞争力的重要组成部分，而Hadoop作为处理海量数据的基石，其重要性不言而喻。本资料旨在深入解析Hadoop的核心概念、架构以及实际应用，帮助读者掌握分布式计算的基础知识，并能够...

大数据领域核心技术解析-spark flink hadoop kafka Hive、Flume、DataX、Redis等组件优化与实践应用: 本文档《大数据学习笔记》涵盖了Hive、Flume、DataX、Redis、Java锁、Spark、Flink、Hadoop以及Kafka等方面的知识点与实战技巧，尤其侧重于如何解决实际遇到的问题如Hive的小文件处理方法、Redis缓存策略的应用、...

Spark-Core学习知识笔记整理: 1.9原则八：使用Kryo优化序列化性能 47 1.10原则九：优化数据结构 48 2资源调优 48 2.1调优概述 48 2.2 Spark作业基本运行原理 49 2.3资源参数调优 50 第六章 Spark架构和工作机制 52 1 Spark架构 52 1.1 Spark架构...

MapReduceV2笔记: 在数据序列化方面，Hadoop对数据进行序列化是为了在网络中传输数据以及在磁盘上存储数据时能够有效地减少空间。Hadoop支持多种数据序列化类型，如Text、IntWritable、ObjectWritable、NullWritable、ByteWritable和...

大数据学习笔记.zip: Hive是数据仓库hadoop2.2.0分布式服务器1、准备Linux环境2、CentOS卸载...Hadoop binaries映射ReduceMapReduce原理MapReduce执行过程数据类型与格式可写接口与序列化机制Partitioner编程规划编程组合器编程常见的...

Global site tag (gtag.js) - Google Analytics