hadoop IO(一)

黎明lm

浏览: 311959 次
性别:
来自: 北京

最近访客更多访客>>

baby孔祥超

jiazhigang

slipper-jay

woshiliukun

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

Hadoop

1.数据完整性：

在数据第一次引入时系统计算校验和(checksum),在数据通过一段不可靠的通道进行传输时再次计算校验和，如果所得的校验和

和原来的校验和一致则代表数据完整

2.HDFS数据完整性

hdfs 对写入的数据计算校验和，在读取数据时验证校验和。

io.bytes.per.checksum 指定校验和的数据字节大小默认512字节

datanode验证收到的数据后存储数据及校验和，datanode管线最后一个datanode负责验证校验和，如果检测到错误，则客户端便会收到一个ChecksumException 异常。客户端读取数据时也会验证校验和，datanode也会在一个后台线程中运行一个

DataBlockScanner,c从而定期验证存储在这个dananode上所有的数据块。

禁用校验和
将false 值传递给FileSystem对象的setVerifyCcheckSum()方法，可禁用校验和。

LocalFileSystem 执行客户端的校验和验证,通过ChecksumFileSystem 完成任务。ChecksumFileSystem 继承FileSystem类

FileSystem fs = ……

FileSystem checksumFiles = new ChecksumFileSystem(fs)
RawLocalFileSystem 禁用校验和

3.压缩

压缩两大好处：减少存储所需的磁盘空间，加速在网络上和磁盘上的传输

hadoop 压缩工具
Gzip 通用压缩工具，时间和空间性能居中
bzip2 比Gzip 高效，速度慢
LZO 速度快效率低

codec 压缩解压缩算法
hadoop 对 CompressionCodec 接口的一个实现代表一个codec

CompressionCodec 包含两个函数来压缩和解压缩
1> createOutputStream()
2> createInputStream

通过CompressionCodecFactory 推断CompressionCodec

读取压缩文件时通过文件的扩展名来判断需要使用哪个codec
getCodec()来读取

CodecPool 允许反复使用压缩和解压缩算法，分摊创建这些对象所使用的开销

4.MapReduce 压缩

要想对MapReduce 作业进行输出压缩操作可配置：
mapred.output.compress 设置为true
mapred.output.compression.codec 设置为想要使用的压缩codec 名
mapred.output.compression.type 控制要使用哪种压缩格式默认为RECODE 每条压缩 BLOCK 按组压缩(效率高)

Map 任务压缩

map 阶段的中间输入进行压缩
mapred.compression.map.output
mapred.map.output.compression.codec Class

5.序列化

将结构化数据转化为字节流成为序列化

hadoop多个节点上的通信是通过rpc(远程过程调用) 实现的，RPC将消息序列化成二进制流后发送到远程节点，远程节点接着将

二进制流反序列化为原始消息

hadoop 自己的序列化格式为 writable

Writable 接口两个方法：

write()
readFields()

IntWritable 实现了 WritableCompareable 接口，该接口继承自 Writable 和 java.lang.Comparable接口

RawComparator 接口允许直接比较数据流中的记录，无需反序列化

Text 针对UTF8 序列的 Writable

0
顶

1
踩

分享到：

Nutch: 读取 nutch抓取内容 | HDFS学习(二)

2011-08-31 22:52
浏览 1492
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop IO(一)

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop IO(一)

评论

发表评论

相关推荐

博客地址变更

hadoop 源码分析(六)hadoop taskTracker 生成map 和reduce任务流程

hadoop 源码分析(六)hadoop taskTracker 生成map 和reduce任务流程

hadoop 源码分析(五)hadoop 任务调度TaskScheduler

hadoop 源码分析(四)JobTracker 添加job 到schduler 队列中

hadoop 源码分析(三) hadoop RPC 机制

hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker

hadoop 源码分析(一) jobClient 提交到JobTracker

RHadoop 安装教程

pig

hadoop与hive的映射

hadoop distcp

MapReduce中Mapper类和Reducer类4函数解析

hadoop metrics 各参数解释

Hbase几种数据入库（load）方式比较

Hadoop客户端环境配置

hadoop 通过distcp进行并行复制

linux crontab 执行hadoop脚本 关于hadoop环境变量引入

hadoop fs 命令封装

map-reduce编程核心问题

最近访客更多访客>>

linux crontab 执行hadoop脚本关于hadoop环境变量引入