hadoopforcloud

浏览: 6804 次
性别:
来自: 北京

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2009-11 ( 4)
更多存档...

4.Hadoop I/O

博客分类：

Hadoop：The Definitive Guide学习笔记

Hadoop Mapreduce Apache 算法

4. Hadoop I/O 4.1. Data Integrity 数据完整性一般使用checksum检查数据的完整性，但是他仅能检查完整性，而不提供任何的修复办法，checksum的值也有出错的可能。 Hadoop采取了不同策略的checksum来克服以上的不足 4.1.1. Data Integrity In HDFS HDFS中的数据完整性 1) HDFS透明的计算其内部数据的checksum，并在读取数据的时候验证checksum。 2) HDFS为每io.bytes.per.checksum个字节创建checksum，默认是每512bytes创建一次 3) Datanode负责在存储 ...

2009-11-30 22:34
浏览 1905
评论(0)

3.The Hadoop Distributed File System

博客分类：

Hadoop：The Definitive Guide学习笔记

Hadoop Mapreduce 数据结构 HBase Scheme

3. The Hadoop Distributed File System 3.1. The Design of HDFS HDFS设计的针对对象：适合流式访问的超大文件、在使用便宜的硬件搭建的集群上运行。 HDFS不足：低延迟数据访问（Hbase是个好选择）、小文件多的时候出现问题（HDFS将文件Meta信息存储在内存中，内存限制了可以控制的文件数量）、对文件的多个wirter进行写入或者任意位置的修改。 3.2. HDFS Concept 3.2.1. Blocks HDFS中Block的大小默认是64M，小于块大小的的文件并不占据整个块的全部空间（一个块可能存有多个文件）。使用Bloc ...

2009-11-30 22:33
浏览 2197
评论(0)

2.MapReduce

博客分类：

Hadoop：The Definitive Guide学习笔记

Mapreduce Hadoop Apache AIR 脚本

2. MapReduce 2.1. A Weather Dataset 一个天气数据集数据是NCDC的数据，我们关注以下特点： 1）数据是半格式化的 2）目录里面存放的是从1901-2001年一个世纪的记录，是gzip压缩过的文件。 3）以行为单位，使用ASCII格式存储，每行就是� ...

2009-11-30 21:58
浏览 1503
评论(0)

1. Meet Hadoop

博客分类：

Hadoop：The Definitive Guide学习笔记

Hadoop Mapreduce 编程设计模式网络应用

1. Meet Hadoop 1.1. Data 数据本节陈述了这样的事实：数据量越来越大，并且来源也越来越多，我们面临的问题是如何有效的存储和分析它们。 1.2. Data Storage and Analysis 数据存储和分析现在面临这这样的一个问题：当磁盘的存储量随着时间的推移越来越大的时候，对磁盘上的数据的读取速度却没有多大的增长。读取硬盘上的全部数据会花费比较长的时间，如果是写操作的话则会更慢。一个解决的办法是同时读取多个硬盘上的数据。例如我们有100块硬盘，而他们分别存储整个数据的1%的话，若是用并行读取的方法操作，可以在两分钟之内搞定。只使用每块硬盘的1%当然是浪费的，但是 ...

2009-11-05 08:40
浏览 1199
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

4.Hadoop I/O

3.The Hadoop Distributed File System

2.MapReduce

1. Meet Hadoop

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

4.Hadoop I/O

3.The Hadoop Distributed File System

2.MapReduce

1. Meet Hadoop

最近访客更多访客>>