文章列表
4. Hadoop I/O
4.1. Data Integrity 数据完整性
一般使用checksum检查数据的完整性,但是他仅能检查完整性,而不提供任何的修复办法,checksum的值也有出错的可能。
Hadoop采取了不同策略的checksum来克服以上的不足
4.1.1. Data Integrity In HDFS HDFS中的数据完整性
1) HDFS透明的计算其内部数据的checksum,并在读取数据的时候验证checksum。
2) HDFS为每io.bytes.per.checksum个字节创建checksum,默认是每512bytes创建一次
3) Datanode负责在存储 ...
- 2009-11-30 22:34
- 浏览 1894
- 评论(0)
3. The Hadoop Distributed File System
3.1. The Design of HDFS
HDFS设计的针对对象:适合流式访问的超大文件、在使用便宜的硬件搭建的集群上运行。
HDFS不足:
低延迟数据访问(Hbase是个好选择)、小文件多的时候出现问题(HDFS将文件Meta信息存储在内存中,内存限制了可以控制的文件数量)、对文件的多个wirter进行写入或者任意位置的修改。
3.2. HDFS Concept
3.2.1. Blocks
HDFS中Block的大小默认是64M,小于块大小的的文件并不占据整个块的全部空间(一个块可能存有多个文件)。
使用Bloc ...
- 2009-11-30 22:33
- 浏览 2167
- 评论(0)
2. MapReduce
2.1. A Weather Dataset 一个天气数据集
数据是NCDC的数据,我们关注以下特点:
1) 数据是半格式化的
2) 目录里面存放的是从1901-2001年一个世纪的记录,是gzip压缩过的文件。
3) 以行为单位,使用ASCII格式存储,每行就是 ...
- 2009-11-30 21:58
- 浏览 1477
- 评论(0)
1. Meet Hadoop
1.1. Data 数据
本节陈述了这样的事实:数据量越来越大,并且来源也越来越多,我们面临的问题是如何有效的存储和分析它们。
1.2. Data Storage and Analysis 数据存储和分析
现在面临这这样的一个问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长。
读取硬盘上的全部数据会花费比较长的时间,如果是写操作的话则会更慢。一个解决的办法是同时读取多个硬盘上的数据。例如我们有100块硬盘,而他们分别存储整个数据的1%的话,若是用并行读取的方法操作,可以在两分钟之内搞定。只使用每块硬盘的1%当然是浪费的,但是 ...
- 2009-11-05 08:40
- 浏览 1190
- 评论(0)