- 浏览: 1044421 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (538)
- 奇文共赏 (36)
- spring (13)
- hibernate (10)
- AOP/Aspectj (9)
- spring security (7)
- lucence (5)
- compass (3)
- jbmp (2)
- jboss rule(drools) (0)
- birt (1)
- jasper (1)
- cxf (3)
- flex (98)
- webgis (6)
- 设计模式 (1)
- 代码重构 (2)
- log4j (1)
- tomcat (9)
- 神品音乐 (1)
- 工作计划 (2)
- appfuse (1)
- svn (4)
- 寻章摘句 (3)
- eclipse (10)
- arcgis api for flex (1)
- 算法 (5)
- opengis-cs (1)
- bug心得 (13)
- 图标 (1)
- software&key (14)
- java (17)
- 搞笑视频 (13)
- sqlserver (9)
- postgresql (1)
- postgis (0)
- geoserver (5)
- 日子 (50)
- 水晶报表 (1)
- 绝对电影 (3)
- Alternativa3D (1)
- 酷站大全 (10)
- c++ (5)
- oracle (17)
- oracle spatial (25)
- flashbuilder4 (3)
- TweenLite (1)
- DailyBuild (6)
- 华山论贱 (5)
- 系统性能 (5)
- 经典古文 (6)
- SOA/SCA/OSGI (6)
- jira (2)
- Hadoop生态圈(hadoop/hbase/pig/hive/zookeeper) (37)
- 风水 (1)
- linux操作基础 (17)
- 经济 (4)
- 茶 (3)
- JUnit (1)
- C# dotNet (1)
- netbeans (1)
- Java2D (1)
- QT4 (1)
- google Test/Mock/AutoTest (3)
- maven (1)
- 3d/OSG (1)
- Eclipse RCP (3)
- CUDA (1)
- Access control (0)
- http://linux.chinaunix.net/techdoc/beginner/2008/01/29/977725.shtml (1)
- redis (1)
最新评论
-
dove19900520:
朋友,你确定你的标题跟文章内容对应???
tomcat控制浏览器不缓存 -
wussrc:
我只想说牛逼,就我接触过的那点云计算的东西,仔细想想还真是这么 ...
别样解释云计算,太TM天才跨界了 -
hw_imxy:
endpoint="/Hello/messagebr ...
flex+java代码分两个工程 -
gaohejie:
rsrsdgrfdh坎坎坷坷
Flex 与 Spring 集成 -
李涤尘:
谢谢。不过说得有点太罗嗦了。
Oracle数据库数据的导入及导出(转)
http://hi.baidu.com/lkf0217/blog/item/3ce51b872ba04a21c75cc376.html
Hbase是一个分布式开源数据库,基于Hadoop分布式文件系统,模仿并提供了基于Google文件系统的Bigtable数据库的所有功能。 其目标是处理非常庞大的表,可以用普通的计算机处理超过10亿行数据,并且有数百万列元素组成的数据表。Hbase可以直接使用本地文件系统或者 Hadoop作为数据存储方式,不过为了提高数据可靠性和系统的健壮性,发挥Hbase处理大数据量等功能,需要使用Hadoop作为文件系统。
Google BigTable论文中BigTable的定义:Bigtable是一个疏松的分布式的持久的多维排序的map,这个map被行键,列键,和时间戳索引.每一个值都是无解释数组.(A Bigtable is a sparse, distributed, persistent multidimensional sorted map. The map is indexed by a row key, column key, and a timestamp; each value in the map is an uninterpreted array of bytes.) 1.2 数据模型 Hbase是一个类似Bigtable的分布式数据库,大部分特性和Bigtable一样,是一个稀疏的,长期存储的,多维度的,排序的映射表。这张表的索引是行关键字,列关键字和时间戳。每个值是一个不解释的字符数组,数据都是字符串,没类型。 HBASE中的每一张表,就是所谓的BigTable。BigTable会存储一系列的行记录,行记录有三个基本类型的定义:Row Key,Time Stamp,Column。Row Key是行在BigTable中的唯一标识,Time Stamp是每次数据操作对应关联的时间戳。用户在表格中存储数据,每一行都有一个可排序的主键和任意多的列。由于是稀疏存储的,所以同一张表里面的每一行数据都可以有截然不同的列。Column 定义为"<family>:<label>",通过这两部分可以唯一的指定一个数据的存储列,family的定义和修改需要对 HBASE作类似于DB的DDL操作,而对于label的使用,则不需要定义直接可以使用,这也为动态定制列提供了一种手段。family另一个作用其实 在于物理存储优化读写操作,同family的数据物理上保存的会比较临近,因此在业务设计的过程中可以利用这个特性。Hbase把同一个family里面 的数据存储在同一个目录底下,而Hbase的写操作是锁行的,每一行都是一个原子元素,都可以加锁。 HBase在物理距离比较近的磁盘上储存列组,所以同一列组中的元素要有完全一样的读/写特性并且包含的数据也要相似。 所有数据库的更新都有一个时间戳标记,每个更新都是一个新的版本,而hbase会保留一定数量的版本,这个值是可以设定的。客户端可以选择获取距离某个时间最近的版本,或者一次获取所有版本。 下面我们分别看一下逻辑数据模型和物理数据模型。 1) 逻辑数据模型 一个表可以想象成一个大的映射关系,通过主键,或者主键+时间戳,可以定位一行数据,由于是稀疏数据,所以某些列可以是空白的,下面就是数据的概念视图(逻辑数据模型): Row Key Time Stamp Column "contents:" Column "anchor:" Column "mime:" "com.cnn.www" t9 "anchor:cnnsi.com " "CNN" t8 "anchor:my.look.ca" "CNN.com" t6 "<html>..." "text/html" t5 "<html>..." t3 "<html>..." 上图是一个存储Web网页的范例列表片断。行名是一个反向URL{即com.cnn.www}。contents列族{原文用 family,译为族,详见列族}存放网页内容,anchor列族存放引用该网页的锚链接文本。CNN的主页被Sports Illustrater{即所谓SI,CNN的王牌体育节目}和MY-look的主页引用,因此该行包含了名叫“anchor:cnnsi.com”和 “anchhor:my.look.ca”的列。每个锚链接只有一个版本{由时间戳标识,如t9,t8};而contents列则有三个版本,分别由时间戳t3,t5,和t6标识。 每一行的唯一标识为com.cnn.www,每一次逻辑修改都有一个timestamp关联对应,一共有四个列定 义:<contents:>,<anchor:cnnsi.com>,<anchor:my.look.ca>,<mime:>。 如果用传统的概念来将BigTable作解释,那么BigTable可以看作一个DB Schema,每一个Row就是一个表,Row key就是表名,这个表根据列的不同可以划分为多个版本,同时每个版本的操作都会有时间戳关联到操作的行。 每一个行可以多个family,每一个family可以包含无数个Column,每一个Column都可以有一个不同于其他列的时间戳。在通用数据库中当 表创建时我们就已经定义了列,如果修改表结构的话会非常困难(比如:添加一列)。在HBase中我们可以很轻松地添加一个列族或列。 2)物理数据模型 虽然从逻辑模型来看每个表格是由很多行组成,但是在物理存储上面,它是按照列来保存的,这点在数据设计和程序开发的时候必须牢记。 上面的逻辑模型在物理存储的时候应该表现成下面那样子: Row Key Time Stamp Column "contents:" "com.cnn.www" t6 "<html>..." t5 "<html>..." t3 "<html>..." Row Key Time Stamp Column "anchor:" "com.cnn.www" t9 "anchor:cnnsi.com" "CNN" t8 "anchor:my.look.ca" "CNN.com" Row Key Time Stamp Column "mime:" "com.cnn.www" t6 "text/html" 需要注意的是在概念视图上面有些列是空白的,这样的列实际上并不会被存储,当请求这些空白的单元格的时候,会返回null值。如果在查询的时候不提供时间戳,那么会返回距离现在最近的那一个版本的数据。因为在存储的时候,数据会按照时间戳排序。 物理数据模型其实就是将逻辑模型中的一个Row分割成为根据Column family存储的物理模型。 对于BigTable的数据模型操作的时候,会锁定Row,并保证Row的原子操作。
发表评论
-
一网打尽当下NoSQL类型、适用场景及使用公司
2014-12-28 20:56 958一网打尽当下NoSQL类型、适用场景及使用公司 http:// ... -
别样解释云计算,太TM天才跨界了
2014-02-25 09:41 2430http://mp.weixin.qq.com/s?__bi ... -
Build, Install, Configure and Run Apache Hadoop 2.2.0 in Microsoft Windows OS
2013-12-09 11:17 2522http://www.srccodes.com/p/arti ... -
hadoop的超时设置
2013-06-23 11:47 2416from http://blog.163.com/zheng ... -
hadoop与panasas
2012-12-26 09:53 875在应用的场景中,hadoop当然希望使用全部的本地硬盘,但是对 ... -
程序开过多线程,导致hadoop作业无法运行成功
2012-10-23 16:14 7057Exception in thread "Threa ... -
mount盘异常,导致hadoop作业无法发送
2012-10-23 16:12 946异常信息 2012-10-23 21:10:42,18 ... -
HDFS quota 設定
2012-08-02 16:22 5507http://fenriswolf.me/2012/04/04 ... -
hadoop常用的指令
2011-10-09 16:50 1698hadoop job -kill jobid 可以整个的杀掉 ... -
Hadoop基准测试
2011-08-08 10:04 1268http://www.michael-noll.com/ ... -
Hadoop Job Scheduler作业调度器
2011-05-21 11:02 2519http://hi.baidu.com/zhengxiang3 ... -
hadoop指定某个文件的blocksize,而不改变整个集群的blocksize
2011-03-20 17:20 2102文件上传的时候,使用下面的命令即可 hadoop f ... -
Hadoop Job Tuning
2011-02-28 15:53 810http://www.searchtb.com/2010/12 ... -
如何在不重启整个hadoop集群的情况下,增加新的节点
2011-02-25 10:12 13911.在namenode 的conf/slaves文件中增加新的 ... -
对hadoop task进行profiling的几种方法整理
2011-02-10 21:57 1646对hadoop task进行profiling的几种方法整 ... -
如何对hadoop作业的某个task进行debug单步跟踪
2011-02-10 21:56 2076http://blog.csdn.net/AE86_FC/ar ... -
hadoop 0.20 程式開發 eclipse plugin
2011-01-26 19:36 2252http://trac.nchc.org.tw/cloud/w ... -
hadoop-0.21.0-eclipse-plugin无法在eclipse中运行解决方案
2011-01-26 09:47 3592LINUX下将hadoop-0.21自带的hadoop ecl ... -
How to Benchmark a Hadoop Cluster
2011-01-19 22:15 2841How to Benchmark a Hadoop Clu ... -
json在线格式化
2010-12-21 16:23 2427http://jsonformatter.curiouscon ...
相关推荐
【标题】:“HBase简介共8页.pdf.zip”是一个压缩文件,其中包含了关于HBase的详细介绍,一共8页内容。HBase是Apache软件基金会开发的一个开源分布式数据库,它基于Google的Bigtable设计,并且构建在Hadoop之上。...
### 林昊 HBase简介与实践分享 #### HBase概览 HBase是一个分布式的、面向列的开源数据库,该数据库的设计受到了Google的Bigtable论文的启发。它是在Hadoop之上构建的一个高度可扩展的数据存储系统,适用于实时数据...
HBase思维导图,便捷整理思路,HBase简介、HBase架构、HBase数据模型、HBase角色
大数据云计算技术系列 Hbase 简介 一、简介 Hbase源于Chad Walters和Jim在2006年11月提出的BigTable概念,它是一个开源的分布式数据库,最初作为Hadoop贡献项目的一部分在2007年2月创建。2007年10月,Hbase成为首...
Hadoop技术-HBase简介 HBase,全称为Hadoop Database,是Apache软件基金会下的一个开源项目,也是Hadoop生态系统中的重要组成部分。它是一款高度可扩展的NoSQL数据库,专为处理大规模非结构化和半结构化数据而设计...
HBase简介.pdf
HBase简介与实践分享
淘宝-林昊_HBase简介与实践分享
### HBase简介及安装知识点详解 #### 一、HBase概述 **HBase** 是一个构建在 **Hadoop** 分布式文件系统 (HDFS) 之上的分布式、可扩展的大规模数据存储系统。它是针对大数据量场景设计的,特别适用于需要实时读写...
Hbase简介,基础篇
【大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第11期_HBase简介及安装_V1.0 共21页.pdf】这篇文档主要介绍了HBase这一大数据处理的重要组件,以及其在Hadoop生态系统中的角色。HBase是一个基于列族的...
标题中的“大数据云计算技术系列 Hadoop之Hbase简介”揭示了我们要探讨的核心主题:HBase,它是Apache Hadoop生态系统中的一个分布式、版本化、列族式数据库,特别适合处理和存储大规模数据。HBase充分利用了Hadoop...
hbase简介,主要从hdfs开始介绍hbase,讲的比较细致生动
HBase是一种基于Hadoop生态系统的分布式列式存储系统,它为大数据处理提供了高效、可靠且可扩展的解决方案。HBase的设计灵感来源于Google的Bigtable,但它是开源的,旨在适应低成本的PC服务器集群,用于构建大规模...
1.1 HBase 的概念与特点 HBase 是一个分布式、版本化的非关系型数据库,是Hadoop生态系统中的重要组成部分。它基于Google的Bigtable论文设计,提供高可靠性、高性能、面向列,可伸缩的数据库服务。HBase主要特点包括...
### HBase技术深入解析 #### 引言 HBase,作为大数据领域中一款重要的分布式数据库系统,基于Hadoop生态系统构建,旨在提供高可靠、高性能的数据存储与查询服务。本文将全面解析HBase的核心概念、技术架构及应用...
从数据模型、物理储存、架构等方面介绍,比较简介通俗
三、HBase Table 四、Phoenix 三、HBase Table 四、Phoenix