Welcome to Apache HBase!
HBase is the Hadoop database. Think of it as a distributed scalable Big Data store.
hadoop 的database, 类似与google的Big Table
When Would I Use HBase?
Use HBase when you need random, realtime read/write access to your Big Data. This project's goal is the hosting of very large tables -- billions of rows X millions of columns -- atop clusters of commodity hardware. HBase is an open-source, distributed, versioned, column-oriented store modeled after Google's Bigtable: A Distributed Storage System for Structured by Chang et al. Just as Bigtable leverages the distributed data storage provided by the Google File System, HBase provides Bigtable-like capabilities on top of Hadoop and HDFS.
Features
HBase provides:
- Linear and modular scalability.
- Strictly consistent reads and writes.
- Automatic and configurable sharding of tables
- Automatic failover support between RegionServers.
- Convenient base classes for backing Hadoop MapReduce jobs with HBase tables.
- Easy to use Java API for client access.
- Block cache and Bloom Filters for real-time queries.
- Query predicate push down via server side Filters
- Thrift gateway and a REST-ful Web service that supports XML, Protobuf, and binary data encoding options
- Extensible jruby-based (JIRB) shell
- Support for exporting metrics via the Hadoop metrics subsystem to files or Ganglia; or via JMX
When Should I Use HBase?(这个据对的是重点哦,找了很久,貌似要找到适合我应用的框架了,赞。 fast record lookups (and updates) )
First, make sure you have enough data. HBase isn't suitable for every problem. If you have hundreds of millions or billions of rows, then HBase is a good candidate. If you only have a few thousand/million rows, then using a traditional RDBMS might be a better choice due to the fact that all of your data might wind up on a single node (or two) and the rest of the cluster may be sitting idle.
Second, make sure you have enough hardware. Even HDFS doesn't do well with anything less than 5 DataNodes (due to things such as HDFS block replication which has a default of 3), plus a NameNode.
HBase can run quite well stand-alone on a laptop - but this should be considered a development configuration only.
What Is The Difference Between HBase and Hadoop/HDFS?
HDFS is a distributed file system that is well suited for the storage of large files. It's documentation states that it is not, however, a general purpose file system, and does not provide fast individual record lookups in files. HBase, on the other hand, is built on top of HDFS and provides fast record lookups (and updates) for large tables. This can sometimes be a point of conceptual confusion. HBase internally puts your data in indexed "StoreFiles" that exist on HDFS for high-speed lookups. See the Chapter 5, Data Model and the rest of this chapter for more information on how HBase achieves its goals.
分享到:
相关推荐
HBase 是一个分布式的、面向列的开源数据库,源于 Google 的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase 以表的形式存储数据,表有行和列组成,列划分为若干个列族/列簇(column family)。HBase ...
本篇将详细阐述如何在Hadoop 2.7.1环境下搭建HBase 1.2.1集群,并进行性能优化,以提升系统效率。 首先,我们需要了解Hadoop和HBase的基本概念。Hadoop是基于分布式文件系统HDFS(Hadoop Distributed File System)...
当创建新表时,表的第一个Region会存储在`.META.`表中。 3. **Region分配** - **初始Region**:新表创建时,只有一个Region,随着数据增长,Region会自动分裂。 - **Region Server**:Region是HBase数据存储的...
在HBase中,进行操作的第一步通常是设置环境变量,通过执行`source /opt/client/bigdata_env`命令,然后利用`hbase shell`进入HBase的命令行客户端。在客户端中,我们可以创建表,例如创建名为`stu01`的表,并指定列...
#### 第1章 HBase概述 ##### 1.1 HBase发展历史 - **起源**: HBase的灵感来源于Google发表的一篇名为《Bigtable: A Distributed Storage System for Structured Data》的论文。这篇论文描述了一个用于处理大规模...
在一篇名为《Hadoop and HBase Optimization for Read Intensive Search Applications》的文章中,作者提到了在配备SSD硬盘的服务器上将RegionServer的请求处理IO线程数设置为100的例子。这一设置是在特定的应用场景...
【大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第15期_HBase、Hive与RDBMS 共15页.pdf】这篇资料主要探讨了Hadoop生态系统中的两个重要组件——HBase和Hive,以及它们与传统关系型数据库管理系统(RDBMS)...
【大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第11期_HBase简介及安装_V1.0 共21页.pdf】这篇文档主要介绍了HBase这一大数据处理的重要组件,以及其在Hadoop生态系统中的角色。HBase是一个基于列族的...
为了更好地理解HBase的应用场景和优势,我们可以通过一个简单的例子来进行对比分析:假设我们需要存储一篇博客文章的相关信息,包括文章标题、内容、作者姓名和昵称等。 - **关系型数据库(RDBMS)的设计**:在传统...
【藏经阁-HBase在hulu的使用和实践】这篇文档详细介绍了HBase在hulu公司的实际应用和优化策略。Hulu是一家知名的流媒体服务提供商,其大数据平台组的软件工程师张虔熙分享了他们在HBase上的实践经验。文档涵盖了多个...
STEHIX包括两个部分:元数据表中的索引(第一层)和用于索引HBase区域内部结构的区域索引(第二层)。基于STEHIX结构,论文提出了解决范围查询和K最近邻(kNN)查询的算法,并针对负载均衡和可扩展的kNN查询提出了两...
"HBase官方文档-盛大翻译-V1.doc"可能是盛大公司翻译的HBase官方文档的第一个版本,而"HBase官方文档-周海汉-V2.pdf"可能是周海汉翻译的HBase官方文档的第二个版本,这可能意味着博文作者探讨了HBase数据库的使用,...
本篇内容主要围绕清华大学的一门精品大数据实战课程展开,聚焦于Hadoop、HBase、Hive和Spark这四大大数据处理框架,并特别关注其中的Spark SQL部分。该课程的PPT课件包含了丰富的教学内容和习题,旨在帮助学习者深入...
本篇内容主要围绕清华大学精品大数据实战课程中的第二章——Hadoop基础进行深入解析。Hadoop作为大数据处理的核心框架,是学习大数据技术的重要起点。通过这份32页的PPT课件,我们将深入了解Hadoop的基本概念、架构...
“初窥门庭”、“渐入佳境”、“登堂入室”,遂突发奇想以这三个名字来记录学习每一类框架的过程,如果有实际应用便取名“班门弄釜”好了卡夫卡篇初窥门庭Kafka资源B站上搜索Kafka排名第一的哪个视频现在编码项目中...
第一个循环基于直接控制锅炉的Arduino。 二。 第二个反馈循环是一个Raspberry PI,它从Arduino接收温度数据和锅炉状态信息,并向Arduino发送指令。 二。 第三个也是最后一个反馈循环是云中的服务器。 该服务器使用...
第三篇论文介绍了Bigtable,这是一种分布式、结构化数据的存储系统,用于支持谷歌的多项服务,如Google Search、Gmail等。Bigtable将数据存储在行、列和时间戳组成的三维空间中,具有高扩展性和灵活性。它启发了...
(1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以...
(1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以...
(1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以...