在过去的十年中,计算世界已经改变。现在不仅在大公司,甚至一些小公司也积累了 TB 量级的数据。各种规模的组织开始有了处理大数据的需求,而目前关系型数据库在可缩放方面几乎已经达到极限。
一个解决方案是使用键值(Key-Value)存储数据库,这是一种 NoSQL(非关系型数据库)模型,其数据按照键值对的形式进行组织、索引和存储。KV 存储非常适合不涉及过多数据关系业务关系的业务数据,同时能有效减少读写磁盘的次数,比 SQL 数据库存储拥有更好的读写性能。
本文就为你介绍 9 种用于大数据处理的免费键值存储数据库。
1. Aerospike 社区版
Aerospike 是一个以分布式为核心基础,可基于行随机存取内存中索引、数据或 SSD 存储中数据的数据库。
Aerospike 主要用于广告业务,作为一个服务器端的 cookie 存储来使用,在这种场景下读取和写入性能是至关重要的。
官网:http://www.aerospike.com/press-releases/aerospike-launches-free-community-edition/
相关资料:Documentation、FAQ、Blog、Forums
2. LevelDB
Leveldb 是 Google 开发的一个非常高效的 kv 数据库,支持 billion 级别的数据量,在这个数量级别下还有着非常高的性能,主要归功于它的良好的设计,特别是 LSM 算法。Leveldb 已经作为存储引擎被 Riak 和 Kyoto Tycoon 所支持,在国内淘宝的 Tair 开源 key-value 存储也已经将 LevelDB 作为其持久化存储引擎,并部署在线上使用。
官网:http://code.google.com/p/leveldb/
相关资料:Benchmarks、Mailing List、Twitter
3. Scalaris
Scalaris 是一个采用 Erlang 开发的分布式 key-value 存储系统,提供的 API 包括:Java、Python、Ruby 和 JSON。
官网:http://scalaris.googlecode.com/
相关资料:Users and Developers Guide、FAQ、Mailing List
4. Project Voldemort
Voldemort 是一个分布式键值存储系统,是 Amazon's Dynamo 的一个开源克隆。特性如下:
- 支持自动复制数据到多个服务器上。
- 支持数据自动分割所以每个服务器只包含总数据的一个子集。
- 提供服务器故障透明处理功能。
- 支持可拨插的序化支持,以实现复杂的键-值存储,它能够很好的 5. 集成常用的序化框架如:Protocol Buffers、Thrift、Avro 和 Java Serialization。
- 数据项都被标识版本能够在发生故障时尽量保持数据的完整性而不会影响系统的可用性。
- 每个节点相互独立,互不影响。
- 支持可插拔的数据放置策略
官网:http://project-voldemort.com/
相关资料:Wiki、Mailing List、Github、Project Voldemort: Scaling Simple Storage、Serving Large-scale Batch Computed Data with Project Voldemort
5. HyperDex
HyperDex 是一个分布式、可搜索的键值存储系统,特性如下:
- 分布式 KV 存储,系统性能能够随节点数目线性扩展
- 吞吐和延时都能秒杀现在风头正劲的 MonogDB,吞吐甚至强于 Redis
- 使用了 hyperspace hashing 技术,使得对存储的K-V 的任意属性进行查询成为可能
相关资料:Documentation、Blog、GitHub、FAQ、Announcement Mailing List、Discussion Mailing List
6. Berkeley DB
Berkeley DB 是一个开源的文件数据库,介于关系数据库与内存数据库之间,使用方式与内存数据库类似,它提供的是一系列直接访问数据库的函数,而不是像关系数据库那样需要网络通讯、SQL 解析等步骤。
官网:http://www.oracle.com/technetwork/products/berkeleydb/overview/index.html
7. Apache Accumulo
Apache Accumulo 是一个可靠的、可伸缩的、高性能的排序分布式的 Key-Value 存储解决方案,基于单元访问控制以及可定制的服务器端处理。Accumulo 使用 Google BigTable 设计思路,基于 Apache Hadoop、Zookeeper 和 Thrift 构建。
官网:http://accumulo.apache.org/
相关资料:Manual、Mailing Lists、Apache Accumulo Users Group
8. Redis
Redis 是一个高性能的 key-value 存储系统,和 Memcached 类似,它支持存储的 value 类型相对更多,包括 string(字符串)、list(链表)、set(集合)和 zset(有序集合)。与 memcached 一样,为了保证效率,数据都是缓存在内存中,区别的是 Redis 会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了主从同步。
Redis 的出现,很大程度补偿了 memcached 这类 key/value 存储的不足,在部分场合可以对关系数据库起到很好的补充作用。它提供了 Python、Ruby、Erlang、PHP 客户端,使用很方便。
相关资料:Documentation、Tutorials、FAQ、Mailing List、Twitter
9. Apache Cassandra
Apache Cassandra 是一个混合型的非关系数据库,它最初由 Facebook 开发,用于储存特别大的数据。
Cassandra 的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对 Cassandra 的一个写操作,会被复制到其它节点上去,对 Cassandra 的读操作,也会被路由到某个节点上面去读取。对于一个 Cassandra 群集来说,扩展性能是比较简单的事情,只管在群集里面添加节点就可以了。
官网:http://cassandra.apache.org/
相关资料:Wiki、Getting Started
Via linuxlinks
相关推荐
随着云计算和大数据时代的到来,传统的关系数据库(RDBMS)受到了来自非关系型数据库(NoSQL)的挑战,尤其是分布式Key-Value键值数据库。NoSQL的兴起源于对高可伸缩性和灵活数据模型的需求,这在传统RDBMS中往往...
* 键值数据库(Key-Value Database) * 列族数据库(Column-Family Database) * 文档数据库(Document-Oriented Database) * 图形数据库(Graph Database) 每种类型的 NoSQL 数据库都有其特点和应用场景。 5.5 ...
Key-Value存储模型的索引机制通常使用hash索引和B-tree索引。Hash索引通过哈希函数直接将键值映射到内存地址上,从而快速定位数据。B-tree(B树)是一种多路平衡搜索树,它的每个节点都是一个多路平衡树节点,叶子...
在当今的信息时代,数据存储技术的演进对于企业处理大数据和满足高并发访问需求至关重要。分布式系统架构因其可扩展性、可靠性以及高性能成为当前主流的数据处理平台之一。本研究主要关注于一种多存储引擎Key-Value...
Pegasus选择了NoSQL路径,特别是作为KV数据库,它存储Key-Value键值对,类似于Java或C++中的map集合。这种设计简化了数据格式,提升了处理速度。 Pegasus针对的是那些数据量大、对延迟敏感并且需要强一致性的业务。...
作为一款Key-Value存储系统,Cassandra在设计时就考虑了大规模数据存储和处理的需求,因此它非常适合那些需要处理PB级别数据、对数据可用性和读写性能有高要求的应用场景。 在Cassandra的设计哲学中,它强调了数据...
分布式key-value键值数据库与关系数据库NoSql 在当前的数据库市场中,关系数据库(RDBMS)占据着统治地位,提供了简单性、健壮性、灵活性、性能和可伸缩性等优点。但是,随着应用程序的增长和云计算的普及,关系...
1. 基于Key-Value存储的NoSQL数据库 这种数据库利用键值对进行存储,通过哈希表维护Key和Value的映射,用户可以通过Key快速定位数据。Value通常以特定的数据结构存储,系统不对Value进行解释,应用程序根据预先约定...
它基于 Google 的 LevelDB 设计,并进行了优化和扩展,支持更广泛的应用场景,如大数据分析、实时查询以及数据库引擎。RocksDB 的设计目标是提供低延迟的读写性能,同时保持高效的数据持久化。 **1. 数据结构与存储...
数据结构是计算机存储、组织数据的方式,它涉及到数据的逻辑结构、物理结构以及对数据的基本操作。数据结构的选择会影响到程序的效率、可读性和可维护性。常见的数据结构有数组、链表、栈、队列、树、图等。 算法则...
1. 键值存储数据库(Key-Value Store):如Redis和Memcached,适用于快速读写操作,适合缓存和session管理。 2. 列族数据库(Column Family):如HBase,适合处理大规模、实时的数据,常用于日志分析和实时监控。 3....
- **键值(Key-Value)存储**:最简单的数据模型,适用于高性能访问需求。 - **列族(Column-Oriented)存储**:适合大数据分析场景。 - **文档(Document)存储**:存储复杂数据类型,支持嵌套结构。 - **图形(Graph)存储...
而Redis作为一种高性能的key-value存储系统,可以作为数据库、缓存和消息中间件使用。在本架构中,Redis被用来缓存频繁访问的数据,以减少对底层存储系统的访问次数,进一步提升数据读取的速度。 文章通过具体的...
9. **存储规模**:Badger已在Usenet Express服务中处理了超过300TB的数据,并且这个数字还在增长,证明了其在大数据场景下的稳定性和可扩展性。 在给定的代码片段中,展示了如何使用Badger进行基本操作: - `set()...
redis是一个以key-value存储的数据库结构型服务器,它支持的数据结构类型包括:字符串(String)、链表(lists)、哈希表(hash)、集合(set)、有序集合(Zset)等。为了保证读取的效率,redis把数据对象都存储在...
redis是一个以key-value存储的数据库结构型服务器,它支持的数据结构类型包括:字符串(String)、链表(lists)、哈希表(hash)、集合(set)、有序集合(Zset)等。为了保证读取的效率,redis把数据对象都存储在...
在Key-Value存储中,BTree索引用于快速定位键值对,提高了数据访问速度。 ARTree(Adaptive Radix Tree)则是另一种高效的索引结构,尤其适合处理大量的小键值。ARTree利用了部分匹配查询,降低了内存占用,同时...
1. Key-Value存储:如Hbase、Voldemort,适用于大规模、高并发的键值对读写操作。 2. Key-Column存储:例如Hbase,以行和列族的方式存储数据,适合大数据分析。 3. Key-Value Cache:如Redis,用于高速缓存,提高...
HBase并不是传统的数据库,它不是关系型数据库管理系统(RDBMS),而是基于Key-Value存储模型,同时具备面向列族的特性。这意味着数据可以根据列族进行分组和检索,非常适合处理稀疏、多维度的数据。HBase的设计灵感...