`

LSM树--高效的存储

 
阅读更多

转http://bofang.iteye.com/blog/1676698

 

论文 The Log-Structure Merge-Tree(LSM-tree)(http://www.google.com.my/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&cad=rja&ved=0CDoQFjAD&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.44.2782%26rep%3Drep1%26type%3Dpdf&ei=6OlPUJuZFsaYiAfIkIHIDg&usg=AFQjCNGGoN9IFTLShcv2HbL0RVQdElfxow&sig2=8wysS63qlqRvWf5m3lk7bg) 描述了这种数据结构的目标和算法细节。

 

LSM-tree主要目标是快速地建立索引。B-tree是建立索引的通用技术,但是,在大并发插入数据的情况下,B-tree需要大量的磁盘随机 IO,很显然,大量的磁盘随机IO会严重影响索引建立的速度。特别地,对于那些索引数据大的情况(例如,两个列的联合索引),插入速度是对性能影响的重要 指标,而读取相对来说就比较少。LSM-tree通过磁盘的顺序写,来达到最优的写性能,因为这会大大降低磁盘的寻道次数,一次磁盘IO可以写入多个索引 块。

 

LSM-tree的主要思想是划分不同等级的树。以两级树为例,可以想象一份索引数据由两个树组成,一棵树存在于内存,一棵树存在于磁盘。内存中的 树可以不一定是B-树,可以是其他的树,例如AVL树。因为数据大小是不同的,没必要牺牲CPU来达到最小的树高度。而存在于磁盘的树是一棵B-树。

 

 

数据首先会插入到内存中的树。当内存中的树中的数据超过一定阈值时,会进行合并操作。合并操作会从左至右遍历内存中的树的叶子节点与磁盘中的树的叶 子节点进行合并,当被合并的数据量达到磁盘的存储页的大小时,会将合并后的数据持久化到磁盘,同时更新父亲节点对叶子节点的指针。

 

 

之前存在于磁盘的叶子节点被合并后,旧的数据并不会被删除,这些数据会拷贝一份和内存中的数据一起顺序写到磁盘。这会操作一些空间的浪费,但是,LSM-tree提供了一些机制来回收这些空间。

 

磁盘中的树的非叶子节点数据也被缓存在内存中。

 

数据查找会首先查找内存中树,如果没有查到结果,会转而查找磁盘中的树。

 

有一个很显然的问题是,如果数据量过于庞大,磁盘中的树相应地也会很大,导致的后果是合并的速度会变慢。一个解决方法是建立各个层次的树,低层次的 树都比上一层次的树数据集大。假设内存中的树为c0, 磁盘中的树按照层次一次为c1, c2, c3, ... ck-1, ck。合并的顺序是(c0, c1), (c1, c2)...(ck-1, ck)。

 

为什么LSM-tree的插入很快

 

1. 首先,插入操作首先会作用于内存,并且,内存中的树不会很大,这会很快。

2. 合并操作会顺序写入一个或多个磁盘页,这比随机写快得多。

分享到:
评论

相关推荐

    PyPI 官网下载 | lsm-db-0.6.1.tar.gz

    LSM树是一种常用于键值存储系统和NoSQL数据库的数据结构,因其高效的写入性能和空间利用率而广泛采用。这个库可能提供了与LSM树相关的数据操作接口,如读写、查询和事务管理等,方便开发者在Python应用中集成数据库...

    LSM-tree.7z

    LSM树(Log-Structured Merge Tree)是一种常用于大规模数据存储和检索的索引结构,尤其是在分布式数据库系统、键值存储系统以及日志文件管理等领域。它的设计目标是优化磁盘I/O操作,特别是减少随机写入导致的磁盘...

    LSM-Tree关键技术[收集].pdf

    LSM-Tree(Log-Structured Merge Tree)是一种用于存储和检索大规模数据的高效数据结构,尤其在处理大量写入操作时表现出色。它最初在NoSQL数据库系统中得到广泛应用,如nessDB、Cassandra等。LSM-Tree的核心思想是...

    The Log-Structured Merge-Tree (LSM-Tree).pdf

    LSM-Tree的结构通常包括多个层次,包括一个内存中的树结构(如MemTable)和一个或多个存储在磁盘上的树结构(如Immutable Files和Sorted Runs)。数据首先插入到内存中的树结构,在这里可以高效地进行写操作。当达到...

    (源码)基于C++的LSM树键值存储系统.zip

    LSM树是一种高效的数据存储结构,广泛应用于NoSQL数据库如HBase和LevelDB中。该系统通过将数据分为内存存储和磁盘存储两部分,利用磁盘顺序读写的高效性,实现了高性能的写操作。 ## 项目的主要特性和功能 1. 内存...

    Chucky: A Succinct Cuckoo Filter for LSM-Tree

    LSM树(Log-Structured Merge Tree)是一种常用于键值存储的数据结构,它将新数据暂存在内存中,当缓冲区填满时,将其排序并写入存储设备,形成有序的运行。随着时间推移,通过合并多条运行在不同级别上进行数据压缩...

    12 LSM 树在 Apache HBase 等存储系统中的应用1

    LSM 树(Log-Structured Merge-Tree)是 HBase 等存储系统中的一种核心数据结构,通过巧妙地优化数据写入和读取流程,实现了高效的数据管理。 LSM 树的核心思想是将随机写入转化为顺序写入,从而极大地提高了磁盘的...

    Open-Channel SSD on LSM.pdf

    其中,基于日志结构合并树(LSM-tree)的KV存储系统因其能够消除随机写入,并保持可接受的读取性能而受到广泛关注。 随着NAND闪存单位容量价格的下降,固态硬盘(SSD)因其高I/O带宽和低访问延迟特性,在企业级数据...

    lsm.rar_LSM

    - **追加式写入**:LSM树支持高效的追加式写入,因为数据始终写入文件末尾,无需修改已有数据。 - **批量写入优化**:通过批处理和延迟写入,可以减少磁盘I/O次数。 4. **延伸算法**: - **大小分层的合并策略**...

    Go-Aran-基于RangedLSM树的嵌入式键值存储

    《Go-Aran:基于Ranged LSM树的嵌入式键值存储详解》 在现代软件开发中,数据存储是至关重要的部分,特别是在分布式系统和嵌入式应用中。Go-Aran是一个采用Ranged Limited Space Trie (Ranged LSM)树结构的键值存储...

    65520809LSM_LSM算法_优化_优化算法_

    5. 并行处理:帝王蝶算法可能利用多线程或分布式计算资源,对LSM树的维护和查询进行并行化,进一步提升系统性能。 LSM.m 文件可能是实现LSM算法及其优化的Matlab代码,包含了算法的实现细节和数据结构。通过分析和...

    The Log-Structured Merge-Tree

    传统磁盘基础索引结构,如B树,会在实时维护此类型索引时大大增加I/O成本,而LSM树提供了一种更为经济高效的解决方案。 总结来说,LSM树是一种针对大规模数据插入和删除操作优化的索引结构,它通过减少磁盘臂的移动...

    shifterdb:基于数据库的LSM-Tree,本机支持ACID事务

    LSM-Tree(Log-Structured Merge Tree)是一种广泛应用于键值存储系统和数据库管理系统中的数据结构,主要用于磁盘上的持久化存储。它通过将数据分层管理,优化了写入性能,同时也支持高效的读取操作。`shifterdb`是...

    wickdb:基于Pure Rust LSM树的嵌入式存储引擎

    综上所述,WickDB利用Rust的强大功能和LSM树的数据结构,提供了一个高效、安全的嵌入式存储解决方案。开发者可以将其集成到自己的项目中,以实现快速、可靠的数据存储和检索。同时,Rust的语法和生态系统也为WickDB...

    藏经阁-HBase In-Memory Compaction.pdf

    HBase In-Memory Compaction的实现基于LSM树设计,LSM树是一种高效的存储机制,它可以将随机I/O转换为顺序I/O,从而提高写入性能和磁盘利用率。LSM树的工作流程可以分为三个阶段:MemStore、Flush和Compaction。 ...

    lsmt:LSM树

    在C++中实现LSM树,可以充分利用C++的面向对象特性来构建高效、灵活的数据存储解决方案。 LSM树的核心思想是将数据分批写入内存,然后定期将内存中的数据批量写入磁盘,形成一系列有序的磁盘文件,称为 SSTable ...

    基于LSM Tree的分布式索引实现.pdf

    LSM Tree(Log-Structured Merge Tree)是一种广泛应用于NoSQL数据库的存储结构,它的核心特性是延迟更新和批量写入,有效地将随机写操作转化为批量写,显著提升了写入速度,但同时也对读取性能造成了一定影响。...

    lsm.rar_LSM_LSM算法_lsme suanfa

    5. **多级别的LSM树**:为了进一步优化,LSM算法通常采用多级别的结构。每个级别包含一组SSTable,级别间的Compaction会将低级别的多个SSTable合并成更高级别的单个SSTable。读操作首先在最高级别查找,如果找不到则...

    WiscKey-基于LSM的Key Value分离策略

    WiscKey是一种持久化的基于LSM树(Log-Structured Merge Tree)的键值存储系统,它通过将键与值分离来最小化I/O放大效应。该设计高度针对SSD进行了优化,充分利用了SSD的顺序读写性能和随机访问特性。通过对微基准...

    时序数据库和LSM1

    时序数据库是一种专门针对时间序列数据进行高效存储和查询的数据库系统。在物联网(IoT)、监控系统、金融交易、工业自动化等领域中,时序数据的处理需求日益增长,因为这些场景通常涉及大量连续、实时的数据记录和...

Global site tag (gtag.js) - Google Analytics