`

分布式存储引擎 Tail

阅读更多

简介

tair 是淘宝自己开发的一个分布式 key/value 存储引擎. tair 分为持久化和非持久化两种使用方式. 非持久化的 tair 可以看成是一个分布式缓存. 持久化的 tair 将数据存放于磁盘中. 为了解决磁盘损坏导致数据丢失, tair 可以配置数据的备份数目, tair 自动将一份数据的不同备份放到不同的主机上, 当有主机发生异常, 无法正常提供服务的时候, 其于的备份会继续提供服务.

tair 的总体结构

tair 作为一个分布式系统, 是由一个中心控制节点和一系列的服务节点组成. 我们称中心控制节点为config server. 服务节点是data server. config server 负责管理所有的data server, 维护data server的状态信息. data server 对外提供各种数据服务, 并以心跳的形式将自身状况汇报给config server. config server是控制点, 而且是单点, 目前采用一主一备的形式来保证其可靠性. 所有的 data server 地位都是等价的.

整体框架图

tair 的负载均衡算法是什么

tair 的分布采用的是一致性哈希算法, 对于所有的key, 分到Q个桶中, 桶是负载均衡和数据迁移的基本单位. config server 根据一定的策略把每个桶指派到不同的data server上. 因为数据按照key做hash算法, 所以可以认为每个桶中的数据基本是平衡的. 保证了桶分布的均衡性, 就保证了数据分布的均衡性.

整体交互图

增加或者减少data server的时候会发生什么

当有某台data server故障不可用的时候, config server会发现这个情况, config server负责重新计算一张新的桶在data server上的分布表, 将原来由故障机器服务的桶的访问重新指派到其它的data server中. 这个时候, 可能会发生数据的迁移. 比如原来由data server A负责的桶, 在新表中需要由 B负责. 而B上并没有该桶的数据, 那么就将数据迁移到B上来. 同时config server会发现哪些桶的备份数目减少了, 然后根据负载情况在负载较低的data server上增加这些桶的备份. 当系统增加data server的时候, config server根据负载, 协调data server将他们控制的部分桶迁移到新的data server上. 迁移完成后调整路由. 当然, 系统中可能出现减少了某些data server 同时增加另外的一些data server. 处理原理同上. 每次路由的变更, config server都会将新的配置信息推给data server. 在客户端访问data server的时候, 会发送客户端缓存的路由表的版本号. 如果data server发现客户端的版本号过旧, 则会通知客户端去config server取一次新的路由表. 如果客户端访问某台data server 发生了不可达的情况(该 data server可能宕机了), 客户端会主动去config server取新的路由表.

发生迁移的时候data server如何对外提供服务

当迁移发生的时候, 我们举个例子, 假设data server A 要把 桶 3,4,5 迁移给data server B. 因为迁移完成前, 客户端的路由表没有变化, 客户端对 3, 4, 5 的访问请求都会路由到A. 现在假设 3还没迁移, 4 正在迁移中, 5已经迁移完成. 那么如果是对3的访问, 则没什么特别, 跟以前一样. 如果是对5的访问, 则A会把该请求转发给B,并且将B的返回结果返回给客户, 如果是对4的访问, 在A处理, 同时如果是对4的修改操作, 会记录修改log.当桶4迁移完成的时候, 还要把log发送到B, 在B上应用这些log. 最终A B上对于桶4来说, 数据完全一致才是真正的迁移完成. 当然, 如果是因为某data server宕机而引发的迁移, 客户端会收到一张中间临时状态的分配表. 这张表中, 把宕机的data server所负责的桶临时指派给有其备份data server来处理. 这个时候, 服务是可用的, 但是负载可能不均衡. 当迁移完成之后, 才能重新达到一个新的负载均衡的状态.

桶在data server上分布时候的策略

程序提供了两种生成分配表的策略, 一种叫做负载均衡优先, 一种叫做位置安全优先: 我们先看负载优先策略. 当采用负载优先策略的时候, config server会尽量的把桶均匀的分布到各个data server上. 所谓尽量是指在不违背下面的原则的条件下尽量负载均衡. 1 每个桶必须有COPY_COUNT份数据 2 一个桶的各份数据不能在同一台主机上; 位置安全优先原则是说, 在不违背上面两个原则的条件下, 还要满足位置安全条件, 然后再考虑负载均衡. 位置信息的获取是通过 _pos_mask(参见安装部署文档中关于配置项的解释) 计算得到. 一般我们通过控制 _pos_mask 来使得不同的机房具有不同的位置信息. 那么在位置安全优先的时候, 必须被满足的条件要增加一条, 一个桶的各份数据不能都位于相同的一个位置(不在同一个机房). 这里有一个问题, 假如只有两个机房, 机房1中有100台data server, 机房2中只有1台data server. 这个时候, 机房2中data server的压力必然会非常大. 于是这里产生了一个控制参数 _build_diff_ratio(参见安装部署文档). 当机房差异比率大于这个配置值时, config server也不再build新表. 机房差异比率是如何计出来的呢? 首先找到机器最多的机房, 不妨设使RA, data server数量是SA. 那么其余的data server的数量记做SB. 则机房差异比率=|SA – SB|/SA. 因为一般我们线上系统配置的COPY_COUNT是3. 在这个情况下, 不妨设只有两个机房RA和RB, 那么两个机房什么样的data server数量是均衡的范围呢? 当差异比率小于 0.5的时候是可以做到各台data server负载都完全均衡的.这里有一点要注意, 假设RA机房有机器6台,RB有机器3台. 那么差异比率 = 6 – 3 / 6 = 0.5. 这个时候如果进行扩容, 在机房A增加一台data server, 扩容后的差异比率 = 7 – 3 / 7 = 0.57. 也就是说, 只在机器数多的机房增加data server会扩大差异比率. 如果我们的_build_diff_ratio配置值是0.5. 那么进行这种扩容后, config server会拒绝再继续build新表.

tair 的一致性和可靠性问题

分布式系统中的可靠性和一致性是无法同时保证的, 因为我们必须允许网络错误的发生. tair 采用复制技术来提高可靠性, 并且为了提高效率做了一些优化, 事实上在没有错误发生的时候, tair 提供的是一种强一致性. 但是在有data server发生故障的时候, 客户有可能在一定时间窗口内读不到最新的数据. 甚至发生最新数据丢失的情况.

tair提供的客户端

tair 的server端是C++写的, 因为server和客户端之间使用socket通信, 理论上只要可以实现socket操作的语言都可以直接实现成tair客户端. 目前实际提供的客户端有java 和 C++. 客户端只需要知道config server的位置信息就可以享受tair集群提供的服务了.

主要的性能数据

测试机软件情况描述

  • Red Hat Enterprise Linux Server release 5.4
  • gcc version 4.1.2 20080704 (Red Hat 4.1.2-46)

测试机硬件情况描述

  • 十六核 Intel(R) Xeon(R) CPU E5520 @ 2.27GHz
  • 内存总数24G

测试环境部署描述

  • 两台配置服务器
  • 四台数据服务器(数据服务器copycount为3)

fdb存储引擎性能

本次性能测试主要测试fdb存储引擎下,随着各个数据服务器存储数据量的增大纯写操作和纯读操作的性能。测试数据选取512-1024大小的数据,纯写时写入完全不存在的数据。纯读时数据读取范围总数据量为内存cache大小的2倍。采用单台性能测试client端压测,分别在各个数据服务器存储了以下大小文件的情况下进行了纯读纯写性能测试:

  • 分别在每台数据服务器存储100G-700G数据(包括备份数据)情况下,客户端250线程纯读操作测试。
  • 分别在每台数据服务器存储100G-700G数据(包括备份数据),客户端30线程纯写操作测试。
场景 操作 TPS 成功率(%) Load情况 平均响应时间
100G数据 纯Get 250Thread 5515 99.9% 6-10 0.046
100G数据 纯Put 30Thread 7105 99.8% 6-10 0.0037
200G数据 纯Get 250Thread 5395 99.9% 6-10 0.047
200G数据 纯Put 30Thread 8150 99.7% 6-10 0.0025
300G数据 纯Get 250Thread 5245 99.7% 6-10 0.049
300G数据 纯Put 30Thread 6143 99.7% 6-10 0.0041
400G数据 纯Get 250Thread 5017 99.7% 6-10 0.053
400G数据 纯Put 30Thread 5510 99.7% 6-10 0.0046
500G数据 纯Get 250Thread 5115 99.7% 6-10 0.053
500G数据 纯Put 30Thread 4478 99.6% 6-10 0.0046
600G数据 纯Get 250Thread 4018 99.9% 6-10 0.059
600G数据 纯Put 30Thread 1145 99.4% 6-10 0.053
700G数据 纯Get 250Thread 3126 99.99% 6-10 0.079
700G数据 纯Put 30Thread 457 99.2% 6-10 0.058


mdb存储引擎性能

mdb存储引擎是内存操作,所以性能受数据量的影响不是很明显

20G数据 纯读 29753
20G数据 纯写 31180

 

分享到:
评论

相关推荐

    Golang日志收集项目(采用taillog收集+etcd注册集群+kafka作为开源流处理平台+ES)

    5. **Elasticsearch (ES)**:ES是一个分布式、RESTful风格的搜索和数据分析引擎,适用于实时的全文检索、结构化检索以及数据分析。日志数据到达Kafka后,可以被Elasticsearch消费并存储,用于后续的日志查询、分析和...

    王亚雷-Twitter 千万 QPS 分布式系统的架构设计和高效运维

    - **存储引擎设计**:考虑到不同应用场景的需求,提供了多种存储类型,如只读批量更新的SeaDB、LSM树结构的SSTable、B-Tree优化的读取性能等。 ### 知识点二:高效运维实践 #### 2.1 夜间警报处理与运维实战 - ...

    MongoDB3.2

    1. **存储引擎改进**:MongoDB 3.2默认使用 WiredTiger 存储引擎,相比之前的MMAPv1,WiredTiger提供更好的写入性能和内存管理,同时降低了磁盘占用。 2. **查询优化器**:查询优化器的改进使得MongoDB能更好地选择...

    Kudu- Storage for Fast Analytics on Fast Data

    Kudu(读音为“库杜”)是一个开源的存储引擎,用于处理结构化数据,支持低延迟的随机访问以及高效的分析访问模式。Kudu利用水平分区来分布数据,并通过Raft共识算法复制每个分区,以提供低的平均恢复时间(mean-...

    史上最全Java面试266题:算法+缓存+TCP+JVM+搜索+分布式+数据库.docx

    这只是面试中可能涉及的部分Java知识点,实际面试可能会更加深入,涵盖更多领域,如分布式、数据库优化、搜索引擎、设计模式等。准备面试时,需要全面理解和实践这些概念,并结合项目经验进行阐述。

    淘宝校园招聘清华笔试试题.doc

    - **大数据量系统设计**:关键点在于数据的分布式存储、索引构建、负载均衡和查询优化。设计时,可以考虑使用分布式数据库,如Hadoop或Cassandra,结合搜索引擎如Elasticsearch建立索引,以实现高效查找。 4. **...

    es522_flume17_bak0827_succ_modify.zip

    而Elasticsearch作为一个强大的分布式搜索引擎和分析引擎,常用于大数据的实时分析与检索。本文将深入探讨如何使用Flume 1.7版本将数据有效地传输到Elasticsearch 5.2.2实例中。 Flume 1.7是Apache Flume的一个稳定...

    wot-web攻击日志分析.pdf

    存储引擎用于持久化数据,使得分析过程不会因为系统异常而丢失数据。它可以是一个关系型数据库,也可以是NoSQL数据库,具体取决于分析的需求。 #### 分布式调度系统 分布式调度系统负责管理和调度平台内的各个组件...

    淘宝2017校园招聘清华笔试试题(1).pdf

    - 关键点通常包括:数据的分布式存储、高效索引、负载均衡、数据冗余和容错机制、实时处理能力以及可扩展性。设计时,可以考虑使用NoSQL数据库或搜索引擎技术如Elasticsearch,通过分区、分片、并行处理等方式提高...

    DerbySoft可伸缩的日志分析平台实践.pdf

    - **Elasticsearch**: 作为核心的搜索和存储引擎,它基于Lucene构建,提供高效的全文搜索和数据分析能力。 - **Logstash**: 用于收集来自不同源的日志,进行过滤、预处理和格式化,然后推送到Elasticsearch。 - *...

    flume-ng-elasticsearch-sink-6.5.4.jar.zip

    Elasticsearch则是一款开源的分布式搜索引擎,具有实时分析、高可扩展性以及丰富的数据分析功能,广泛应用于日志搜索、监控、分析等场景。 本文将深入探讨如何使用Flume NG与Elasticsearch 6.5.4进行集成,以便将...

    mongodb27017_4.0.6.zip

    4. **性能提升**:4.0版本对查询优化器、索引和存储引擎进行了优化,提供了更快的数据读写速度。 5. **更好的备份和恢复**:支持Oplog Tail备份和新的`mongodump`和`mongorestore`选项,使备份和恢复过程更高效。 ...

    数据仓库建设方案详细.docx

    - **HDFS**:Hadoop分布式文件系统(HDFS),适合存储大量数据,提供高吞吐量的数据访问,适合于大规模数据集的处理。 - **HBase**:HBase是基于HDFS的一个分布式、面向列的开源数据库,适合随机读写大表数据。 - **...

    ElasticSearch安装及简单配置说明_OK.docx

    ElasticSearch 是一款基于 Lucene 的分布式搜索引擎,它提供了一套完整的解决方案,包括全文搜索、结构化搜索等,并且能够实时地存储、检索数据。本篇文章将详细介绍如何在服务器上安装配置 ElasticSearch 及其相关...

    HDFS与管理命令手册.docx

    HDFS(Hadoop Distributed File System),即Hadoop分布式文件系统,是针对大规模数据处理设计的一种分布式文件系统。HDFS的核心优势在于其能够有效地处理大数据集,尤其适用于那些需要频繁读取但较少修改的数据存储...

    大数据技术分享 AdMaster在大数据商业化上的实践 共29页.pdf

    在线数据分析中,AdMaster依赖MySQL、MongoDB、HBase等数据库进行数据存储,通过Kafka、Tail、Storm和Rsync等工具处理实时流数据。利用NLP(自然语言处理)技术和机器学习建模,进行语义分析、情感分析、标签分类和...

    flume1.8.0和elasticsearch5.2.6整合

    Flume是Apache开发的一款用于收集、聚合和移动大量日志数据的工具,而Elasticsearch则是一个分布式、实时的搜索与分析引擎,广泛用于大数据的存储、检索和分析。本篇文章将详细探讨如何将Flume 1.8.0版本与Elastic...

    统一监控平台方案(日志监控、方法监控、调用链路监控)

    - **Elasticsearch**:强大的搜索引擎,支持高效的数据索引和查询,特别适用于日志数据的存储和检索。 #### 监控内容 - **日志监控**:收集系统运行过程中的各类日志信息。 - **方法监控**:监测应用程序内部的方法...

Global site tag (gtag.js) - Google Analytics