`
liangyan9966
  • 浏览: 39842 次
  • 性别: Icon_minigender_2
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

如何用阿里云HiTSDB时序数据库实现百万级海量数据点秒级读写

阅读更多
阅读全文[urlhttp://click.aliyun.com/m/23220/][/url]

2017云栖大会·上海峰会上,阿里云发布了面向物联网场景的HiTSDB时序数据库,可支持每秒1000万时序数据点写入;具备PB级别的数据存储能力,提供高效压缩算法,整体存储成本降低90%;提供时序数据插值计算,降精度计算,时间纬度聚合计算,空间纬度聚合计算的能力。

HiTSDB的能力脱胎于阿里巴巴多年的实践,面对集群规模拥有独特的分析计算能力,本文将从电商视角对HiTSDB进行深度剖析。

阿里巴巴拥有着全球最大的电商交易平台,2016双十一单日成交额突破了1207亿。而这个庞大的业务规模的背后是由上千个应用服务,几万台服务器,每天上亿的服务调用来支撑的。

image

如此大规模的应用监控需要全局监控服务APM(ApplicationPerformance Monitoring)来完成,通过采集各个服务和机器的运行数据和业务指标进行数据跟踪监控,就可以全局的掌握业务和服务运行情况,帮助进行故障诊断和业务评估。

阿里的全局监控服务叫做Ali360,通过Ali360可以进行全局的业务和服务监控。Ali360技术挑战题在于集群规模。最初面临的规模就是几百个应用,几万台的机器规模,要对每一台机器进行QPS等相关服务指标监控,应用系统依据Metric规范产生数据,上千万的数据点写入,上百万的数据点查询,这个规模是相当惊人的。

image
(天猫双11大屏也是APM的一部分)

同时,Ali360的平均写入维持在200W/S,每个数据点平均大小为200字节,那么每秒写入量在0.4G,每天就要产生34T的数据,而APM这种常见的时序领域的应用,通常数据写入都是持续进行的,按照这样的写入速度,那么每年业务存储所需存储成本变得非常的巨大,迫切需要进行成本的优化。

image

面对这个巨大的挑战,我们必须要寻找一条最合适的路。

最先排除掉的方案是通过关系型数据库的方案。百万级别的数据写入给关系数据库带来的写入压力巨大,由于关系数据库为了支持多维查询而创建的索引导致写入效率下降,同时索引存储空间也造成了整个方案的成本巨大,性能也不理想。

第二个排除的方案是NoSQL的存储方案。KV的问题在于数据的append操作通常是转化为get 和put的操作,比较适合大量小的热数据,并不适合这种监控数据的大数据写入,数据写入的效率也非常差。

从监控的业务形态和数据特点来分析,最终我们找到了阿里云HiTSDB 时序数据库来解决这个问题。由于业务监控数据最终的呈现形态都是基于时间纬度的监控数据,技术领域对这些呈现的数据统称为“TimeSeries Data 时序数据”,对于某一个指标的一系类持续数据点系列称为“TimeLine 时间线”。那么监控系统最终呈现的就是一系列的TimeLines。而时序数据库则是针对时序数据的管理进行特殊优化的数据库产品。

image

系统按照Metric的规范的通过HiTSDB提供的接口进行任意的数据写入。写入的信息可以包括任意的Tag,如:机房,区域,IP,应用,服务,方法名等以及写入指标如:异常数,QPS,TPS等,通过HiTSDB接口将时序数据写入到HiTSDB存储,HiTSDB支持任意纬度的时序数据监控应用进行监控指标的查询,以时间线的方式对应用提供服务。
阅读全文http://click.aliyun.com/m/23220/
分享到:
评论

相关推荐

    阿里云时序数据库TSDBForInfluxDB介绍.pdf

    主要讲解时序数据和时序数据库的特性,介绍目前DB-Engines排名第一的时序数据库InfluxDB,以及阿里云时序数据库InfluxDB®的特点和优势,详细讲解如何使用InfluxDB®管理时序数据,包括数据收集与存储、数据查询和...

    时序数据库技术和架构演进.pdf

    2. **分布式时序数据库**:为了解决单机性能瓶颈的问题,出现了基于分布式架构的时序数据库,通过将数据分散存储在多个节点上,实现数据的水平扩展。 3. **云原生时序数据库**:随着云计算技术的发展,越来越多的...

    时序数据库和LSM1

    1. **高速写入**:由于时序数据通常是连续且频繁的,数据库需要支持每秒上千万甚至上亿的数据点写入。为了实现这一点,时序数据库采用了特定的数据结构和算法,如LSM树(Log-Structured Merge-Tree)。 2. **高效...

    深度解读!时序数据库HiTSDB:分布式流式聚合引擎

    于此同时,在公有云客户使用HiTSDB的过程中,发现了越来越多由于聚合查询导致的问题,比如:返回数据点过多会出现栈溢出等错误,聚合点过多导致OOM,或者无法完成聚合,实例完全卡死等等问题。这些问题主要由于原始...

    HBase专场:HBase在时序数据库中的应用(悠你).pdf

    在本文档中,专家悠你123深入探讨了HBase在时序数据库中的应用,以下是从文档标题、描述和部分内容中提取的详细知识点。 HBase是一种分布式、可扩展的存储系统,它基于Google的Bigtable模型,专为Hadoop设计,提供...

    时序数据库.rar

    3. **压缩存储**:由于时间序列数据往往具有很强的相似性,时序数据库会使用特定的压缩算法减少存储空间,提高读取效率。 4. **查询优化**:支持针对时间范围、时间窗口、滑动窗口等复杂的查询操作,便于进行实时...

    阿里 为物联网而生-高性能时间序列数据库

    阿里云栖大会中介绍的阿里高性能时间序列数据库HiTSDB,是专门为物联网(IoT)设计的数据库解决方案,它针对物联网应用中的大规模、高频率数据处理需求进行了优化。时间序列数据库是一种专门处理时间序列数据的数据库...

    8-2.边云融合的时序数据库实践.pdf

    边云融合的时序数据库实践.pdf”主要探讨了边云融合背景下时序数据库的应用和优化。时序数据库是专门针对时间序列数据设计的,广泛应用于物联网(IoT)设备监控、互联网业务监控等领域。本文档由百度智能云物联网主任...

    时序数据库.docx 数据顺序追加

    时序数据库的核心特性包括时间戳的精确度(如秒、毫秒或纳秒)、数据的顺序追加以及多维关联。 数据特性方面,时序数据往往以顺序追加的形式产生,这意味着新的数据点总是按照时间顺序添加。数据可多维关联意味着每...

    DTCC阿里云TSDB拥抱物联网的新一代时序时空数据库老滚.pdf

    结合阿里云的其他大数据和人工智能服务,TSDB可以进一步实现数据的价值最大化,例如通过机器学习算法预测设备故障,优化资源配置,提升用户体验和运营效率。 总之,阿里云TSDB是面向物联网时代的新一代时序时空...

    工业大数据-时序数据库的现状与未来.pdf

    当前流行的关系型数据库在处理时序数据时存在一些问题,如速度慢、单点障碍、高可靠的成本太高、扩容、升级不容易等。NoSQL、NewSQL数据库可以解决高可靠问题,但设计是针对非结构化数据设计的,不支持常用的数据...

    阿里云 专有云企业版 V3.12.0 时序时空数据库 技术白皮书 20200622

    阿里云专有云企业版V3.12.0的时序时空数据库技术白皮书主要探讨了专门针对处理时间序列和空间数据的数据库技术。时序时空数据库是一种专门优化来存储和处理随着时间推移而变化的数据,以及与地理位置相关的数据的...

    阿里云 专有云企业版 V3.12.0 时序时空数据库 开发指南 20200702

    阿里云专有云企业版V3.12.0的时序时空数据库开发指南主要针对的是在阿里云平台上使用特定版本的时序时空数据库的开发者和管理员。此指南提供了详细的操作和开发指导,帮助用户更好地理解和利用这个数据库系统。时序...

    CeresDB 是一款高性能、分布式、Schema-less 的云原生时序数据库,能够同时处理时序型以及分析型负载

    CeresDB是一款专为应对高性能、分布式环境设计的云原生时序数据库,其核心特性在于其Schema-less架构,能够灵活适应不断变化的数据模式,并且能够同时高效地处理时序型数据和分析型数据,这在数据库领域具有显著的...

    阿里云 专有云企业版 V3.12.0 时序时空数据库 产品简介 20200622

    总结来说,阿里云专有云企业版 V3.12.0 时序时空数据库是一款专为处理时序和时空数据设计的企业级数据库产品,具备高性能、高可用和高扩展性,适用于需要实时分析和监控的场景,同时提供了完善的法律声明和使用指南...

    TSDB时序时空数据库技术架构.pptx

    6. 云时序数据库:TSDB技术架构采用了云时序数据库架构,能够满足时序时空数据的存储和处理需求。 7. 阿里云TSDB:TSDB技术架构采用了阿里云TSDB,能够满足 IoT 场景深度定制的需求。 8. 云边一体化架构:TSDB技术...

    阿里云 专有云企业版 V3.12.0 时序时空数据库 用户指南 20200622

    阿里云专有云企业版V3.12.0中的时序时空数据库是一款针对时间序列数据存储和管理的专业数据库服务。这款数据库系统专门设计用于处理大量按照时间戳排序的数据,如传感器数据、日志记录、监控指标等。时序时空数据库...

    一款支持 KV 数据和时序数据的超轻量级数据库

    FlashDB 是一款超轻量级的嵌入式数据库,专注于提供嵌入式产品的数据存储方案。与传统的基于文件系统的数据库不同,FlashDB 结合了 Flash 的特性,具有较强的性能及可靠性。并在保证极低的资源占用前提下,尽可能...

    RRD时序数据库实现C源码

    RRD(Round Robin Database,循环记录数据库)是一种用于存储时间序列数据的轻量级数据库,由Tobi Oetiker在1998年创建。它主要用于监控网络设备、服务器性能等,通过定期收集数据并存储在高效的数据结构中,便于...

Global site tag (gtag.js) - Google Analytics