`
乱蓬头199303
  • 浏览: 81612 次
文章分类
社区版块
存档分类
最新评论

时间序列数据的存储和计算 - 概述

阅读更多
摘要: 什么是时间序列数据   什么是时间序列(Time Series,以下简称时序)数据?从定义上来说,就是一串按时间维度索引的数据。用描述性的语言来解释什么是时序数据,简单的说,就是这类数据描述了某个被测量的主体在一个时间范围内的每个时间点上的测量值。

什么是时间序列数据

  什么是时间序列(Time Series,以下简称时序)数据?从定义上来说,就是一串按时间维度索引的数据。用描述性的语言来解释什么是时序数据,简单的说,就是这类数据描述了某个被测量的主体在一个时间范围内的每个时间点上的测量值。
  对时序数据进行建模的话,会包含三个重要部分,分别是:主体,时间点和测量值。套用这套模型,你会发现你在日常工作生活中,无时无刻不在接触着这类数据。

如果你是一个股民,某只股票的股价就是一类时序数据,其记录着每个时间点该股票的股价。
如果你是一个运维人员,监控数据是一类时序数据,例如对于机器的CPU的监控数据,就是记录着每个时间点机器上CPU的实际消耗值。
  这个世界是由数据构成的,在这个世界上存在的每个物体,每时每刻都在产生着数据。而对这些数据的挖掘和利用,在这个时代,正在默默的改变人们的生活方式。例如通过可穿戴设备对个人健康的管理,就是通过设备不断采集你的个人健康数据,例如心跳、体温等等,收集完数据后套用模型计算来评估你的健康度。
  如果你的视野和想象空间足够大,你会发现你能够挖掘并利用的数据充斥在你所生活的环境中。这些能够产生数据的对象,会包括你的手机、汽车、空调、冰箱等等。当前比较火热的物联网的核心思想,其实就是构建一个可以让所有物体生产数据并挖掘其价值的网络。而通过这个网络采集的数据,就是典型的时序数据。
  时序数据用于描述一个物体在历史的时间维度上的状态变化信息,而对于时序数据的分析,就是尝试掌握并把控其变化的规律的过程。随着物联网、大数据和人工智能技术的发展,时序数据也呈一个爆发式的增长。而为了更好的支持这类数据的存储和分析,在市场上衍生出了多种多样的新兴的数据库产品。这类数据库产品的发明都是为了解决传统关系型数据库在时序数据存储和分析上的不足和缺陷,这类产品被统一归类为时序数据库。



  从DB-Engines的数据库类别流行度趋势榜上可以看到,时序数据库(Time Series DB)的流行度在最近的两年内,一直都是保持一个很高的增长趋势。
  接下来我会写几篇文章,分别来分析:
  1. 时序数据的基本概念,包括模型、特性和基本的查询和处理操作。
  2. 几个流行开源时序数据库的底层实现分析
  3. 阿里云表格存储(TableStore)的时序数据存储和计算解决方案

时间序列数据的特性

  对于时序数据的特点的分析,会从数据的写入、查询和存储这三个维度来阐述,通过对其特点的分析,来推演对时序数据库的基本要求。

数据写入的特点

写入平稳、持续、高并发高吞吐:时序数据的写入是比较平稳的,这点与应用数据不同,应用数据通常与应用的访问量成正比,而应用的访问量通常存在波峰波谷。时序数据的产生通常是以一个固定的时间频率产生,不会受其他因素的制约,其数据生成的速度是相对比较平稳的。时序数据是由每个个体独立生成,所以当个体数量众多时,通常写入的并发和吞吐量都是比较高的,特别是在物联网场景下。写入并发和吞吐量,可以简单的通过个体数量和数据生成频率来计算,例如若你有1000个个体以10秒的频率产生数据,则你平均每秒产生的并发和写入量就是100。
写多读少:时序数据上95%-99%的操作都是写操作,是典型的写多读少的数据。这与其数据特性相关,例如监控数据,你的监控项可能很多,但是你真正去读的可能比较少,通常只会关心几个特定的关键指标或者在特定的场景下才会去读数据。
实时写入最近生成的数据,无更新:时序数据的写入是实时的,且每次写入都是最近生成的数据,这与其数据生成的特点相关,因为其数据生成是随着时间推进的,而新生成的数据会实时的进行写入。数据写入无更新,在时间这个维度上,随着时间的推进,每次数据都是新数据,不会存在旧数据的更新,不过不排除人为的对数据做订正。
http://click.aliyun.com/m/23440/
分享到:
评论

相关推荐

    时间序列的索引

    时间序列数据在进行索引和比较前,通常需要进行标准化处理,以消除不同序列间量纲和范围的影响。正态分布假设下,时间序列经过标准化后,其值服从正态分布,这有助于后续的相似性计算和索引构建。 ### SAX—符号...

    DTW算法_chancel86_dtw_时间序列_动态时间规整_DTW时间序列_

    总结,DTW算法是一种强大的工具,尤其在处理非同步时间序列数据时,能够提供更为精确的相似度测量。通过MATLAB这一强大平台,我们可以轻松实现DTW算法,并将其应用于各种实际问题,提升数据分析的精度和洞察力。

    云计算在计算机网络安全存储中的应用——评《云存储安全:大数据分析与计算的基石》.pdf

    云计算是一种基于网络,利用互联网的共享资源和软件服务的计算方式,它可以提供弹性的、可扩展的计算服务。随着技术的发展,云计算在计算机网络安全存储中的应用越来越广泛,然而,随之而来的安全存储问题也备受关注...

    论文研究-时序数据挖掘概述 .pdf

    1. 数据量大:时间序列数据通常包含大量的数据点,对存储和计算能力提出了较高要求。 2. 数据维度高:时间序列可能不仅仅包含单一维度的数据,可能有多重变量同时记录。 3. 应用领域广泛:由于应用背景的多样性,...

    数据存储与恢复技术--实验考核与考查--第二部分

    #### 一、数据存储与恢复技术概述 数据存储与恢复技术是计算机科学中的一个重要分支,它涉及到如何高效、安全地存储数据以及在数据丢失或损坏时如何进行恢复的技术。这些技术对于保护重要信息、确保业务连续性和灾难...

    Oracle 10g数据仓库实践--数据仓库基础

    - 反映历史变化:数据仓库包含历史数据记录,支持时间序列分析。 #### 1.2 数据仓库与传统数据库的区别 - **数据组织方式**:数据仓库强调主题组织,而传统数据库强调事务处理。 - **数据特性**:数据仓库中的数据...

    【老生谈算法】非平稳时间序列突变检测的启发式分割算法(BG算法)MATLAB源代码.docx

    通过对序列进行逐步分割和评估,该算法能够识别出有意义的分割点,从而帮助用户更好地理解和分析复杂的时间序列数据。通过对该算法的深入理解,我们可以更准确地识别出时间序列中的重要变化点,为进一步的数据分析...

    阿里云 专有云企业版 V3.7.0 高性能时间序列数据库TSDB 技术白皮书 20181204.pdf

    此技术白皮书详细介绍了TSDB的产品特性和功能,旨在帮助用户理解如何利用该数据库高效地管理和分析时间序列数据。 1. **产品概述** TSDB是针对物联网(IoT)、监控系统、金融交易等领域大量时间戳相关的数据存储和...

    越南人口区域分布数据集(2000-2019).rar

    这些文件提供了一个详细的时间序列数据,反映了越南各地区在2000年至2019年间的年人口数量和分布情况。这个数据集对于了解越南的人口动态、城市化进程、区域发展以及政策规划等具有重要价值。 1. 数据集概述: - ...

    计算机系统-概述.pdf

    本文将概述计算机系统的基本组成部分,包括信息类型、编译过程、处理器工作原理、程序运行、缓存机制、存储设备层次结构以及操作系统的关键功能。 首先,计算机系统中的信息主要分为文本文件和二进制文件。文本文件...

    毕设&课程作业_基于eBPF收集操作系统信息,并使用时间序列模型进行智能化的异常情况检测.zip

    综上,这个项目旨在通过结合eBPF的高效数据收集能力和时间序列模型的智能分析,建立一个能实时监测并预警操作系统异常状况的系统。对于计算机专业的学生来说,这既是一次深入理解内核技术的实践,也是对数据分析和...

    数据结构习题--选择、填空、读图等题

    数据结构是指计算机中组织和存储数据的方式,它不仅包括数据的逻辑结构,还包括数据的物理结构以及对数据的操作。数据结构的选择直接影响到算法的效率,因此在设计算法时,选择合适的数据结构至关重要。 ### 线性表...

    计算机-组成原理(共35张PPT).pptx

    数据和指令都存储在内存中,控制器按照存储的指令序列执行操作。 3. **计算机系统的层次结构**:计算机系统从低到高可以分为硬件、固件、操作系统、系统调用库、编程语言和应用程序等层次,每个层次对上一层提供...

    Time-Series Data Mining Survey

    时间序列数据挖掘涉及的关键概念包括距离度量、数据索引、查询内容、序列匹配、相似度量、流分析和时间分析。距离度量用于比较两个时间序列之间的相似性;数据索引旨在有效地从大量时间序列中检索所需数据;查询内容...

    全球范围气象站点的逐年平均气温数据数据集(1929-2023年).txt

    1. **气候变化研究**:通过对长时间序列的数据分析,可以揭示气候变化的趋势和发展模式,为预测未来的气候变化提供科学依据。 2. **气候模型验证**:实际观测数据是验证气候模型准确性的重要工具。这些数据可以帮助...

    大学计算机基础_计算机与信息技术概述.ppt

    - 存储容量大:能存储海量的数据和程序。 - 精度高:能进行高精度的数值计算。 - 逻辑判断能力强:能够处理逻辑和条件判断。 - 自动化程度高:能自动执行预设的指令序列。 计算机通常按功能和规模分类,如巨型机、...

    利用Python进行数据分析_第二版中文1

    - **内容简介**:时间序列分析在金融、经济等领域尤为重要,本章专门讨论了时间序列数据的处理和分析。 - **核心知识点**: - 时间序列数据的基本概念 - 时间序列数据的处理 - 季节性调整 - 平稳性和非平稳性...

    N点离散傅里叶变换同时计算两个N点实序列的离散傅里叶变换

    本实验不仅展示了如何利用MATLAB实现通过一次N点DFT同时计算两个N点实序列的DFT,还证明了这种方法的有效性和准确性。此外,相比于直接使用两次DFT计算两个实序列的情况,这种方法可以节省计算资源,尤其是存储器...

Global site tag (gtag.js) - Google Analytics