大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类。其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。
复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。
基于历史数据的交互式查询(interactive query),通常的时间跨度在数十秒到数分钟之间。
基于实时数据流的数据处理(streaming data processing),通常的时间跨度在数百毫秒到数秒之间。
实时计算,强调的是实时。
比如小明要查看他去年一年的消费总额度,那么当小明点下统计按钮的时候,服务器集群就在噼里啪啦的赶紧计算了,必须在小明能够忍耐的时间范围内得出结果。这种计算的背后实现,一般都是冗余 + 各种高性能部件在做支撑,算法也对实时性做了优化,但实时计算并没有强调用那种算法,只要能保证高实时性的就行。实时计算与离线计算的最大区别,就是离线计算是人无法忍耐的时间进行计算,因此人不需要等待,把任务丢给计算机后,自己该干嘛就去干嘛。
流式计算,比实时计算要稍微迟钝些,但比离线计算又实时的多,而且主要强调的是计算方法。
比如,服务器端,有一个值,是记录小明订单数量。当小明每买一件东西后,服务端立即发出一个交易成功的事件,该值接收到这个事件后就立即加1。如果用离线计算的方式来做,估计是在查询时,才慢腾腾的从低速存储中,把小明的所有订单取出来,统计数量。流式计算有点像数据库领域的触发器,又有些像事件总线、中间件之类的计算模式。
1、什么是流式大数据,处理技术、平台及应用都是什么?
http://www.duozhishidai.com/article-905-1.html
2、Spark Streaming:大规模流式数据处理
http://blog.csdn.net/lskyne/article/details/37560609
3、什么是流式数据访问?
https://www.zhihu.com/question/30083497
4、流式计算和实时计算有什么区别?
https://www.zhihu.com/question/38996005
相关推荐
本文提出了一种基于SQL语义的流式数据总线行列级数据访问控制方式,提供细粒度化实时数据访问机制,在满足实时数据快速访问的同时保障数据的安全性。该方法基于业界流行的高吞吐开源消息中间件Kafka,提出了系统的...
流式数据处理是一种针对连续数据流进行实时分析的技术。与传统的批处理不同,流式处理着重于即时处理,能够在数据到达的同时对其进行分析,从而实现实时洞察。这种处理方式广泛应用于实时监控、网络安全、物联网等...
它允许用户在同一平台上处理实时流数据和批量历史数据,降低了系统复杂性,提高了数据处理的实时性和一致性。这对于实时监控、在线分析以及历史数据的离线处理场景尤其有用。 ### 高度可扩展与容错 bboss-datatran ...
1. 机器学习的概念和分类:机器学习是指通过统计大量的历史数据,通过算法生成经验模型,利用经验模型来指导业务。机器学习可以大致分为三类:有监督学习、无监督学习和增强学习。 2. 流式机器学习算法:流式机器...
"基于窗口的流式数据缺失处理方法"是针对实时或近实时数据流处理中遇到的数据不完整问题的一种策略。这类方法旨在有效地处理由于网络延迟、传感器故障或其他原因导致的数据丢失或缺失,确保数据质量和分析的准确性。...
基于规则的流式数据处理方法是现代企业管理和运营中的一种高效工具,特别是在实时分析、快速响应和智能决策方面具有显著优势。本文档将深入探讨如何构建一个统一监控平台,该平台能够处理大量流式数据并根据预设规则...
流式数据处理是大数据处理技术的一个重要分支,其核心在于高效地管理和处理实时产生的数据流。流式数据处理技术广泛应用于现代大数据场景,例如金融交易分析、网络监控、物联网数据采集等领域。在这些场景中,数据...
这与传统的离线数据分析模式有很大不同,后者往往依赖于历史数据的批量处理,无法实现对实时市场动态的快速响应。 文档的描述部分重复了标题内容,表明了文档核心讨论的内容。而在标签部分,则指明了本文档可能会...
1. 高效数据处理:实时历史数据库能快速地接收、存储并处理大量的流式数据,确保数据的即时性和准确性。 2. 大容量存储:由于需要保存历史数据,此类数据库通常具备大规模存储能力,可以容纳海量的数据记录。 3. ...
在数据湖中,事务隔离(ACID)保证了数据的一致性和完整性,时间旅行(Time Travel)则允许用户回溯到历史数据状态。流批一体意味着数据湖能够同时处理流式和批处理任务,这种能力在Arctic数据湖中得到了体现。...
在Android开发中,流式布局(FlowLayout)是一种常见的布局方式,尤其在实现类似电商应用的搜索历史界面时,它的灵活性和可定制性使得它成为首选。"仿京东 搜索历史 流式布局.zip" 文件包显然是为了展示如何在...
- **病虫害管理**:结合历史数据和当前环境条件,预测病虫害发生风险。 通过以上详细解析,我们可以看到精准农业与流式农业数据融合的重要性及其在农业生产中的广泛应用。这些技术和方法不仅能够显著提高农业生产...
《面向批量和流式大数据集成的通用多模式体系结构》这篇论文主要探讨了在大数据集成领域如何处理批量和流式数据的问题。随着信息技术的发展,大数据正以极快的速度从各种异构数据源产生,涵盖了文本、图像、视频、...
标题中的“利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka”是一项数据集成任务,涉及...这种架构在大数据分析和实时数据处理中非常常见,能够满足不同的业务需求,如历史数据分析、实时监控和快速响应等。
实时数据区是指用于存储实时数据的存储区域,通常用于存储流式数据或高频率数据,以便支持实时数据分析和处理。实时数据区可以是基于内存的,也可以是基于磁盘的,取决于具体的业务需求和系统设计。 公共汇总数据 ...
Hadoop适合批量处理历史数据,而Storm则擅长实时处理连续的数据流。Hadoop的MapReduce模型在磁盘I/O上花费较多时间,而Storm的计算在内存中进行,更适合低延迟需求。 5. 应用场景 Storm广泛应用于实时数据分析、...
离线开发使用如MapReduce、Spark等技术处理批量历史数据,而实时开发则利用Storm、Flink等工具处理源源不断的流式数据,以实现毫秒级响应。此外,算法开发涉及到预测处理和模型训练,为业务决策提供支持。 数据体系...
2. `SearchHistoryAdapter`:适配器类,用于将搜索历史数据绑定到列表组件。 3. `MainActivity`:主活动,展示了流式标签和搜索历史的集成。 4. `database`或`data`目录:包含了数据存储的相关类,如SQLite数据库...
而分布式处理主要有三种类型:批量数据处理、基于历史数据的交互式查询和基于实时数据流的数据处理。 实时数据流处理,或称为流式计算,涉及源源不断的到来的数据或事件,处理系统必须能够迅速应对。在天文观测的...