个人博客总是访问不了,原文:实时计算应用场景
实时计算的概念很难定义,每个人对这四个字的理解可能都不同。个人观点主要分为两块:数据的实时入库和数据的实时计算。
数据实时入库的时候,一般都需要对原始数据做一定的处理再入库。能在这个步骤计算尽量在这里完成。 这个类似数据的预算后入库,然后提供直接读取服务。对用户的延时性上最好。
然而有一些对数据的计算并不能通过预算解决全部问题,比如搜索。这篇主要讲实时计算的应用场景,技术架构、实现细节以后写。
实时计算比较常在数据分析类应用中出现,由于数据分析时刷选条件多样性与多变性,使数据无法预算,所以只能通过后期的实时计算。
Facebook的实时系统中大量应用到了hadoop、hbase。
他们的项目需求主要有:
1. Elasticity(伸缩性)
2. High write throughput(高写吞吐量)
3. Efficient and low-latency strong consistency semantics within a data center(单个data center内高性能、低延迟的强一致性)
4. Efficient random reads from disk(disk的高性能随机读)
5. High Availability and Disaster Recovery(高可靠性、灾后恢复能力)
6. Fault Isolation(错误隔离)
7. Atomic read-modify-write primitives(read-modify-write原子操作)
8. Range Scans(范围扫描)
Facebook对HBase、HDFS做了大量优化,但毕竟是基于MapReduce(IO是硬伤),再优化也无法达到互联网应用级别的响应延时。用户搜索“2011手机” 又选择了属性:智能机、直板,想看这个月满足这些条件的交易在不同省份的分布。如果过个10s以上才返回数据分析结果,我都不好意思说自己是做互联网的。
上面的是Facebook实时分析系统的需求,我们的实时计算系统的主要需求如下:
1、海量数据
2、提供各类计算
3、支持任何条件的搭配
4、实时响应(秒级)
5、结果精确
所以我们需要放弃MapReduce的思想,自己设计新的计算架构。 乍一看需求,和搜索很类似。的确,实时计算中大量用到了搜索技术。
与搜索的主要区别:
目的不同:搜索的目的是排序、实时计算的目的是汇总计算
结果不同:搜索返回的是list、实时计算返回的是计算的精确结果
读取数据不同:搜索可以根据权重取topN的数据做排序、实时计算需要获取所有满足条件的数据做计算。
想象一个应用场景(假设我需要的属性都能获得):
1、我想知道昨天访问我博客的访问量 —> 这个很简单,根本不需要实时计算
2、我想知道昨天来自每个省份对我博客的访问量 —> 这个也简单,我提前把每个省的访问量都预算好就行了
3、我想知道昨天来自每个省份不同性别的访问量分布 —> 这个也不难,也就36*2 = 72条记录,我也提前预算好了。
4、我想知道昨天来自每个省份不同性别不同年龄的访问量分布 —-> 有点够呛,不过也不难 ,继续预算
5、我想知道昨天来自每个省份不同性别不同年龄不同职业的访问量分布 —> 数据量开始膨胀,预算时间也开始变久,数据已经快上亿级别了。而且你会发现,很多组合的预算都是没有意义的,比如 “上海+女+99岁+狙击手”、“西藏 + 女 + 屠夫” 这样的查询组合根本不可能有数据。
6、我想知道昨天来自每个省份不同性别不同年龄不同职业不同名族的访问量分布 —> 不考虑预算了,数据量早就上亿了,而且很多计算都是没有意义的。So 实时计算的作用发挥了。
总结下:
当数据量很大,同时发现无法穷举所有可能条件的查询组合 或者 大量穷举出来的条件组合无用的时候是实时计算最佳的应用场景。
分享到:
相关推荐
流式计算的应用场景广泛,包括但不限于: 1. **实时监控**:通过对服务器日志、网络流量等数据实时分析,可以实时监控系统的健康状况,及时发现性能瓶颈或异常行为。 2. **预警策略**:基于实时数据,设定阈值和规则...
四、实时计算应用场景 1. 金融风控:实时监测交易行为,及时发现异常,防止欺诈。 2. 物联网分析:监控设备数据,实时预测故障,优化运营。 3. 在线广告:基于用户行为实时调整广告投放策略,提高点击率。 4. 社交...
《2019年云计算与边缘计算协同九大应用场景》白皮书是一份深入探讨现代信息技术领域融合的重要文献,尤其在2019年的背景下,云计算和边缘计算的结合正在为各行各业带来革命性的变革。这份报告详细阐述了这两种技术...
### 云计算与边缘计算协同九大应用场景 #### 一、引言 随着信息技术的快速发展,云计算与边缘计算成为了当今数字化转型的重要驱动力。特别是在工业互联网、5G等新兴技术的推动下,云边协同逐渐成为主流趋势。本...
HC1309126 OceanStor 9000高性能计算应用场景最佳实践.ppt
车路协同网络需求研究+高速公路边缘计算应用场景(2022年).pdf
车路协同网络需求研究+城市边缘计算应用场景(2022年).pdf
运营场景是快手基于 Flink 的实时计算平台的应用场景,主要包括数据大屏支持、直播看板支持、数据策略榜单等。解决方案包括使用 Flink 的实时计算和流处理能力,基于 Watermark 的窗口机制,cumulate window 机制等...
边缘计算是近年来在信息技术领域备受关注的技术之一,尤其在5G网络的发展中,它与物联网(IoT)的结合更是催生了丰富的应用场景。本报告聚焦于"5G边缘计算将助力物联网场景应用"这一主题,深入探讨了5G边缘计算在...
以下是九大应用场景中云计算与边缘计算的协同应用: 1. 自动驾驶:在自动驾驶场景中,车辆需要快速处理来自各种传感器的数据,进行实时决策。边缘计算可以处理这些数据,确保安全驾驶,而云计算则用于处理大量历史...
实时计算应用场景 顺丰集团的业务场景非常复杂,涵盖了快递物流、同城即时配送、国际冷链医药仓配一体增值服务供 应 链 综 合 物 流等多个领域。为了支撑这些业务场景,顺丰集团需要一个强大的实时计算平台来处理...
【OpenMLDB在实时特征计算场景的应用】 OpenMLDB是一个专为实时特征计算设计的数据库系统,它在处理大规模数据的实时分析和特征工程方面表现出色。本篇内容将介绍OpenMLDB如何在Akulaku这个电商+金融科技平台中解决...
实时计算引擎在贝壳的应用与实践主要涉及到了大数据架构,实时数据处理、流式计算平台的构建,以及Apache Flink这一开源流处理框架在实际业务场景中的应用。下面详细介绍文章中涉及到的知识点: 1. 大数据架构与...
该架构使得开发者能够快速地开发出实时计算应用,满足大数据时代的需求。 大数据实时计算的挑战 大数据实时计算面临着许多挑战,例如数据规模庞大、实时性要求高、计算资源有限等。Flink SQL架构介绍了如何使用...
边缘计算的应用场景和需求 边缘计算是指在网络边缘近距离处理和分析数据的技术和架构。随着5G、物联网、人工智能等技术的发展,边缘计算的应用场景日益广泛。以下是边缘计算的十一个应用场景和需求: 1. 医疗 ——...
2019 年边缘计算备受产业关注,一度引起了资本市场的投资热 潮,很多人把 2019 年称作边缘计算的元年。理性来看,造成如此火 爆局势难免有一些炒作因素在推波助澜,毕竟边缘计算的概念存世也 已多年。当然,毋庸置疑...
云计算与边缘计算协同九大应用场景(2019年-工信部信通院权威发布).rar