什么是实时流式计算:
实时流式计算是实时计算和流式计算的叠加。
实时计算:响应时间受到实时约束的计算,时间约束很短,以秒,毫秒为单位
流式计算:在不断产生的数据流上进行的计算
数据流由基本数据单元组成
数据流不断产生,没有尽头,计算结果也不断产生/更新
实时流式计算:在不断产生的数据流上的实时计算,输入数据流式不断产生的没有尽头的,计算结果的产生时间相对于数据流入的时间是实时的。
实时流式计算特点:
1.流式处理,数据不断流入,流出,与批处理相对,例如:动态刷新的PV线,每日PV统计报表
2.时效性高,很快得到结果,这里的快是相对的,相对于业务需求足够快,相对于其他技术如批处理足够快
适合场景:
1.实时流式数据分析,例如实时统计,实时预警
2.实时ETL,例如实时日志过滤以及标准化
3.持续计算,例如新闻自动发现分析
关键技术点:
系统架构(单机架构,分布式架构,master-slave)、延迟吞吐、编程模型(为开发者提供简单的编程方式和接口,将重点放在业务上,提高开发速度)、数据传输、高可用性(保证系统稳定的运行)、可维护性(当大量的工作自动来做,说明系统的可维护性高)
常见的实时流系统:
MQ加Worker进程,S4,SparkStreaming,Strom
Storm的计算模型:
DAG模型:spout/bolt/tuple/stream/grouping
Storm的系统架构:
nimbus/supervisor/woker/executor/zk
相关推荐
通过一段时间storm的学习,对storm做了一个简单的总结,希望能够帮助大家了解、学习storm
- **使用Strom开发一个WordCount例子**:通过一个简单的WordCount示例学习Storm的使用。 - **Storm程序本地模式debug、Storm程序远程debug**:调试Storm程序的技巧。 - **Storm事物处理**:实现事务性的数据处理流程...
在这个练习中,我们将学习如何使用LTspice模拟一个Astable Multivibrator电路。首先,我们需要打开LTspice软件,并创建一个新的项目。然后,我们可以使用LTspice的编辑器来绘制电路图,并添加所需的元件。 信号分部...
1. **Hadoop简介与安装入门**:这部分内容介绍了Hadoop的基本概念,包括其设计理念和架构,以及如何在系统上安装和配置Hadoop环境。对于初学者,这是理解Hadoop的基础。 2. **MapReduce**:MapReduce是Hadoop的主要...
教育经历(EDUCATION)列出了求职者的学历和学习时间,例如“LICENCE IN PROGRAMATION - ALEX SCHOOL”表明了在编程领域的学术背景。 工作经历(WORK EXPERIENCE)部分详细列举了求职者的实习或全职工作,如SEO ...
通过以上介绍,我们不仅学习了如何使用 Python 的 `difflib` 库来比较两段文本的不同之处,还了解了一些高级功能的应用。这些技能对于日常工作中的文本处理非常有用,无论是进行代码审查还是文档对比,都能大大提高...
Storm 常用组件和编程 API 是分布式集群技术的基础,Topology、Spout、Bolt、Storm 分组策略(stream groupings)、Storm 项目 maven 环境搭建、使用 Strom 开发一个 WordCount 例子、Storm 程序本地模式 debug、...