`

Strom学习(一)----简介

 
阅读更多

什么是实时流式计算:

实时流式计算是实时计算和流式计算的叠加。

    实时计算:响应时间受到实时约束的计算,时间约束很短,以秒,毫秒为单位

    流式计算:在不断产生的数据流上进行的计算

                      数据流由基本数据单元组成

                      数据流不断产生,没有尽头,计算结果也不断产生/更新

实时流式计算:在不断产生的数据流上的实时计算,输入数据流式不断产生的没有尽头的,计算结果的产生时间相对于数据流入的时间是实时的。

实时流式计算特点:

1.流式处理,数据不断流入,流出,与批处理相对,例如:动态刷新的PV线,每日PV统计报表

2.时效性高,很快得到结果,这里的快是相对的,相对于业务需求足够快,相对于其他技术如批处理足够快

适合场景:

1.实时流式数据分析,例如实时统计,实时预警

2.实时ETL,例如实时日志过滤以及标准化

3.持续计算,例如新闻自动发现分析

 关键技术点:

系统架构(单机架构,分布式架构,master-slave)、延迟吞吐、编程模型(为开发者提供简单的编程方式和接口,将重点放在业务上,提高开发速度)、数据传输、高可用性(保证系统稳定的运行)、可维护性(当大量的工作自动来做,说明系统的可维护性高)

 

常见的实时流系统:

MQ加Worker进程,S4,SparkStreaming,Strom

 

Storm的计算模型:

DAG模型:spout/bolt/tuple/stream/grouping

 

Storm的系统架构:

nimbus/supervisor/woker/executor/zk

 

 

       

分享到:
评论

相关推荐

    kafka-and-strom-event-processing-in-realtime-131023085422-phpapp01.pdf

    kafka-and-strom-event-processing-in-realtime-131023085422-phpapp01.pdf

    strom-core-1.0.2

    这个是strom 1.0.2 的jar 包,版本比较老了,但是还是

    GPU数据库PG_strom的安装及使用

    #### 二、PG_strom数据库简介 **PG_strom** 是一个基于 PostgreSQL 的扩展,它允许用户通过自定义扫描方式将原本由 CPU 执行的数据处理任务转移到 GPU 上处理。这样做的好处在于能够充分利用 GPU 强大的并行执行能力...

    pg_strom:PostgreSQL 的 FDW 模块使用 GPU 进行异步超并行查询执行

    然后,从pg_strom-master源代码构建并安装扩展。安装完成后,需要在PostgreSQL服务器配置中启用PG-Strom,并创建相应的FDW对象以利用GPU功能。 **性能提升实例** PG-Strom在执行大规模数据集上的聚合、窗口函数和...

    strom学习笔记.md

    strom学习笔记

    strom的jar包

    strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的jar包strom的...

    postgresql数据库插件PG-Strom中Scan算子执行流程分析

    PG-Strom是一款针对PostgreSQL数据库的高性能计算扩展,它利用GPU(图形处理器)的并行计算能力,优化数据库的查询处理,尤其是在大数据量和复杂计算场景下表现优越。PG-Strom的核心是将部分数据库操作转移到GPU上...

    Strom流处理的基础知识总结

    1. "Storm学习":可能是一个教程文档或课程,包含Strom的基础概念和实践案例,适合初学者。 2. "Stormѧϰ":可能是一份进阶资料,如源码分析或高级应用,帮助理解Strom内部机制和优化技巧。 通过深入理解和掌握...

    WebService接口测试工具—Strom

    - **用户友好**:Strom界面简洁,操作直观,使得开发者无需复杂的学习过程即可上手。 - **快速测试**:只需输入接口URL和参数,即可快速发送请求并获取响应,大大提高了测试效率。 - **多种请求类型**:支持GET、...

    Strom项目依赖

    标题中的"Strom项目依赖"指的是Apache Storm项目在开发过程中所依赖的各种库文件,这些文件通常是Java Archive (JAR) 文件,用于包含Java类和其他资源,使得不同项目可以在运行时共享代码。Apache Storm是一个分布式...

    Strom优化

    在IT行业中,"Strom优化"是一个非常关键的主题,特别是在大数据处理和实时计算领域。Storm是一个开源的分布式实时计算系统,由Twitter开发并贡献给Apache软件基金会。它被设计用来处理无界数据流,能够持续地处理...

    Strom webService测试工具

    在IT行业中,Web服务测试是确保应用程序质量的重要环节,而Strom webService测试工具就是一款专为此目的设计的高效工具。与广为人知的soapUI相比,Strom可能提供了独特的特性和优势,使得一些用户更倾向于选择它。 ...

    strom 部署文档资料

    strom zookeeper kafka 部署文档 原理解析

    pg-strom, PG Strom开发知识库.zip

    pg-strom, PG Strom开发知识库 pgpg strom是PostgreSQL数据库的定制扫描提供程序模块。 它是用于使用GPU设备进行accelarate顺序扫描,hash-基于表的Join 和聚合函数。 它的基本概念是CPU和GPU应该集中在它们具有优势...

    Apache Storm(apache-storm-2.3.0.tar.gz)

    Apache Storm 有很多用例:实时分析、在线机器学习、连续计算、分布式 RPC、ETL 等等。Apache Storm 速度很快:基准测试显示每个节点每秒处理超过一百万个元组。它具有可扩展性、容错性,保证您的数据将得到处理,...

    超级简单入门的strom的java代码demo

    Apache Storm是一个开源的分布式实时计算系统,它允许开发者处理无界数据流,具有高容错性和可扩展性。本示例项目适用于Java开发者,特别是初学者,帮助他们快速上手Storm。 【描述】中的信息表明,此压缩包包含了...

    Strom,kafka学习笔记

    排版紧凑易于阅读,笔记详细适合初学者下载学习,有详细的实践代码和说明,欢迎下载学习

    storm-kafak相关jar

    Apache Storm是一个开源的流处理系统,它能够实时处理数据流,而Apache Kafka是一个分布式流处理平台,用于构建实时数据管道和流应用。这两者的结合使得实时数据可以从Kafka的发布/订阅消息系统中被消费,并在Storm...

Global site tag (gtag.js) - Google Analytics