`
ForNebula
  • 浏览: 3212 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

spark近实时流式计算平台

阅读更多

流星实时数据开发平台


一个实时地干离线的活的流式计算平台!
基于hive sql,能进行任何复杂业务的sql运算。
UV,PV,新UV,跟踪类指标,在线时长、在线人数等等,都可以算。并且是0误差。

本平台已用每天几十亿行的数据验证通过。 
源码地址:https://github.com/meteorchenwu/meteor


一、特点
    1、支持任何量级的0误差去重。
    2、支持任何量级的大表join。
    3、基于hive sql,支持创建中间表。
    4、分钟级时延,一般为2分钟。(依赖于spark stream去kafka取数据的间隔频次)

二、使用技术
    1、框架:kafka,spark-stream,spark-sql,redis集群,cassandra(可选),mysql
    2、开发语言:java,scala

三、示意图
    

 
    1、系统按固定间隔(如1min)去kafka拉数据,叫时间片数据。
    2、系统将各时间片数据转换成表,基于hive sql进行运算。
    3、系统对各时间片数据独立无干扰进行运算。每个表系统都会自动加上当前时间片的uuid。
    4、通过函数:c_sum,c_distinct,c_join,c_max和c_min。利用redis或cassandra,对所有时间片进行全局运算。

 

四、SQL帮助文档

    查看详情


五、demo安装示例
    demo安装
    demo示例

六、问题
    查看详情

 

  • 大小: 70.1 KB
分享到:
评论

相关推荐

    Spark实时计算的开发平台RCS_ 阿里流式分析实战

    为此我们为Spark开发者提供一套可以完成任务提交、数据接入、任务监控、任务报警、错误日志查看的一体化实时计算的开发平台real-time computing service。通过我们的平台可以: 自助本地提交任务;jar包版本维护在...

    spark流式计算处理

    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

    流式计算应用场景

    在"日志类平台需要实时计算,有完整的预警策略,通知技术人员"这个场景中,我们可以深入探讨流式计算的核心概念、应用以及与之相关的技术。 首先,实时计算的关键在于快速响应和处理数据,它允许系统在数据产生时...

    流式计算组件Spark Streaming使用

    流式计算组件Spark Streaming是Apache Spark的一个扩展模块,用于实现实时数据流处理。它将流式计算分解成一系列短小的批处理作业,这样的设计让Spark Streaming可以使用Spark引擎的大部分功能。Spark Streaming提供...

    Spark流式计算电商商品关注度内含源码以及说明书可以自己运行复现.zip

    总之,“Spark流式计算电商商品关注度”项目是一个理想的实践平台,它结合了理论知识与实际操作,帮助开发者提升在实时大数据处理领域的技能。通过深入理解和复现这个项目,你将能够更好地运用Spark Streaming解决...

    基于spark的电商商品智能分析系统,采用流式计算电商商品关注度,实现商品智能推荐及关联分析.zip

    本项目“基于Spark的电商商品智能分析系统”充分利用了大数据处理技术,通过流式计算电商商品的关注度,实现商品的智能推荐和关联分析,为商家提供更精准的营销策略,提升用户体验。 一、Spark框架介绍 Spark是...

    地震大数据流式计算研究.pdf

    通过这些知识点,我们可以了解大数据技术在处理地震数据中的应用、流式计算的重要性和实现方式,以及如何通过大数据处理框架如Spark来实现地震数据的实时分析和可视化。此外,文档还提供了实操中所需的技术细节和...

    基于流式计算的DPI数据处理方案及实践.pdf

    首先,文章介绍了流式处理相关概念,分析了流行的流式计算技术,并结合电信运营商需求提出了一套基于流式计算的DPI数据处理方案,应用于实际项目中以满足电信运营商对数据处理实时性的需求。通过实际应用,将DPI数据...

    地震大数据流式计算研究.zip

    流式计算是一种处理连续、实时数据流的计算模型,它能够对源源不断的数据进行即时分析,并提供实时结果。在地震大数据场景下,流式计算可以实现实时地震监测、地震预警以及灾后评估等功能。这种技术的关键在于其低...

    learning spark 中文版

    Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLlib用于机器学习,Spark GraphX用于图计算。 Spark主要用于大数据的...

    流式实时分布式计算系统的设计要点.pdf

    流式计算与传统批处理相比,能够实时处理数据流,其数据处理过程通常被分解为几个阶段,形成一个有向无环图或拓扑结构。这种数据处理方式能够应对源源不断的流式数据,并将它们分成不同的阶段进行处理。在原语设计...

    计算机课程毕设:基于spark的电商商品智能分析系统,采用流式计算电商商品关注度,实现商品智能推荐及关联分析.zip

    2. **流式计算**:在电商环境中,商品关注度的数据是不断产生的,因此需要流式计算来实时处理这些动态数据。Spark Streaming是Spark的一个模块,可以将数据流分成小批次处理,从而实现近实时的计算。 3. **商品关注...

    案例正文-基于Spark的实时攻击检测1

    本案例的关键问题为基于 Spark 的实时攻击检测,需引导学生进行的主要内容有:(1)搭建 Flume+Kafka 架构,连接 Spark Streaming 流式实时处理技术,完成日志实时解析的目标;(2)构建决策树和深度学习模型,选取...

Global site tag (gtag.js) - Google Analytics