流星实时数据开发平台
一个实时地干离线的活的流式计算平台!
基于hive sql,能进行任何复杂业务的sql运算。
UV,PV,新UV,跟踪类指标,在线时长、在线人数等等,都可以算。并且是0误差。
本平台已用每天几十亿行的数据验证通过。
源码地址:https://github.com/meteorchenwu/meteor
一、特点
1、支持任何量级的0误差去重。
2、支持任何量级的大表join。
3、基于hive sql,支持创建中间表。
4、分钟级时延,一般为2分钟。(依赖于spark stream去kafka取数据的间隔频次)
二、使用技术
1、框架:kafka,spark-stream,spark-sql,redis集群,cassandra(可选),mysql
2、开发语言:java,scala
三、示意图
1、系统按固定间隔(如1min)去kafka拉数据,叫时间片数据。
2、系统将各时间片数据转换成表,基于hive sql进行运算。
3、系统对各时间片数据独立无干扰进行运算。每个表系统都会自动加上当前时间片的uuid。
4、通过函数:c_sum,c_distinct,c_join,c_max和c_min。利用redis或cassandra,对所有时间片进行全局运算。
四、SQL帮助文档
五、demo安装示例
demo安装
demo示例
六、问题
查看详情
相关推荐
为此我们为Spark开发者提供一套可以完成任务提交、数据接入、任务监控、任务报警、错误日志查看的一体化实时计算的开发平台real-time computing service。通过我们的平台可以: 自助本地提交任务;jar包版本维护在...
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
在"日志类平台需要实时计算,有完整的预警策略,通知技术人员"这个场景中,我们可以深入探讨流式计算的核心概念、应用以及与之相关的技术。 首先,实时计算的关键在于快速响应和处理数据,它允许系统在数据产生时...
流式计算组件Spark Streaming是Apache Spark的一个扩展模块,用于实现实时数据流处理。它将流式计算分解成一系列短小的批处理作业,这样的设计让Spark Streaming可以使用Spark引擎的大部分功能。Spark Streaming提供...
系统设计利用了Spark Streaming的特性,实现了高效的数据接入、传输、计算校验和存储,满足了实时数据处理的需求。系统的设计能够获取实时数据,进行实时计算,并将结果实时存储,为后续从实时数据中提取有效信息...
总之,“Spark流式计算电商商品关注度”项目是一个理想的实践平台,它结合了理论知识与实际操作,帮助开发者提升在实时大数据处理领域的技能。通过深入理解和复现这个项目,你将能够更好地运用Spark Streaming解决...
本项目“基于Spark的电商商品智能分析系统”充分利用了大数据处理技术,通过流式计算电商商品的关注度,实现商品的智能推荐和关联分析,为商家提供更精准的营销策略,提升用户体验。 一、Spark框架介绍 Spark是...
通过这些知识点,我们可以了解大数据技术在处理地震数据中的应用、流式计算的重要性和实现方式,以及如何通过大数据处理框架如Spark来实现地震数据的实时分析和可视化。此外,文档还提供了实操中所需的技术细节和...
首先,文章介绍了流式处理相关概念,分析了流行的流式计算技术,并结合电信运营商需求提出了一套基于流式计算的DPI数据处理方案,应用于实际项目中以满足电信运营商对数据处理实时性的需求。通过实际应用,将DPI数据...
流式计算是一种处理连续、实时数据流的计算模型,它能够对源源不断的数据进行即时分析,并提供实时结果。在地震大数据场景下,流式计算可以实现实时地震监测、地震预警以及灾后评估等功能。这种技术的关键在于其低...
Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLlib用于机器学习,Spark GraphX用于图计算。 Spark主要用于大数据的...
流式计算与传统批处理相比,能够实时处理数据流,其数据处理过程通常被分解为几个阶段,形成一个有向无环图或拓扑结构。这种数据处理方式能够应对源源不断的流式数据,并将它们分成不同的阶段进行处理。在原语设计...
2. **流式计算**:在电商环境中,商品关注度的数据是不断产生的,因此需要流式计算来实时处理这些动态数据。Spark Streaming是Spark的一个模块,可以将数据流分成小批次处理,从而实现近实时的计算。 3. **商品关注...