去年在公司做一些实时数据分析的程序,基本上依靠的是分布式缓存系统(像我们公司的tair或者使用MongoDB这样的kv数据库),他们具备的原子递增功能可以用来作实时的计数。这种方式要是遇到复杂的统计规则,那么设计所需的key就变得异常困难。还有个最大的缺点,一旦分布式缓存系统发生异常或者重启的时候,你的计数就完全不准确了。
很早开始关注storm了,本来想山寨一个。最近找了几个公司里比较关注这方面的牛人聊了一下,大家觉得现有开源的实时数据处理的方案中就是它最靠谱了。因此,我准备好好用用storm,做几个经典的实时数据分析案例出来。
刚开始接触storm,第一份作业准备做一个简单例子,先在本地模式下跑。
我们假定有个交易系统,需要做一个针对每个ip订单创建量做实时统计(不知道这个规则是不是太简化了)。
在介绍怎么做之前,我们先来了解一些storm的基本概念:
Topologies
直译过来是拓扑结构的意思。它是storm里面描述一个实时程序的单位,有点像Hadoop的MapReduce Job。但也很不像,一个topology一旦启动就会一直在哪里运行着(除非你主动把它停止),而MapReduce Job一次跑完就结束了。topology其实就是描述了一个由spouts和bolts组成并通过流分组(stream grouping)方式连接的拓扑图。如下图所示:
。。。。
详细内容请访问我的新博客地址:
http://xiaofengmetis.com/?p=27
分享到:
相关推荐
Nimbus是Storm的作业调度器,类似于Hadoop的JobTracker,负责分配任务到各个节点。Supervisor是工作节点,接收Nimbus的任务,启动和管理Worker进程。每个Worker进程中可以运行多个Task,Task是实际执行计算的单元,...
**第一天:了解基础知识** - 学习 Hadoop 2 的历史和发展背景。 - 了解 Hadoop 2 的核心组件及其功能。 - 安装并配置 Hadoop 2 的单机模式。 **第二天:深入理解 HDFS** - 掌握 HDFS 的架构和工作原理。 - 实践...
MapReduce是开源分布式计算的第一个流行的框架,由Google开发,主要适用于大批量的集群任务。它的主要特点是批量执行,对于大规模数据处理非常适合。MapReduce支持Java语言开发,其他语言需要使用Hadoop Streaming来...
这篇资料是针对福建省2014届高考英语第一轮复习的课时作业,主题为“Unit 5 Music”,属于新人教版必修2的内容。在复习过程中,学生将接触到与音乐相关的英语词汇、句型和语法知识。以下是相关知识点的详细说明: 1...
在本篇【标题】"2019_2020学年新教材高中英语Unit3OnthemoveSectionⅡUsinglanguage课时作业外研版必修第二"和【描述】"2019_2020学年新教材高中英语Unit3OnthemoveSectionⅡUsinglanguage课时作业外研版必修第二册...
1. 题目1中,第一空考查定语从句,先行词为“the college days”,指时间,故应选关系副词“when”;第二空考查非限定性定语从句,先行词为“the college days”,与从句中“life”有所属关系,因此选择“whose”。 ...
本资料是针对2021-2022学年新教材高中英语Unit1 Relationships PartⅥ的单元语法专题——过去完成时的课时作业,适用于北师大版选择性必修第一册。过去完成时表示在某个过去时间或动作之前已经完成的动作或存在的...
这部《国内第一部Hadoop面试葵花宝典》不仅涵盖了Hadoop的基础知识,还深入到面试中可能遇到的技术点,对于准备Hadoop相关职位的求职者来说,是一份极具价值的学习资料。通过深入研读,可以提升对Hadoop的理解,增加...
这是一份旨在帮助学生进行第一轮复习的练习,旨在巩固和提高他们在英语语法、词汇和理解方面的能力。 1. 题目1考察的是定语从句的用法。"These old pictures bring to their mind the college days ________ they ...
- 第一题是根据首字母填空,主要考察基础词汇记忆。题目中的单词分别为: - `h` 表示 "洞",对应单词 "hole"。 - `b` 表示 "底部",对应单词 "bottom"。 - `s` 表示 "风暴",对应单词 "storm"。 - `d` 表示 "脏...
以上是《大数据开发技术(一)》在线作业中的关键知识点,涵盖了数据库类型、大数据处理框架、云服务、可视化工具以及物联网和数据分析的相关概念。理解和掌握这些知识对于在互联网行业中从事大数据开发至关重要。
1. **语法结构**:题目中的句子展示了多种语法结构,如条件句("do you think he will get ready by then?"),倒装句("So curious was he..."),比较级("more accurate and reliable"),同位语从句("that's ...
这些技术都是云计算和大数据处理领域的重要技术,MPI是一种消息传递接口,Hadoop是一个开源的大数据处理框架,HPCC是一个高性能计算平台,Storm是一个分布式实时计算系统,KVM和VMware都是虚拟化技术等。 七、数据...
1. 列族数据库(Column Family Database):这种数据库类型以列簇为数据组织方式,查找速度快,可扩展性强,适用于大规模数据存储,如Hbase。 2. Hbase中的Hlog:Hlog(HBase Write-Ahead Log)是Hbase用来保证数据...
第一章“大数据和Hadoop生态系统”介绍了Hadoop项目及其在大数据领域的重要作用。这部分内容可能会深入解释Hadoop的主要组件,例如HDFS(Hadoop分布式文件系统)和MapReduce,以及如何在Hadoop生态系统中协同工作以...
\n\n然而,云计算也存在潜在风险,如数据存储在第三方手中可能引发安全和隐私问题,特别是对于政府和商业机构,尤其是那些持有敏感信息的机构,选择云服务时需谨慎。\n\n大数据处理是云计算的一个重要应用领域。...
【标题】和【描述】提到的是高中英语课件中的写作课时作业,涉及的内容是外研版选择性必修第一册的Unit2 Onwards and upwards的第四部分——Writing。课件通常包含教学材料、练习题及答案解析,帮助学生巩固学习内容...
1. 题目中的句子"The old pictures bring to their mind the college days they spent together, when life was hard but happy." 和 "Are you familiar with the music? Yes. The music is very familiar to me, ...
如用于数据交换的工具、流式数据收集工具、消息系统、分布式文件系统(如HDFS)、资源管理框架(如YARN)、新一代计算框架(如MapReduce2和Tez)、Spark、Storm、Solr、Hive、HBase、Pig、Hue、ZooKeeper、Kerberos...
【阿里云专有云企业版 V3.8.0 实时计算(流计算)用户指南】是阿里云针对其专有云平台上的流计算服务提供的一份详细文档,旨在帮助用户理解和使用该服务进行实时数据处理。以下是该文档中涉及的关键知识点: 1. **...