storm 实战及实例讲解一
——应用场景分析,drpc服务器配置
——by comaple 2012-08-27
先给大家打打气,看看效果。这是taobao对外公布的storm使用情况,请大家欣赏,这是一个系列文章希望自己能够完成。给自己加油,写出来有利于日后查询同时也惠及他人。该storm入门教程将从搭建集群到如何编写storm上可以稳定运行的代码。本文不采用twitter官方文档里的starter项目,读者可以对比学习。效果更佳。
转载请注明出处:comaple
1.Storm 在taobao的使用情况:
We make statistics of logs and extract useful information from thestatistics in almost real-time with Storm. Logs are read from Kafka-likepersistent message queues into spouts, then processed and emitted over thetopologies to compute desired results, which
are then stored into distributeddatabases to be used elsewhere. Input log count varies from 2 millions to 1.5billion every day, whose size is up to 2 terabytes among the projects. The mainchallenge here is not only real-time processing of big data set; storing
andpersisting result is also a challenge and needs careful design andimplementation.
淘宝使用storm和消息队列结合,每天能够处理2百万到15亿条日志,日志量达到2TB的近实时处理。
2.使用场景
上周开始学习storm的使用,现在探索出来两种使用场景。
1, 通过配置drpc服务器,将storm的topology发布为drpc服务。客户端程序可以调用drpc服务将数据发送到storm集群中,并接收处理结果的反馈。这种方式需要drpc服务器进行转发,其中drpc服务器底层通过thrift实现。适合的业务场景主要是实时计算。并且扩展性良好,可以增加每个节点的工作worker数量来动态扩展。
2, 第二种场景是通过beanstalkd来实现信息的导入,将topology任务提交到storm集群后可以通过开发beanstalkd客户端来向集群中发送信息,这种方式客户端收不到结果反馈。这个场景适合纯粹的数据分析处理的业务场景。
3.Strom drpc服务配置:
端口可以不用配置,默认是:3772
Nimbus节点的配置:
storm.zookeeper.servers:
- "10.10.249.195"
- "10.10.249.196"
#
# nimbus.host: "nimbus"
## Locations of the drpc servers
drpc.servers:
- "10.10.249.197"
#- "server2"
Supervisor节点的配置:
########### These MUST be filled in for astorm configuration
storm.zookeeper.servers:
- "10.10.249.195"
- "10.10.249.196"
#
nimbus.host: "10.10.249.195"
#
## Locations of the drpc servers
drpc.servers:
- "10.10.249.197"
#- "server2"
supervisor.slots.ports:
-6700
-6701
- 6702
Drpc服务器节点配置
该节点只需配置zookeeper地址即可。默认开放的端口:3772
storm.zookeeper.servers:
-"10.10.249.195"
-"10.10.249.196"
启动drpc服务:./storm drpc
如果想了解storm集群的详细配置过程可参看:点击打开链接
讲解二
分享到:
相关推荐
《Storm实战:构建大数据实时计算》是一本系统并且具有实践指导意义的Storm工具书和参考书,对Storm整个技术体系进行了全面的讲解,不仅包括对基本概念、特性的介绍,也涵盖了一些原理说明。 实战性很强,各章节...
Storm分布式实时计算模式由Apache Storm 项目核心贡献者吉奥兹、奥尼尔亲笔撰 写,融合了作者丰富的Storm实战经验,通过大量示例,全面而系统地讲解使用Storm进行分布式实 时计算的核心概念及应用,并针对不同的应用...
《Storm企业级应用实战、运维和调优》一书深入探讨了Apache Storm这一实时计算框架在企业中的实际应用、维护和性能优化。Apache Storm是一个分布式、容错的实时计算系统,它允许用户处理无界数据流,即持续不断的...
2. **Storm项目开发思路与架构设计**:课程强调项目实践经验,通过实例展示如何设计和实施一个完整的Storm项目。这包括需求分析、系统架构设计以及如何逐步实现各个功能模块,帮助学员提升项目开发和管理能力。 3. ...
描述虽然简洁,但暗示了这个压缩包的内容可能包括基础概念讲解、配置教程、实战案例分析等,旨在帮助用户从零开始学习Storm,并逐步提升到能够独立进行实时数据流处理项目。 标签"storm中文"进一步确认了这些资料的...
《从零开始学习Storm最新版》是一本专为初学者设计的全面介绍Storm技术的书籍。Storm是一款开源的分布式实时计算系统,由Twitter开发并开源,后来被LinkedIn接手并持续维护,现已成为实时处理领域的主流工具之一。这...
### 大数据开发高级就业指导课程——Storm及Trident理论与实战 #### 一、Storm并发机制 在Storm中,为了提高数据处理的性能和效率,设计了一套完整的并发机制。这一机制涉及到Topology的组件配置、并发度设置等多...
网盘文件永久链接 1.大数据云计算介绍和基础(上) 2.大数据云计算介绍和基础(下) 3.Linux基础与应用(上) 4.虚拟化Docker讲解 5.Docker实战操作(上) 6.容器编排(上) ...20.Storm讲解与实战 ..........
本书的第二版更新了最新的技术动态,提供了更丰富的实战案例和更详尽的讲解。 Storm的核心概念包括拓扑(Topology)、worker、spout和bolt。拓扑是Storm中的工作单元,它定义了数据流的处理方式。worker是运行在...
在本课程中,重点讲解了如何使用Storm进行实时数据分析,并结合Kafka进行Java API的开发与测试。首先,我们了解到Kafka是一个分布式流处理平台,它最初由LinkedIn开发,后来成为Apache软件基金会的顶级项目。Kafka的...
《Hadoop大数据分析与挖掘实战》是一本深入探讨Hadoop在大数据分析和挖掘领域的实践指南。这本书详尽地阐述了如何利用Hadoop生态系统处理大规模数据,以及如何从中提取有价值的信息。Hadoop作为分布式计算框架,是...
- **使用Strom开发一个WordCount例子**:通过一个简单的WordCount示例学习Storm的使用。 - **Storm程序本地模式debug、Storm程序远程debug**:调试Storm程序的技巧。 - **Storm事物处理**:实现事务性的数据处理流程...
《实战Hadoop:开启通向云计算的捷径》是一本深度解析Hadoop技术的专业书籍,旨在帮助读者理解和掌握Hadoop这一大数据处理的核心框架,并通过实际操作实现云计算的应用。Hadoop是Apache软件基金会的一个开源项目,它...
《Netty实战——netty-in-action》是一本深入探讨Netty框架的实用指南,它涵盖了Netty的基础概念、核心组件以及在实际应用中的高级技术。Netty是一个高性能、异步事件驱动的网络应用程序框架,用于快速开发可维护的...
- **Storm DRPC实战讲解**:通过具体案例演示如何使用Storm DRPC。 - **Storm和Hadoop2.x的整合**:指导如何将Storm与Hadoop2.x进行整合,实现资源的共享和任务的协同执行。 以上就是“大数据课程体系”中的主要...
在HA模式下,有两个NameNode实例,一个处于Active状态,负责处理所有客户端请求;另一个处于Standby状态,作为热备份。通过Zookeeper进行主备切换的仲裁,当Active NameNode发生故障时,Standby NameNode可以快速...
【大数据技术和应用基础】课程是针对当前大数据时代背景下,为适应国家重大发展战略而设计的一门实践性强、理论与实例相结合的课程。课程旨在培养学生的数据分析和挖掘能力,使其能够理解和应用大数据技术解决实际...
- **Storm**:Storm是一个实时计算系统,用于处理无界数据流。 - **Spark**:Spark是快速、通用的大数据处理引擎,支持批处理、交互式查询(Spark SQL)、实时流处理和机器学习。 5. **Spark**: - **Spark入门...
在我们所探讨的“BigData-Notes-master”项目中,包含了对大数据处理、分析及应用的深入理解和实践。这个压缩包文件为我们提供了一个丰富的学习资源,涵盖了大数据领域的核心知识点。 一、大数据基础概念 大数据不...