`
cloudtech
  • 浏览: 4718080 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
文章分类
社区版块
存档分类
最新评论

storm 实战及实例讲解(一)

 
阅读更多

storm 实战及实例讲解一

——应用场景分析,drpc服务器配置

——by comaple 2012-08-27

先给大家打打气,看看效果。这是taobao对外公布的storm使用情况,请大家欣赏,这是一个系列文章希望自己能够完成。给自己加油,写出来有利于日后查询同时也惠及他人。该storm入门教程将从搭建集群到如何编写storm上可以稳定运行的代码。本文不采用twitter官方文档里的starter项目,读者可以对比学习。效果更佳。

转载请注明出处:comaple

1.Storm 在taobao的使用情况:

We make statistics of logs and extract useful information from thestatistics in almost real-time with Storm. Logs are read from Kafka-likepersistent message queues into spouts, then processed and emitted over thetopologies to compute desired results, which are then stored into distributeddatabases to be used elsewhere. Input log count varies from 2 millions to 1.5billion every day, whose size is up to 2 terabytes among the projects. The mainchallenge here is not only real-time processing of big data set; storing andpersisting result is also a challenge and needs careful design andimplementation.

淘宝使用storm和消息队列结合,每天能够处理2百万到15亿条日志,日志量达到2TB的近实时处理。

2.使用场景

上周开始学习storm的使用,现在探索出来两种使用场景。

1, 通过配置drpc服务器,将storm的topology发布为drpc服务。客户端程序可以调用drpc服务将数据发送到storm集群中,并接收处理结果的反馈。这种方式需要drpc服务器进行转发,其中drpc服务器底层通过thrift实现。适合的业务场景主要是实时计算。并且扩展性良好,可以增加每个节点的工作worker数量来动态扩展。

2, 第二种场景是通过beanstalkd来实现信息的导入,将topology任务提交到storm集群后可以通过开发beanstalkd客户端来向集群中发送信息,这种方式客户端收不到结果反馈。这个场景适合纯粹的数据分析处理的业务场景。

3.Strom drpc服务配置:

端口可以不用配置,默认是:3772

Nimbus节点的配置:

storm.zookeeper.servers:

- "10.10.249.195"

- "10.10.249.196"

#

# nimbus.host: "nimbus"

## Locations of the drpc servers

drpc.servers:

- "10.10.249.197"

#- "server2"

Supervisor节点的配置:

########### These MUST be filled in for astorm configuration

storm.zookeeper.servers:

- "10.10.249.195"

- "10.10.249.196"

#

nimbus.host: "10.10.249.195"

#

## Locations of the drpc servers

drpc.servers:

- "10.10.249.197"

#- "server2"

supervisor.slots.ports:

-6700

-6701

- 6702

Drpc服务器节点配置

该节点只需配置zookeeper地址即可。默认开放的端口:3772

storm.zookeeper.servers:

-"10.10.249.195"

-"10.10.249.196"

启动drpc服务:./storm drpc

如果想了解storm集群的详细配置过程可参看:点击打开链接


讲解二


分享到:
评论

相关推荐

    Storm实战:构建大数据实时计算

     《Storm实战:构建大数据实时计算》是一本系统并且具有实践指导意义的Storm工具书和参考书,对Storm整个技术体系进行了全面的讲解,不仅包括对基本概念、特性的介绍,也涵盖了一些原理说明。  实战性很强,各章节...

    细细品味Storm_Storm简介及安装

    Storm分布式实时计算模式由Apache Storm 项目核心贡献者吉奥兹、奥尼尔亲笔撰 写,融合了作者丰富的Storm实战经验,通过大量示例,全面而系统地讲解使用Storm进行分布式实 时计算的核心概念及应用,并针对不同的应用...

    Storm企业级应用实战、运维和调优

    《Storm企业级应用实战、运维和调优》一书深入探讨了Apache Storm这一实时计算框架在企业中的实际应用、维护和性能优化。Apache Storm是一个分布式、容错的实时计算系统,它允许用户处理无界数据流,即持续不断的...

    基于Storm流计算天猫双十一作战室项目实战.docx

    2. **Storm项目开发思路与架构设计**:课程强调项目实践经验,通过实例展示如何设计和实施一个完整的Storm项目。这包括需求分析、系统架构设计以及如何逐步实现各个功能模块,帮助学员提升项目开发和管理能力。 3. ...

    storm中文学习资料

    描述虽然简洁,但暗示了这个压缩包的内容可能包括基础概念讲解、配置教程、实战案例分析等,旨在帮助用户从零开始学习Storm,并逐步提升到能够独立进行实时数据流处理项目。 标签"storm中文"进一步确认了这些资料的...

    从零开始学习storm最新版

    《从零开始学习Storm最新版》是一本专为初学者设计的全面介绍Storm技术的书籍。Storm是一款开源的分布式实时计算系统,由Twitter开发并开源,后来被LinkedIn接手并持续维护,现已成为实时处理领域的主流工具之一。这...

    大数据分析架构师顶级培训课程storm课程 Trident理论与应用 Trident基础理论与实战 共35页.pptx

    ### 大数据开发高级就业指导课程——Storm及Trident理论与实战 #### 一、Storm并发机制 在Storm中,为了提高数据处理的性能和效率,设计了一套完整的并发机制。这一机制涉及到Topology的组件配置、并发度设置等多...

    云计算与大数据基础视频.zip

    网盘文件永久链接 1.大数据云计算介绍和基础(上) 2.大数据云计算介绍和基础(下) 3.Linux基础与应用(上) 4.虚拟化Docker讲解 5.Docker实战操作(上) 6.容器编排(上) ...20.Storm讲解与实战 ..........

    从零开始学Storm 第2版

    本书的第二版更新了最新的技术动态,提供了更丰富的实战案例和更详尽的讲解。 Storm的核心概念包括拓扑(Topology)、worker、spout和bolt。拓扑是Storm中的工作单元,它定义了数据流的处理方式。worker是运行在...

    Storm流计算项目:1号店电商实时数据分析系统-07.Kafka Java API 简单开发测试.pptx

    在本课程中,重点讲解了如何使用Storm进行实时数据分析,并结合Kafka进行Java API的开发与测试。首先,我们了解到Kafka是一个分布式流处理平台,它最初由LinkedIn开发,后来成为Apache软件基金会的顶级项目。Kafka的...

    Hadoop大数据分析与挖掘实战

    《Hadoop大数据分析与挖掘实战》是一本深入探讨Hadoop在大数据分析和挖掘领域的实践指南。这本书详尽地阐述了如何利用Hadoop生态系统处理大规模数据,以及如何从中提取有价值的信息。Hadoop作为分布式计算框架,是...

    大数据课程体系

    - **使用Strom开发一个WordCount例子**:通过一个简单的WordCount示例学习Storm的使用。 - **Storm程序本地模式debug、Storm程序远程debug**:调试Storm程序的技巧。 - **Storm事物处理**:实现事务性的数据处理流程...

    《实战Hadop:开启通向云计算的捷径》PDF

    《实战Hadoop:开启通向云计算的捷径》是一本深度解析Hadoop技术的专业书籍,旨在帮助读者理解和掌握Hadoop这一大数据处理的核心框架,并通过实际操作实现云计算的应用。Hadoop是Apache软件基金会的一个开源项目,它...

    Netty实战-netty-in-action.zip

    《Netty实战——netty-in-action》是一本深入探讨Netty框架的实用指南,它涵盖了Netty的基础概念、核心组件以及在实际应用中的高级技术。Netty是一个高性能、异步事件驱动的网络应用程序框架,用于快速开发可维护的...

    大数据课程体系.docx

    - **Storm DRPC实战讲解**:通过具体案例演示如何使用Storm DRPC。 - **Storm和Hadoop2.x的整合**:指导如何将Storm与Hadoop2.x进行整合,实现资源的共享和任务的协同执行。 以上就是“大数据课程体系”中的主要...

    《Hadoop大数据开发实战》教学教案—06Hadoop2.0新特性.pdf

    在HA模式下,有两个NameNode实例,一个处于Active状态,负责处理所有客户端请求;另一个处于Standby状态,作为热备份。通过Zookeeper进行主备切换的仲裁,当Active NameNode发生故障时,Standby NameNode可以快速...

    大数据技术和应用基础-教学大纲.docx

    【大数据技术和应用基础】课程是针对当前大数据时代背景下,为适应国家重大发展战略而设计的一门实践性强、理论与实例相结合的课程。课程旨在培养学生的数据分析和挖掘能力,使其能够理解和应用大数据技术解决实际...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 32.Spark入门之Scala(共173页).pptx

    - **Storm**:Storm是一个实时计算系统,用于处理无界数据流。 - **Spark**:Spark是快速、通用的大数据处理引擎,支持批处理、交互式查询(Spark SQL)、实时流处理和机器学习。 5. **Spark**: - **Spark入门...

    BigData-Notes-master

    在我们所探讨的“BigData-Notes-master”项目中,包含了对大数据处理、分析及应用的深入理解和实践。这个压缩包文件为我们提供了一个丰富的学习资源,涵盖了大数据领域的核心知识点。 一、大数据基础概念 大数据不...

Global site tag (gtag.js) - Google Analytics