其实这些介绍就是第三方使用者写的,比如我是一个使用者,在公司大规模运用Storm后,把使用情况邮件到官方,官方觉得OK了,就搬运过来。
原创翻译,如有错误请指出,谢谢。
下面选择一些国内的公司的情况进行介绍(原创翻译,持续更新ing..)
淘宝网
我们使用Storm来做一些实时的日志统计,从日志中抽取有用的信息。
日志是存在一个类似Kafka的持久化消息队列中(MetaQ,是一个淘宝在Kafka基础上研发的消息队列系统),然后读到拓扑中的spout中。
接着在拓扑进行处理和分发最后得到想要的计算结果。
最终存储到分布式数据库中,等待其他的使用者来使用。
每天的日志量在200w到15亿之间,最大达到2T。
这里最大的挑战不仅仅是对大数据集进行实时处理,持久化计算结果也是一大挑战,需要严谨的设计和实现。
阿里巴巴
阿里巴巴在世界上是B2B电商的领头羊。我们使用Storm来处理应用程序日志和数据库中的数据改变来为数据应用提供实时的统计。
百度
百度提供最牛的网站,音频文件,图像的搜索服务。
我的公司使用Storm来处理搜索日志,提供了用户的pv,ar-time等的实时统计。
另外还帮助了运维部门进行决策并对服务的状态进行监控。未来还会用Storm做更牛的事情。
支付宝
支付宝是天朝最牛的第三方在线支付平台。我们在许多场景下都选择使用Storm:
- 实时计算交易的数量,交易成交额,TOP N的交易卖家的信息,注册用户数量。每天处理的消息超过了1亿。
- 日志的处理,每天的数据量超过6T。
友盟
友盟在中国是移动应用分析和开发者服务平台的业界骄楚。Storm为友盟的实时分析平台提供支持,每天处理数10亿的数据点,并不断增长。
我们还其他许多需要实时处理的产品中使用Storm,Storm在我们公司逐渐成为了核心的基础设施。
奇虎360
我们使用Storm的案例比较特殊,我们在数千个节点上部署了Storm,这些节点并不是专属于Storm的,它们还跑了一些各种各样的业务。
Storm在每个节点上只使用一点点CPU/内存/带宽。然后Storm集群会对这些节点的空闲资源进行调度,这个调度的消耗趋向于零。
这提供了强劲的计算能力,并且是实时的。这太不可思议了。
to be continued..
相关推荐
第 6章讲解如何在Storm上使用递归实现一个典型的人 工智能算法;第7章演示集成Storm和非事务型系统 的复杂性,通过集成Storm和开源探索性分析架构 Druid实现一个可配置的实时系统来分析金融事件。 第8章探讨Lambda...
Storm简介Storm简介Storm简介Storm简介Storm简介 Storm简介Storm简介Storm简介Storm简介Storm简介
本文档介绍了 Storm 编程实践的实践报告,涵盖了安装 Maven、使用 Maven 编译运行代码和 mvn 打包等内容。报告中还包括了实验环境的配置、实验内容和完成情况等。 安装 Maven Maven 是一个基于项目对象模型(POM)...
1. **下载**:访问Apache Storm官方网站下载最新稳定版(1.0.6)的压缩包,通常为tar.gz格式。 2. **解压**:将下载的`apache-storm-1.0.6.tar.gz`文件解压到指定目录,例如`/usr/local`。 ```bash tar -zxvf ...
2. Storm工具介绍: Storm是一个强大的Web服务测试工具,它提供了对SOAP、RESTful API等不同类型的Web服务进行全面测试的能力。这款工具支持创建复杂的测试场景,包括单个请求、脚本化的测试序列,以及负载和性能...
随着大数据实时处理需求的强劲增长,Storm的出现填补了大数据处理生态系统的缺失,并被越来越多的公司所采用。阿里巴巴集团数据平台事业部商家数据业务部正是最早使用Storm的技术团队之一。 《Storm实战:构建...
1. **Apache Storm介绍**:Storm可以处理无界的数据流,具有高容错性和低延迟的特点,广泛应用于实时数据分析、实时计算和持续集成等场景。 2. **Maven的使用**:Maven是一个项目管理工具,它通过POM文件管理项目的...
思路:Storm集群从Kafkatopic主题获取数据,解析后写入MySQL,注意我们使用MyBatis工具与数据库交互 项目结构 部署MySQL 我们在服务器上部署一台MySQL数据库 具体参考这篇文章 数据库表结构如下: ...
标题中的"storm中文学习资料"表明这是一份关于Apache Storm的中文学习资源,Apache Storm是一个开源的分布式实时计算系统,常用于实时数据处理。在这个压缩包中,我们可以预期找到一系列帮助理解和掌握Storm技术的...
Storm入门书籍介绍了Storm的基本概念和应用场景,指导读者如何搭建Storm开发环境,创建Storm工程,以及如何理解Storm拓扑结构、spouts、bolts等组件的功能与开发。此外,书中还提供了不同语言开发Storm工程的实例,...
1. **下载 Storm 1.0.1 版本**:从官方网站下载 Storm 1.0.1 的安装包,并解压到指定目录下(例如 `/root/soft/storm-1.0.1`)。 2. **配置 `storm.yaml` 文件**:此文件位于 `storm-1.0.1/conf/` 目录下,是整个...
本篇内容重点介绍了如何利用Flume、Kafka与Storm这三个开源工具实现一套完整的实时数据流处理系统。 **Flume** 是一个高可靠、高性能的服务,用于收集、聚合和移动大量日志数据。它具有简单灵活的架构,基于流的...
标题中的“storm大数据相关代码”表明我们主要讨论的是Apache Storm,这是一个开源的分布式实时计算系统。Storm被广泛用于处理大规模的数据流,实现连续计算、实时分析以及数据集成。在这个压缩包中,我们可以预见到...
随着大数据实时处理需求的强劲增长,Storm的出现填补了大数据处理生态系统的缺失,并被越来越多的公司所采用。阿里巴巴集团数据平台事业部商家数据业务部正是最早使用Storm的技术团队之一。 《Storm实战:构建...
- **批处理事务**:介绍Storm Trident提供的批处理事务机制,提高数据处理的一致性和可靠性。 - **DRPC**:讨论Distributed Remote Procedure Call(分布式远程过程调用)的实现方法和应用场景,为复杂系统的构建...
在《Learning Storm》这本书中,作者深入浅出地介绍了如何利用Storm进行实时数据处理,而本demo正是对书中教程的实践应用。 在这个“storm统计单词数”的例子中,主要涉及以下知识点: 1. **Storm架构**:Storm的...
本文将详细介绍如何整合Flume、Kafka和Storm,以实现大数据的高效收集、传输和处理。在大数据运维解决方案中,这三个组件扮演着关键角色。Flume用于数据采集,Kafka作为中间件提供消息队列服务,而Storm则用于实时...
一些从网络上搜集,storm 的简介资料,简单介绍storm 框架的相关东西。