最新文章列表

storm入门教程 第四章 消息的可靠处理

4.1 简介 storm可以确保spout发送出来的每个消息都会被完整的处理。本章将会描述storm体系是如何达到这个目标的,并将会详述开发者应该如何使用storm的这些机制来实现数据的可靠处理。   4.2 理解消息被完整处理 一个消息(tuple)从spout发送出来,可能会导致成百上千的消息基于此消息被创建。 我们来思考一下流式的“单词统计”的例子: storm任务从数据源(K ...
wbj0110 评论(0) 有981人浏览 2013-10-04 10:04

Storm入门教程 第三章 Storm安装部署步骤

本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给 ...
wbj0110 评论(0) 有1108人浏览 2013-10-04 10:00

Storm入门教程 第二章 构建Topology

2.1 Storm基本概念 在运行一个Storm任务之前,需要了解一些概念: Topologies Streams Spouts Bolts Stream groupings Reliability
wbj0110 评论(0) 有1028人浏览 2013-10-03 10:19

大数据系列7:Storm – 流计算

wget http://download.zeromq.org/zeromq-2.1.7.tar.gz tar -xzvf zeromq-2.1.7.tar.gz cd zeromq-2.1.7 sudo apt-get install gcc sudo apt-get install g++ sudo apt-get install libuuid-dev ./configure ...
yangshangchuan 评论(0) 有5131人浏览 2013-10-02 23:36

基于storm引擎的虫洞系统

虫洞系统是吸星大法项目衍生出来实时计算的基础平台。 它以storm实时流处理引擎为基础,提供了计算力、数据源整合、数据交换、监控几大功能模块。任务的权限控制正在筹划中。   这几个功能模块是此实时计算平台提供稳定运行的基础,虫洞系统承载的业务包括:月光宝盒、一淘首页个性化(实时用户个性化指标的计算)、吸星大法实时日志接入(数据源整合)。    
wbj0110 评论(0) 有1123人浏览 2013-10-02 11:27

storm入门教程 第一章 前言

1.1   实时流计算 互联网从诞生的第一时间起,对世界的最大的改变就是让信息能够实时交互,从而大大加速了各个环节的效率。正因为大家对信息实时响应、实时交互的需求,软件行业除了个人操作系统之外,数据库(更精确的说是关系型数据库)应该是软件行业发展最快、收益最为丰厚的产品了。记得十年前,很多银行别说实时转账,连实时查询都做不到,但是数据库和高速网络改变了这个情况。 随着互联网的更进一步发展,从 ...
wbj0110 评论(0) 有823人浏览 2013-10-02 11:26

Storm因机器断电等,启动supervisor错误

因机器断电或其他异常导致的supervisor意外终止,再次启动时报错:   2013-09-24 09:15:44,361 INFO [main] daemon.supervisor (NO_SOURCE_FILE:invoke(0)) - Starting supervisor wi ...
superlxw1234 评论(0) 有2636人浏览 2013-09-24 09:20

使用Storm实现实时大数据分析

 简单和明了,Storm让大数据分析变得轻松加愉快。 当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。考虑到数据的生成量,实时处理成为了许多机构需要面对的首要挑战。我们经常用的一个非常有效的开源实时计算工具就是Storm —— Twitter开发,通常被比作“实时的Hadoop”。然而 ...
wbj0110 评论(0) 有1333人浏览 2013-09-23 09:34

二、基于storm的爬虫设计方案构想

基于storm的爬虫设计方案构想   这是一个令人振奋的构想   最近在弄storm,之前又弄过爬虫,所以把两者结合起来我觉得还挺有意思的。我们知道爬虫是从网络上获取数据经过一些处理保存到本地,作为自己的业务数据等。所以其从输入到输出其实就是一个数据流不断的流经系统。storm作为实时流处理的利器,其使我们非常方便的对系统各部件的并发进行rebalance,所以如果将其用在自己的爬虫中我们 ...
zhangzhenjj 评论(0) 有6382人浏览 2013-09-01 16:49

Storm 常见使用模式-场景

  转:http://www.youxinrencwx.com/myblog/blog/java/framework/storm/storm-common-usage-pattern-scene/ Strom常见使用模式如下: 流聚合(stream join) 批处理(Batching) BasicBolt 内存内缓存 + fields grouping 组合 计算top N ...
youxinrencwx 评论(0) 有2023人浏览 2013-08-04 21:47

Twitter Storm

第 121 章 Twitter Storm 目录 121.1. 单机版 121.2. lein 安装 121.1. 单机版 操作系统环境:Ubuntu 13.04 KVM虚拟机 安装 storm 涉及到安装以下包:python、zookeeper、zeromq、jzmq、storm 过程 121.1. Ubuntu + Storm 单机环境安装 ...
netkiller.github.com 评论(0) 有1099人浏览 2013-08-02 11:12

Storm 是如何跟踪一条消息以及它衍生出来的消息都被成功处理的

2012·2郑昀汇总 我们做 Notify Server 时可以间接借鉴这个解决方案的思路。   Storm 是一个分布式的、容错的实时计算系统,由 Twitter 开源。 先不介绍术 ...
zhengyun_ustc 评论(0) 有909人浏览 2013-07-01 13:59

大数据处理点滴笔记

自我头脑风暴,说得对与错都请指点,后续补充。   当下三大技术热点:高并发、分布式、大数据(也许,还有很多,这只是自我修炼的三个目标)。 大数据处理系统有几点要求: 低延迟 高性能 分布式 可扩展(更多的要求是可横向扩展) 容错 现在用的比较多的就是Hadoop、Storm。   Hadoop 依赖于HDFS磁盘 延时较高(可精确到小时) 统计结果存在HBas ...
snowolf 评论(0) 有5159人浏览 2013-04-16 13:00

storm

storm http://storm-project.net/ https://github.com/nathanmarz/storm/wiki/Tutorial storm简介 http://www.searchtb.com/2012/09/introduction-to-storm.html Easy, Real-Time Big Data Analysis Using Storm http ...
dengbenji 评论(0) 有1134人浏览 2013-03-27 15:07

[storm]消息事务算法的一个理解

https://github.com/nathanmarz/storm/wiki/Guaranteeing-message-processing这篇文章介绍了storm如何处理消息事务,提到了用一个ack value代表一个tuple的生命周期。 其算法是“It is simply the xor of all tuple ids that have been created and/or a ...
iwinit 评论(0) 有1448人浏览 2013-03-25 20:28

[storm]环境安装问题

集群安装参考 https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster example工程 https://github.com/nathanmarz/storm-starter 问题: 1.python2.5找不到,默认安装了2.7,源代码安装2.5解决 2.storm-starter工程编译找不到jar,tw ...
iwinit 评论(0) 有1404人浏览 2013-03-22 18:48

Storm分布式流计算平台的部署安装

     目前大数据时代已经来临,面临大数据分布式、实时处理的多种技术平台,我们该如何选择?经过调研及逐步甄选,Storm和S4是相对比较突出的两个分布式流计算平台,Storm是由twitter开源,S4是雅虎开源,相对于S4,Storm的成熟度高稳定性好。包括阿里巴巴等大型公司的数据平台也在使用Storm。     搜罗了网上很多Storm的安装教程,大多数网友也是转载,没有一篇教程能够指导 ...
ting570732 评论(1) 有3438人浏览 2013-03-21 11:50

Storm流式实时计算开源框架(三)

      本文讲述Twitter Storm安装配置,也作为学习笔记。 storm的官方安装说明(e文):https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster 。 storm的安 ...
zhouwei064 评论(0) 有4306人浏览 2013-02-02 15:52

Storm流式实时计算开源框架(二)

    由于设备有限,采用虚拟机实现Storm单机版环境安装,以下是对自己安装过程的记录,以供他人参考。准备工作如下:   1.主机基本信息   2.虚拟机软件   实验中的虚拟机软件为VMware-workstation-full-8.0.0-471780.exe。   3.虚拟操作系统CentOS配置   镜像文件为CentOS-5.3-i386-bin-DVD.is ...
zhouwei064 评论(0) 有1185人浏览 2013-02-02 14:54

Storm流式实时计算开源框架(一)

      本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”
zhouwei064 评论(0) 有1407人浏览 2013-02-02 14:37

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics