`

大数据系列7:Storm – 流计算

阅读更多

wget http://download.zeromq.org/zeromq-2.1.7.tar.gz

tar -xzvf zeromq-2.1.7.tar.gz

cd zeromq-2.1.7

sudo apt-get install gcc

sudo apt-get install g++

sudo apt-get install libuuid-dev

./configure

sudo apt-get install make

make

sudo make install

 

sudo apt-get install git

git clone https://github.com/nathanmarz/jzmq.git

cd jzmq

sudo apt-get install pkg-config

./autogen.sh

./configure

touch src/classdist_noinst.stamp

cd src
javac -d . org/zeromq/*.java
cd ..

make

sudo make install

 

wget https://dl.dropboxusercontent.com/s/fl4kr7w0oc8ihdw/storm-0.8.2.zip

sudo apt-get install unzip

unzip storm-0.8.2.zip

cd storm-0.8.2

sudo vi /etc/profile

增加:

export STORM_HOME=/home/ysc/storm-0.8.2

export PATH=$PATH:$STORM_HOME/bin

       source /etc/profile

vi conf/storm.yaml

增加:

storm.zookeeper.servers:

     - "host001"

       nimbus.host: "host001"

       storm.local.dir: "/home/ysc/storm"

supervisor.slots.ports:

    - 6700

    - 6701

    - 6702
    
-6703

       启动主节点

storm nimbus &

启动从节点

    storm supervisor &

启动WEB服务

       storm ui &

       访问:http://host001:8080

 

       git clone https://github.com/nathanmarz/storm-starter.git

       cd storm-starter

       sudo apt-get install maven2

       vi m2-pom.xml

       改变下面两个依赖的版本为3.0.3

                <dependency>

                       <groupId>org.twitter4j</groupId>

                       <artifactId>twitter4j-core</artifactId>

                       <version>3.0.3</version>

                </dependency>

                <dependency>

                       <groupId>org.twitter4j</groupId>

                       <artifactId>twitter4j-stream</artifactId>

                       <version>3.0.3</version>

                </dependency>

       mvn -f m2-pom.xml package

      

       cp m2-pom.xml pom.xml

       mvn eclipse:eclipse

       导入eclipse

       Java Build Path -> Add Variable… ->Configure Variables… -> New… -> Name: M2_REPO Path:maven存储库路径

      

       本地运行wordcount:

       storm jar target/storm-starter-0.0.1-SNAPSHOT-jar-with-dependencies.jarstorm.starter.WordCountTopology

       集群运行wordcount:

       storm jartarget/storm-starter-0.0.1-SNAPSHOT-jar-with-dependencies.jarstorm.starter.WordCountTopology  wordcount

 

 

Storm相关框架研究交流群,有兴趣的请加Q群:321914133

 

 


 

APDPlat旗下十大开源项目

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    《大数据日知录:架构与算法》完整版+书签

    大数据架构指的是支撑大数据处理的系统结构,而算法则是处理大数据时使用的一系列计算步骤和方法。《大数据日知录:架构与算法》这本书籍很可能围绕这些主题进行讲解。 首先,从架构的角度来看,大数据架构主要包含...

    大数据-Storm实时数据处理

     《大数据技术丛书:Storm实时数据处理》通过丰富的实例,系统讲解Storm的基础知识和实时数据处理的最佳实践方法,内容涵盖Storm本地开发环境搭建、日志流数据处理、Trident、分布式远程过程调用、Topology在不同...

    华为大数据认证: Streaming分布式流计算引擎.pptx

    华为大数据认证涵盖了实时流处理技术,重点在于 Streaming,这是一种基于开源项目 Storm 的分布式、实时计算框架。Streaming 的核心特性包括实时响应能力、低延迟、数据不存储直接计算、连续查询以及事件驱动模式。...

    Storm 实战:构建大数据实时计算完整版

    《Storm实战:构建大数据实时计算 》是一本系统并且具有实践指导意义的Storm工具书和参考书,对Storm整个技术体系进行了全面的讲解,不仅包括对基本概念、特性的介绍,也涵盖了一些原理说明。 实战性很强,各章节都...

    Storm实战构建大数据实时计算

    Storm官方网站有段简介 Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm简单,可以使用任何编程语言。

    Storm实战:构建大数据实时计算

     《Storm实战:构建大数据实时计算 》一共分为10章:第1章全面介绍了Storm的特性、能解决什么问题,以及和其他流计算系统的对比;第2章通过实际运行一个简单的例子,以及介绍本地环境和集群环境的搭建,让读者对...

    Storm 实战:构建大数据实时计算 PDF带书签完整版

    Apache Storm是一个开源的分布式实时计算系统,它能够处理无限的数据流,确保每个事件都能被正确处理,是大数据领域中的重要工具之一。 1. **Storm简介**:Storm的核心理念是提供一个可靠的、低延迟的实时数据处理...

    大数据框架对比:Hadoop、Storm、Samza、Spark和Flink

    大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了...

    大数据开发实战:SparkStreaming流计算开发

    SparkStreaming是大数据处理领域中的一种实时流计算框架,它是Apache Spark的一部分,旨在处理持续不断的数据流。Spark本身是对Hadoop MapReduce的优化和扩展,尤其是在处理速度、易用性、迭代计算和复杂数据分析...

    大数据相关知识:大数据基础知识介绍

    2. **流式计算**:针对实时数据流进行处理,确保数据处理的实时性和连续性,常用技术包括 Scribe、Flume、Storm 等。 3. **迭代计算**:主要用于机器学习和图形处理等领域,需要多次迭代以达到收敛,如 HaLoop、...

    大数据storm实时计算

    大数据实时计算,storm, kafka ,flume ,zookeeper 组件结合完成大数据storm实时计算

    华为大数据认证:Flink流计算处理和批处理平台.pptx

    【华为大数据认证:Flink流计算处理和批处理平台】 华为大数据认证的Flink部分主要聚焦于理解Flink的核心原理、关键特性和在FusionInsight HD平台中的集成情况。Flink是一个强大的计算框架,它将批处理和流处理集成...

    大数据流式计算:关键技术及系统实例 .docx

    大数据流式计算是一种处理连续不断的数据流的技术,与传统的批量计算相比,它更注重实时性和低延迟。在当今数据爆炸的时代,流式计算已经成为处理实时数据流的关键手段,尤其在金融交易、网络日志分析、社交网络监测...

    《Storm实战构建大数据实时计算》PDF

    《Storm实战构建大数据实时计算》是一本专注于大数据领域实时处理技术的专著,主要围绕Apache Storm这一开源流处理系统展开。这本书深入浅出地讲解了如何利用Storm进行实时数据流的处理,为读者揭示了大数据实时计算...

    大数据技术之Storm.doc

    Storm是一个开源的分布式实时计算框架,主要用于处理无界的数据流,类似于Hadoop对数据进行批处理的方式。Storm的主要特点包括: - 开发语言:主要使用Clojure和Java编写。 - 创建历程:最初由Nathan Marz及其团队...

    基于Storm流计算天猫双十一作战室项目实战

    ### 基于Storm流计算天猫双十一作战室项目实战 #### 一、课程亮点与核心知识点 本课程针对Apache Storm这一强大的分布式实时计算系统进行了全方位的解析与实战演练。通过本课程的学习,不仅可以掌握Storm的基本...

Global site tag (gtag.js) - Google Analytics