wget http://download.zeromq.org/zeromq-2.1.7.tar.gz
tar -xzvf zeromq-2.1.7.tar.gz
cd zeromq-2.1.7
sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install libuuid-dev
./configure
sudo apt-get install make
make
sudo make install
sudo apt-get install git
git clone https://github.com/nathanmarz/jzmq.git
cd jzmq
sudo apt-get install pkg-config
./autogen.sh
./configure
touch src/classdist_noinst.stamp
cd src
javac -d . org/zeromq/*.java
cd ..
make
sudo make install
wget https://dl.dropboxusercontent.com/s/fl4kr7w0oc8ihdw/storm-0.8.2.zip
sudo apt-get install unzip
unzip storm-0.8.2.zip
cd storm-0.8.2
sudo vi /etc/profile
增加:
exportSTORM_HOME=/home/ysc/storm-0.8.2
exportPATH=$PATH:$STORM_HOME/bin
source /etc/profile
vi conf/storm.yaml
增加:
storm.zookeeper.servers:
- "host001"
nimbus.host: "host001"
storm.local.dir: "/home/ysc/storm"
supervisor.slots.ports:
- 6700
- 6701
- 6702
-6703
启动主节点
storm nimbus &
启动从节点
stormsupervisor &
启动WEB服务
storm ui &
git clone https://github.com/nathanmarz/storm-starter.git
cd storm-starter
sudo apt-get install maven2
vi m2-pom.xml
改变下面两个依赖的版本为3.0.3
<dependency>
<groupId>org.twitter4j</groupId>
<artifactId>twitter4j-core</artifactId>
<version>3.0.3</version>
</dependency>
<dependency>
<groupId>org.twitter4j</groupId>
<artifactId>twitter4j-stream</artifactId>
<version>3.0.3</version>
</dependency>
mvn -f m2-pom.xml package
cp m2-pom.xml pom.xml
mvn eclipse:eclipse
导入eclipse
Java Build Path -> Add Variable… ->Configure Variables… -> New… -> Name: M2_REPO Path:maven存储库路径
本地运行wordcount:
storm jar target/storm-starter-0.0.1-SNAPSHOT-jar-with-dependencies.jarstorm.starter.WordCountTopology
集群运行wordcount:
storm jartarget/storm-starter-0.0.1-SNAPSHOT-jar-with-dependencies.jarstorm.starter.WordCountTopology wordcount
相关推荐
本篇内容重点介绍了如何利用Flume、Kafka与Storm这三个开源工具实现一套完整的实时数据流处理系统。 **Flume** 是一个高可靠、高性能的服务,用于收集、聚合和移动大量日志数据。它具有简单灵活的架构,基于流的...
实时处理层则专注于快速处理新产生的数据流,如Kafka Streams或Apache Storm等技术可以实现实时数据流的即时处理。这一层的目标是在短时间内提供数据更新,以支持即时决策需求。 ##### 3. 服务层(Serving Layer) ...
- `LOAD–M(0FA)`:加载并减去内存地址0FA中的数据。 - `ADDM(0FB)`:将减去后的数据与内存地址0FB中的数据相加。 这些指令组合起来完成了特定的逻辑运算任务。 ##### 5. 图形说明 虽然题目中没有给出具体的图形...
Apache Storm是一个免费开源的分布式实时计算系统,用于处理无界数据流。 - **核心特点**: - **容错性**:自动故障检测和恢复。 - **可扩展性**:能够水平扩展,处理大量数据。 - **实时处理**:支持毫秒级的...
流计算框架 Flink 与 Storm 的性能对比.............................................................73 Spark VS Flink – 下一代大数据计算引擎之争,谁主沉浮? ......................95 5分钟从零构建第一个...
文档中提到了像S4和Storm这样的实时流处理系统,以及ETL(Extract, Transform, Load)分析用于实时结构化数据库的数据处理。 3. 分布式批处理 在大数据处理中,批处理是指对大量数据进行的一次性处理。Hadoop是...