- 浏览: 74043 次
kafka + flume + hdfs + zookeeper + spark 测试环境搭建
最近由于项目需要, 搭建了一个类似线上环境的处理流数据的环境
用的是CDH 版本5.9.x
hdfs组成: 2 namenode HA, 6 datanode
kafka: 3 台kafka server
zookeeper: 3台
flume: 1台
spark: 6台 每台32G内存
数据流程是有远端终端向我们数据处理服务器(Gengo)发送, 再由Gengo向kafka还有flume发送同样数据
flume那份数据最后会存储到hdfs上, 万一哪天spark或者kafka挂了, 我们还可以通过离线Job处理hdfs上的数据, 保证数据完整
kafka的数据直接有我们spark streaming的job使用, 每60秒取一批
同时job中的一些配置文件我们也可以通过zookeeper的node监听来动态更新, 主要就是通过往zookeepernode里添加id, Job就会触发事件, 从数据库更新那个id的相关信息
用的是CDH 版本5.9.x
hdfs组成: 2 namenode HA, 6 datanode
kafka: 3 台kafka server
zookeeper: 3台
flume: 1台
spark: 6台 每台32G内存
数据流程是有远端终端向我们数据处理服务器(Gengo)发送, 再由Gengo向kafka还有flume发送同样数据
flume那份数据最后会存储到hdfs上, 万一哪天spark或者kafka挂了, 我们还可以通过离线Job处理hdfs上的数据, 保证数据完整
kafka的数据直接有我们spark streaming的job使用, 每60秒取一批
同时job中的一些配置文件我们也可以通过zookeeper的node监听来动态更新, 主要就是通过往zookeepernode里添加id, Job就会触发事件, 从数据库更新那个id的相关信息
发表评论
-
YARNRunner的运行原理总结
2016-10-25 17:52 1139之前看了那么些源码, 大致对整个Yarn的运行过程有了一个了解 ... -
Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析(下)
2016-10-11 13:53 2450中间隔了国庆, 好不容易才看明白了MRAppMaster如何启 ... -
Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (中)
2016-09-27 13:25 1597继续上一篇文章, 那时候AM Allocation已经生成, ... -
Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (上)
2016-09-24 16:46 3612参考了一篇文章, 才看懂了Yarnrunner的整个流程: h ... -
Hadoop MapReduce Job执行过程源码跟踪
2016-09-07 15:07 2999前面一片文章写了MR怎么写, 然后添加的主要功能怎么用, 像p ... -
Hadoop的Map端sort, partition, combiner以及Group
2016-09-05 15:15 1511Mapreduce在执行的时候首先会解析成KV键值对传送到Ma ... -
Hadoop 的WordCount
2016-08-30 19:41 633之前花了点时间玩spark, 现在开始学一下hadoop 前 ... -
源码跟踪executor如何写数据到blockmanager, 以及如何从blockmanager读数据
2016-08-10 19:41 1427之前看了Job怎么submit 以 ... -
Spark中Blockmanager相关代码解析
2016-08-04 19:47 1849前一段时间看了如何划分stage以及如何提交Job, 最后把结 ... -
Spark在submitStage后如何通过clustermanager调度执行task到Driver接收计算结果的代码解析
2016-08-01 14:08 1483前文: http://humingminghz.iteye.c ... -
Spark中saveAsTextFile至stage划分和job提交的源代码分析
2016-07-29 14:20 3363之前看了Spark Streaming和Spark SQL, ... -
SparkSQL DF.agg 执行过程解析
2016-07-19 10:21 4124在上一篇文章前, 我一直没看懂为什么下面的代码就能得到max或 ... -
SparkSQL SQL语句解析过程源代码浅析
2016-07-15 19:34 6648前两天一直在忙本职工 ... -
SparkSQL SQL语句解析过程浅析
2016-07-15 19:06 0前两天一直在忙本职工 ... -
SparkStreaming从启动Receiver到收取数据生成RDD的代码浅析
2016-07-08 17:54 2237前面一片文章介绍了SocketTextStream 是如何从b ... -
Sparkstreaming是如何获取数据组成Dstream的源码浅析
2016-07-08 11:23 1479前面一篇文章介绍了SparkStreaming是如何不停的循环 ... -
SparkSQL 使用SQLContext读取csv文件 分析数据 (含部分数据)
2016-07-06 11:24 10160前两天开始研究SparkSQL, 其主要分为HiveConte ... -
SparkStreaming是如何完成不停的循环处理的代码浅析
2016-07-02 12:26 4660一直很好奇Sparkstreaming的ssc.start是怎 ... -
SparkStreaming 对Window的reduce的方法解析
2016-06-30 11:57 4733在sparkstreaming中对窗口 ... -
Sparkstreaming reduceByKeyAndWindow(_+_, _-_, Duration, Duration) 的源码/原理解析
2016-06-29 19:50 8796最近在玩spark streaming, 感觉到了他的强大。 ...
相关推荐
在大数据领域,构建一个完整的生态系统是至关重要的,其中包括多个组件,如Hadoop、Spark、Hive、HBase、Oozie、Kafka、Flume、Flink、Elasticsearch和Redash。这些组件协同工作,提供了数据存储、处理、调度、流...
本项目旨在搭建一套完整的Spark集群环境,包括Hadoop HA(高可用)、HBase、Phoenix、Kafka、Flume、Zookeeper以及Scala等多个组件的集成。这样的环境适用于大规模的数据处理与分析任务,能够有效地支持实时数据流...
### Kafka+Flume-ng搭建详解 #### 一、概述 Kafka+Flume-ng是一种高效的数据传输方案,常被用于大数据处理系统中。Kafka作为一款高性能的消息队列中间件,能够提供高吞吐量的消息发布订阅服务。而Flume-ng则是一款...
基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 DML 操作 数据查询详解 三、Spark ...
根据提供的标题、描述、标签及部分内容链接,我们可以推断出这是一个关于大数据技术栈的培训课程,涉及的技术包括Hadoop、HBase、Zookeeper、Spark、Kafka、Scala以及Ambari。下面将针对这些技术进行详细的介绍和...
然后,需要配置Flume的配置文件flume.conf,指定Kafka Topic和HDFS的路径。 首先,需要创建一个Kafka Topic,使用命令./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions...
### Flume采集数据到Kafka,然后从Kafka取数据存储到HDFS的方法思路和完整步骤 #### 一、概述 随着大数据技术的发展,高效的数据采集、处理与存储变得尤为重要。本文将详细介绍如何利用Flume采集日志数据,并将其...
在大数据处理领域,Flume、Kafka和Storm是三个至关重要的工具,它们分别在数据采集、数据分发和实时处理方面发挥着核心作用。这里我们将深入探讨这三个组件以及如何搭建它们。 1. Flume:Flume是Apache软件基金会的...
此外,搭建过程中也需要注意各个组件之间的网络通信问题,如Zookeeper与Kafka之间的通信、Kafka集群内部的通信,以及Flume和Kafka之间的数据交互。确保通信顺畅需要做好相应的网络安全和权限设置。 总结来看,利用...
本教程将详细讲解如何构建Flume+Kafka环境,并进行实战应用。 首先,Flume是Apache开发的一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。它具有高度可配置性,支持多种数据源(如网络套接字、...
例如,Hadoop 的数据块大小设置、Zookeeper 的会话超时机制、HBase 的 Region 分裂、Hive 的分区表设计、Spark 的容错机制、Kafka 的生产者消费者模型、Flink 的状态持久化和ClickHouse 的索引策略等都是常见的面试...
用户可以通过解压这个rar文件,获取到Flume、Kafka和ZooKeeper的安装包,然后按照各自项目的官方文档进行安装和配置,以搭建一套完整的数据处理系统。 标签“kafka zk flume”进一步确认了这三个组件的关系,它们都...
运行环境:centos 6.x、java、kafka、zookeeper、Flume、Hbase、HDFS、YARN、Spark、MySQl。 安装教程 spark_student是IDEA项目,直接使用IDEA打开。(需要自行配置运行环境) 在IDEA下运行,配置好maven。(国内...
日志分析器-分析大数据组件的客户日志,例如HDFS,Hive,HBase,Yarn,MapReduce,Storm,Spark,Spark 2,Knox,Ambari Metrics,Nifi,Accumulo,Kafka,Flume,Oozie,Falcon,Atlas和Zookeeper。 内部架构 分析...
Spark Streaming支持多种数据源,如Kafka、Flume、Twitter等,并且可以将处理结果写入HDFS、HBase等存储系统。 **HBase概述** HBase是构建在Hadoop文件系统(HDFS)之上,面向列的NoSQL数据库,适合处理大规模数据...
4. **Flume到HDFS**: Flume配置为HDFS sink,将接收到的Kafka消息持久化到HDFS,实现数据的存储。 ### **环境配置** - **操作系统**: 使用CentOS7作为基础平台,可以从阿里云镜像站下载不同版本的ISO镜像进行安装...
介绍 基于Spark的高校数据分析系统 。同时实现了Spark-core(被注释了);Spark-ML,Spark-streaming。...运行环境:centos 6.x、java、kafka、zookeeper、Flume、Hbase、HDFS、YARN、Spark、MySQl。
包括Hadoop、Hive、Spark、Storm、Flink、HBase、Kafka、Zookeeper、Flume、Sqoop等技术的学习 Hadoop 分布式文件存储系统 —— HDFS 分布式计算框架 —— MapReduce 集群资源管理器 —— YARN Hadoop 单机伪集群...
开发环境包括flume、kafka、storm、zookeeper、hadoop、hive、spark、hbase和Phoenix。职责描述涉及数据源收集和清洗、hive表模型的设计和调优、SparkSql与Hive整合的数据ETL处理,以及hbase的数据存储和调优。 4. ...
综上所述,搭建一个包含Hadoop、Spark、Zookeeper、Hive、Hbase、Kafka、Flume的集群,涉及了系统的硬件与软件准备、网络配置、服务安装与配置、集群管理以及故障排除等多个方面的知识点。对于希望在大数据领域进行...