`

kafka + flume + hdfs + zookeeper + spark 测试环境搭建

阅读更多
最近由于项目需要, 搭建了一个类似线上环境的处理流数据的环境

用的是CDH 版本5.9.x

hdfs组成: 2 namenode HA, 6 datanode
kafka: 3 台kafka server
zookeeper: 3台
flume: 1台
spark: 6台 每台32G内存

数据流程是有远端终端向我们数据处理服务器(Gengo)发送, 再由Gengo向kafka还有flume发送同样数据

flume那份数据最后会存储到hdfs上, 万一哪天spark或者kafka挂了, 我们还可以通过离线Job处理hdfs上的数据, 保证数据完整

kafka的数据直接有我们spark streaming的job使用, 每60秒取一批

同时job中的一些配置文件我们也可以通过zookeeper的node监听来动态更新, 主要就是通过往zookeepernode里添加id, Job就会触发事件, 从数据库更新那个id的相关信息
分享到:
评论

相关推荐

    Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

    在大数据领域,构建一个完整的生态系统是至关重要的,其中包括多个组件,如Hadoop、Spark、Hive、HBase、Oozie、Kafka、Flume、Flink、Elasticsearch和Redash。这些组件协同工作,提供了数据存储、处理、调度、流...

    spark环境安装(Hadoop HA+Hbase+phoneix+kafka+flume+zookeeper+spark+scala)

    本项目旨在搭建一套完整的Spark集群环境,包括Hadoop HA(高可用)、HBase、Phoenix、Kafka、Flume、Zookeeper以及Scala等多个组件的集成。这样的环境适用于大规模的数据处理与分析任务,能够有效地支持实时数据流...

    Kafka+Flume-ng搭建

    ### Kafka+Flume-ng搭建详解 #### 一、概述 Kafka+Flume-ng是一种高效的数据传输方案,常被用于大数据处理系统中。Kafka作为一款高性能的消息队列中间件,能够提供高吞吐量的消息发布订阅服务。而Flume-ng则是一款...

    Hadoop+Hive+Spark+Kafka+Zookeeper+Flume+Sqoop+Azkaban+Scala

    基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 DML 操作 数据查询详解 三、Spark ...

    徐老师大数据培训Hadoop+HBase+ZooKeeper+Spark+Kafka+Scala+Ambari

    根据提供的标题、描述、标签及部分内容链接,我们可以推断出这是一个关于大数据技术栈的培训课程,涉及的技术包括Hadoop、HBase、Zookeeper、Spark、Kafka、Scala以及Ambari。下面将针对这些技术进行详细的介绍和...

    kafka+flume 实时采集oracle数据到hive中.docx

    然后,需要配置Flume的配置文件flume.conf,指定Kafka Topic和HDFS的路径。 首先,需要创建一个Kafka Topic,使用命令./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions...

    Flume采集数据到Kafka,然后从kafka取数据存储到HDFS的方法思路和完整步骤

    ### Flume采集数据到Kafka,然后从Kafka取数据存储到HDFS的方法思路和完整步骤 #### 一、概述 随着大数据技术的发展,高效的数据采集、处理与存储变得尤为重要。本文将详细介绍如何利用Flume采集日志数据,并将其...

    flume及kafka及storm搭建.rar

    在大数据处理领域,Flume、Kafka和Storm是三个至关重要的工具,它们分别在数据采集、数据分发和实时处理方面发挥着核心作用。这里我们将深入探讨这三个组件以及如何搭建它们。 1. Flume:Flume是Apache软件基金会的...

    flume+kafka+storm搭建

    此外,搭建过程中也需要注意各个组件之间的网络通信问题,如Zookeeper与Kafka之间的通信、Kafka集群内部的通信,以及Flume和Kafka之间的数据交互。确保通信顺畅需要做好相应的网络安全和权限设置。 总结来看,利用...

    Flume+Kafka环境构建和实战.zip

    本教程将详细讲解如何构建Flume+Kafka环境,并进行实战应用。 首先,Flume是Apache开发的一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统。它具有高度可配置性,支持多种数据源(如网络套接字、...

    大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

    例如,Hadoop 的数据块大小设置、Zookeeper 的会话超时机制、HBase 的 Region 分裂、Hive 的分区表设计、Spark 的容错机制、Kafka 的生产者消费者模型、Flink 的状态持久化和ClickHouse 的索引策略等都是常见的面试...

    apache-flume-1.9.0-bin.tar,kafka_2.11-0.10.1.0,zookeeper-3.3.6_.tar

    用户可以通过解压这个rar文件,获取到Flume、Kafka和ZooKeeper的安装包,然后按照各自项目的官方文档进行安装和配置,以搭建一套完整的数据处理系统。 标签“kafka zk flume”进一步确认了这三个组件的关系,它们都...

    基于Spark的高校大学生行为数据收集及成绩分析预测系统源码+汇报PPT

    运行环境:centos 6.x、java、kafka、zookeeper、Flume、Hbase、HDFS、YARN、Spark、MySQl。 安装教程 spark_student是IDEA项目,直接使用IDEA打开。(需要自行配置运行环境) 在IDEA下运行,配置好maven。(国内...

    LogAnalyzer:分析大数据组件的客户日志,例如HDFS,Hive,HBase,Yarn,MapReduce,Storm,Spark,Spark 2,Knox,Ambari Metrics,Nifi,Accumulo,Kafka,Flume,Oozie,Falcon,Atlas和Zookeeper

    日志分析器-分析大数据组件的客户日志,例如HDFS,Hive,HBase,Yarn,MapReduce,Storm,Spark,Spark 2,Knox,Ambari Metrics,Nifi,Accumulo,Kafka,Flume,Oozie,Falcon,Atlas和Zookeeper。 内部架构 分析...

    Kafka集成Spark Streaming并写入数据到HBase

    Spark Streaming支持多种数据源,如Kafka、Flume、Twitter等,并且可以将处理结果写入HDFS、HBase等存储系统。 **HBase概述** HBase是构建在Hadoop文件系统(HDFS)之上,面向列的NoSQL数据库,适合处理大规模数据...

    MySql准实时同步数据到HDFS(单机版).docx

    4. **Flume到HDFS**: Flume配置为HDFS sink,将接收到的Kafka消息持久化到HDFS,实现数据的存储。 ### **环境配置** - **操作系统**: 使用CentOS7作为基础平台,可以从阿里云镜像站下载不同版本的ISO镜像进行安装...

    基于Spark的高校数据分析系统

    介绍 基于Spark的高校数据分析系统 。同时实现了Spark-core(被注释了);Spark-ML,Spark-streaming。...运行环境:centos 6.x、java、kafka、zookeeper、Flume、Hbase、HDFS、YARN、Spark、MySQl。

    大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南

    包括Hadoop、Hive、Spark、Storm、Flink、HBase、Kafka、Zookeeper、Flume、Sqoop等技术的学习 Hadoop 分布式文件存储系统 —— HDFS 分布式计算框架 —— MapReduce 集群资源管理器 —— YARN Hadoop 单机伪集群...

    大数据开发简历项目部分.pdf

    开发环境包括flume、kafka、storm、zookeeper、hadoop、hive、spark、hbase和Phoenix。职责描述涉及数据源收集和清洗、hive表模型的设计和调优、SparkSql与Hive整合的数据ETL处理,以及hbase的数据存储和调优。 4. ...

    hadoop-Apache2.7.3+Spark2.0集群搭建

    综上所述,搭建一个包含Hadoop、Spark、Zookeeper、Hive、Hbase、Kafka、Flume的集群,涉及了系统的硬件与软件准备、网络配置、服务安装与配置、集群管理以及故障排除等多个方面的知识点。对于希望在大数据领域进行...

Global site tag (gtag.js) - Google Analytics