Flume 集群搭建 ,配置了2个sink,负载均衡
三台服务器,分别是
192.168.134.131 master
192.168.134.132 datanodea
192.168.134.133 datanodeb
集群的模式是这样的:
Master
|
=====================
|| ||
DataNodeA DataNodeB
这是master
#agent agent.channels = channel agent.sources = source agent.sinks = node1 node2 agent.sinkgroups = g1 agent.sinkgroups.g1.sinks = node1 node2 agent.sinkgroups.g1.processor.type = load_balance agent.sinkgroups.g1.processor.backoff = true agent.sinkgroups.g1.processor.selector = round_robin agent.sinkgroups.g1.processor.selector.maxTimeOut=10000 #channel agent.channels.channel.type = memory agent.channels.channel.capacity = 1000000 agent.channels.channel.transactionCapacity = 1000000 agent.channels.channel.keep-alive = 10 #source agent.sources.source.channels = channel agent.sources.source.type = avro agent.sources.source.bind = master agent.sources.source.port = 41414 agent.sources.source.threads = 5 #sink #node1 agent.sinks.node1.channel = channel agent.sinks.node1.type = avro agent.sinks.node1.hostname = datanodea agent.sinks.node1.port = 41414 #node2 agent.sinks.node2.channel = channel agent.sinks.node2.type = avro agent.sinks.node2.hostname = datanodeb agent.sinks.node2.port = 41414
这是datanodea
#agent agent.channels = ch1 ch2 agent.sources = source agent.sinks = elasticsearch file agent.source.source.selector.type = replicating #channel agent.channels.ch1.type = memory agent.channels.ch1.capacity = 1000000 agent.channels.ch1.transactionCapacity = 1000000 agent.channels.ch1.keep-alive = 10 agent.channels.ch2.type = memory agent.channels.ch2.capacity = 1000000 agent.channels.ch2.transactionCapacity = 1000000 agent.channels.ch2.keep-alive = 10 #source agent.sources.source.channels = ch1 ch2 agent.sources.source.type = avro agent.sources.source.bind = datanodea agent.sources.source.port = 41414 agent.sources.source.threads = 5 #sink agent.sinks.file.channel = ch1 agent.sinks.file.type = file_roll agent.sinks.file.sink.directory = /opt/flume/data agent.sinks.file.sink.serializer = TEXT agent.sinks.elasticsearch.channel = ch2 agent.sinks.elasticsearch.type = elasticsearch agent.sinks.elasticsearch.hostNames = master:9300 agent.sinks.elasticsearch.indexName = flume_index agent.sinks.elasticsearch.indexType = flume_type agent.sinks.elasticsearch.clusterName = elasticsearch agent.sinks.elasticsearch.batchSize = 1 agent.sinks.elasticsearch.serializer = org.apache.flume.sink.elasticsearch.ElasticSearchDynamicSerializer
这是datanodeb
#agent agent.channels = ch1 ch2 agent.sources = source agent.sinks = elasticsearch file agent.source.source.selector.type = replicating #channel agent.channels.ch1.type = memory agent.channels.ch1.capacity = 1000000 agent.channels.ch1.transactionCapacity = 1000000 agent.channels.ch1.keep-alive = 10 agent.channels.ch2.type = memory agent.channels.ch2.capacity = 1000000 agent.channels.ch2.transactionCapacity = 1000000 agent.channels.ch2.keep-alive = 10 #source agent.sources.source.channels = ch1 ch2 agent.sources.source.type = avro agent.sources.source.bind = datanodeb agent.sources.source.port = 41414 agent.sources.source.threads = 5 #sink agent.sinks.file.channel = ch1 agent.sinks.file.type = file_roll agent.sinks.file.sink.directory = /opt/flume/data agent.sinks.file.sink.serializer = TEXT agent.sinks.elasticsearch.channel = ch2 agent.sinks.elasticsearch.type = elasticsearch agent.sinks.elasticsearch.hostNames = master:9300 agent.sinks.elasticsearch.indexName = flume_index agent.sinks.elasticsearch.indexType = flume_type agent.sinks.elasticsearch.clusterName = elasticsearch agent.sinks.elasticsearch.batchSize = 1 agent.sinks.elasticsearch.serializer = org.apache.flume.sink.elasticsearch.ElasticSearchDynamicSerializer
相关推荐
Flume集群搭建与使用文档 Flume是一种分布式、可靠、可扩展的日志聚合系统,用于收集、聚合和移动大量日志数据。下面是Flume集群搭建与使用文档的知识点总结: Flume集群搭建 1. 硬件环境:三台物理服务器,,每...
1. [Flume 集群搭建](https://1csh1.github.io/2016/04/21/Flume%E9%9B%86%E7%BE%A4%E6%90%AD%E5%BB%BA/) 2. [Flume 配置详解](https://blog.csdn.net/volitationlong/article/details/82186379) 通过以上步骤,你...
3. **集群环境搭建:** 根据官方文档的推荐架构进行Flume集群的搭建,注意使用合适的版本,并正确配置各个组件。 4. **监控配置与使用:** 掌握如何开启和配置Flume的监控功能,以及如何访问和解读监控数据,以便于...
综上所述,搭建这样一个大数据集群需要深入了解每个组件的特性和配置要求,同时还需要具备一定的网络和系统管理知识。过程中可能遇到的问题包括网络配置、权限设置、依赖冲突等,解决这些问题通常需要查阅官方文档、...
### 大数据组件-Flume高可用集群搭建 #### Flume概述 Flume是一个高度可靠的分布式数据收集系统,主要用于从多种数据源收集并传输数据至Hadoop生态系统内进行后续处理。由于其强大的可扩展性和可靠性,Flume在大型...
自己整理的Hadoop环境的一些安装,和一些简单的使用,其中包括Hadoop、hbase、hive、mysql、zookeeper、Kafka、flume。都是一些简单的安装步骤和使用,只在自己的虚拟机(Linux centOS7)上使用测试过。按照步骤一步...
Hadoop&Hbase&Kafka&ZooKeeper&Mysql8.0&Spark&Flume集群搭建文档内涵软件包链接 Anaconda
- 启动Kafka集群以及Flume-ng的各个组件。 - 验证数据是否能够正确地从客户端Flume-ng传输到服务器端Flume-ng,并最终保存至HDFS中。 #### 五、总结 通过上述步骤,我们可以成功搭建起一套Kafka+Flume-ng的数据...
本资源《Kafka集群调优实战+分布式集群搭建》是一部全面覆盖Kafka从基础到进阶、实战到调优的全方位教程。内容涵盖Kafka集群的核心组件讲解、集群架构设计、分布式集群搭建与伪集群配置,帮助读者快速上手Kafka环境...
CentOS集群搭建、Hadoop集群搭建 配置免密 连接外网,Hive安装 Zookeeper搭建 Kafka scala flume安装 Spark搭建及启动
Kafka 集群搭建是整个系统的基础,需要确保 Kafka 能够正常运行。 1. **准备工作**: - 下载并安装 Kafka。具体操作可以参考文档《kafka集群搭建文档.docx》。 - 配置 Kafka 相关参数,如 broker.id、listeners ...
在搭建Hadoop集群时,有三种运行模式:本地模式、伪分布模式和完全分布模式。 1. 本地模式(Local Mode):在单台机器上运行,不使用HDFS,而是直接读写本地文件系统。所有进程都在同一个JVM中运行,主要用于开发和...
cdh5.5.4 集群搭建 【自动化脚本+hadoop-ha,yarn-ha,zk,hbase,hive,flume,kafka,spark】全套高可用环境搭建,还有自动化启动脚本。只需要复制粘贴命令,就可以完成。3台机器。相关资源可以留言发邮件,我发资料。cdh...
此外,搭建过程中也需要注意各个组件之间的网络通信问题,如Zookeeper与Kafka之间的通信、Kafka集群内部的通信,以及Flume和Kafka之间的数据交互。确保通信顺畅需要做好相应的网络安全和权限设置。 总结来看,利用...
在这个“大数据集群搭建aaaa.zip”文件中,可能包含了搭建大数据集群所需的各种步骤、配置文件和指导文档。 首先,大数据集群通常基于Hadoop生态系统,这包括Hadoop Distributed File System (HDFS) 和 MapReduce ...
Hadoop-Apache2.7.3和Spark2.0集群搭建涉及众多步骤和技术细节,下面详细阐述这些知识点。 首先,搭建Hadoop-Apache2.7.3和Spark2.0集群之前,需要了解相关硬件和软件的环境要求。在硬件设备方面,单台物理机应至少...
在大数据处理领域,Flume、Kafka和Storm是三个至关重要的工具,它们分别在数据采集、数据分发和实时处理方面发挥着核心作用。这里我们将深入探讨这三个组件以及如何搭建它们。 1. Flume:Flume是Apache软件基金会的...
Spark集群搭建涉及主节点和工作节点的配置,包括Spark环境变量设置、配置文件spark-defaults.conf和slaves,以及YARN或Mesos等资源管理器的集成。Spark高可用通过设置多个Spark Master节点并配置Zookeeper实现。 ...