`
qianshangding
  • 浏览: 127878 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Flume采用zookeeper管理配置

 
阅读更多

Flume支持通过zookeeper来管理Agent的配置,但是这是一个实验性的功能。配置文件必须先上传到zookeeper中。以下Agent在Zookeeper节点树的结构:

- /flume
 |- /a1 [Agent配置文件]
 |- /a2 [Agent配置文件]
处理配置文件的类:

org.apache.flume.node.PollingZooKeeperConfigurationProvider : 如果zookeeper指定的路径有变更,就从Zookeeper重新获取配置文件。
org.apache.flume.node.StaticZooKeeperConfigurationProvider : 启动Flume后,不会重新加载配置文件,即使Zookeeper的配置文件有变更。
org.apache.flume.agent.embedded.MemoryConfigurationProvider : 从存储中读取配置文件。传入数据格式是Map。
org.apache.flume.node.PollingPropertiesFileConfigurationProvider : 定时冲硬盘读取配置文件。


org.apache.flume.node.AbstractZooKeeperConfigurationProvider创建Zookeeper客户端:

  protected CuratorFramework createClient() {
    return CuratorFrameworkFactory.newClient(zkConnString,
        new ExponentialBackoffRetry(1000, 1));
  }

Flume采用Curator作为zookeeper的客户端,Curator是Netflix公司开源的一个Zookeeper客户端,与Zookeeper提供的原生客户端相比,Curator的抽象层次更高,简化了Zookeeper客户端的开发量。


Curator的maven配置:

<dependency>
    <groupId>org.apache.curator</groupId>
    <artifactId>apache-curator</artifactId>
    <version>2.9.0</version>
</dependency>


Zookeeper还有一个原生态的客户端,maven配置:

<dependency>
    <groupId>org.apache.zookeeper</groupId>
    <artifactId>zookeeper</artifactId>
    <version>3.4.6</version>
</dependency>


使用原生态的客户端,上传配置文件flume-zookeeper.properties到zookeeper集群:

	@Test
	public void uploadFileToZK() throws KeeperException, InterruptedException {
		String propFilePath = "D:\\flume-zookeeper.properties";

		ZooKeeper zk = null;
		try {
			zk = new ZooKeeper("10.0.1.85:2181,10.0.1.86:2181,10.0.1.87:2181", 300000, new Watcher() {
				// 监控所有被触发的事件
				public void process(WatchedEvent event) {
					System.out.println("已经触发了" + event.getType() + "事件!");
				}
			});
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		if (zk.exists("/flume", true) == null) {
			zk.create("/flume", null, Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
		}
		InputStream is = null;
		ByteArrayOutputStream bytestream = null;
		byte[] data = null;
		try {
			is = new FileInputStream(propFilePath);
			bytestream = new ByteArrayOutputStream();
			int ch;
			while ((ch = is.read()) != -1) {
				bytestream.write(ch);
			}
			data = bytestream.toByteArray();
			System.out.println(new String(data));
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			try {
				bytestream.close();
				is.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
		}

		// 创建一个目录节点
		Stat stat = zk.exists("/flume/a1", true);
		if (stat == null) {
			zk.create("/flume/a1", data, Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
		} else {
			zk.delete("/flume/a1", stat.getVersion());
			zk.create("/flume/a1", data, Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
		}
	}

	@Test
	public void get() throws KeeperException, InterruptedException {
		ZooKeeper zk = null;
		try {
			zk = new ZooKeeper("10.0.1.85:2181,10.0.1.86:2181,10.0.1.87:2181", 300000, new Watcher() {
				// 监控所有被触发的事件
				public void process(WatchedEvent event) {
					System.out.println("已经触发了" + event.getType() + "事件!");
				}
			});
		} catch (IOException e) {
			e.printStackTrace();
		}
		System.out.println(new String(zk.getData("/flume/a1", true, null)));
	}

flume-zookeeper.properties配置文件内容:

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
      
a1.sources.r1.channels = c1
a1.sources.r1.type = AVRO
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 41414 

a1.sinks.k1.channel = c1
a1.sinks.k1.type = file_roll
a1.sinks.k1.sink.directory = /logs/
a1.sinks.k1.sink.rollInterval = 0

a1.channels = c1
a1.sources = r1
a1.sinks = k1

avro获取数据,通过Memory Channel写入文件中。

配置文件上传到Zookeeper后,通过如下命令启动Flume:
$ bin/flume-ng agent –conf conf -z 10.0.1.85:2181,10.0.1.86:2181,10.0.1.87:2181 -p /flume –name a1 -Dflume.root.logger=INFO,console
参数名称默认值描述
z Zookeeper的连接字符串hostname:port列表通过逗号分隔。
p /flume Agent配置文件的根路径。
zookeeper中的配置如果有更新,Flume会通过PollingZooKeeperConfigurationProvider类的refreshConfiguration方法重新加载配置:
private void refreshConfiguration() throws IOException {
    LOGGER.info("Refreshing configuration from ZooKeeper");
    byte[] data = null;
    ChildData childData = agentNodeCache.getCurrentData();
    if (childData != null) {
      data = childData.getData();
    }
    flumeConfiguration = configFromBytes(data);
    eventBus.post(getConfiguration());
  }

分享到:
评论

相关推荐

    flume+mysql+zookeeper.zip

    MySQL是一款广泛使用的开源关系型数据库,而Zookeeper是Apache的一个分布式协调服务,它为分布式应用程序提供了简单一致的命名服务、配置管理、组服务等。Hadoop则是分布式存储和计算框架,提供了海量数据的处理能力...

    spark环境安装(Hadoop HA+Hbase+phoneix+kafka+flume+zookeeper+spark+scala)

    本项目旨在搭建一套完整的Spark集群环境,包括Hadoop HA(高可用)、HBase、Phoenix、Kafka、Flume、Zookeeper以及Scala等多个组件的集成。这样的环境适用于大规模的数据处理与分析任务,能够有效地支持实时数据流...

    flume及kafka及storm搭建.rar

    - 修改`conf/flume.conf`配置文件,根据实际需求设置Sources、Channels和Sinks。 - 配置数据源,例如从HTTP服务器获取日志,使用http source。 - 配置数据目标,如将数据发送到Kafka,使用kafka sink。 2. **...

    apache-flume-1.9.0-bin.tar,kafka_2.11-0.10.1.0,zookeeper-3.3.6_.tar

    Apache ZooKeeper是一个开源的分布式协调服务,它是集群中的一个可信赖的第三方,负责管理命名服务、配置管理、组服务、领导选举等任务。ZooKeeper基于简单的键值对存储,但其核心价值在于它提供的强一致性保证和...

    flume+hbase+sqoop+zookeeper的整合包

    它提供了一个可靠的、高性能的分布式同步服务,用于解决命名服务、配置管理、组服务、领导者选举等问题。在Hadoop生态系统中,ZooKeeper被用作集群管理和协调,例如管理HBase的RegionServer分布和Flume的数据流路径...

    flume-kafka流程

    通过上述步骤,我们成功实现了Flume与Kafka的集成,具体包括了ZooKeeper的安装与启动、Kafka服务的配置与启动、Flume Agent的配置与启动、数据的生成与发送以及数据的消费等环节。这种集成方式不仅能够实现大规模的...

    zookeeper+kafka+storm基本介绍

    ### Zookeeper 基本介绍 #### Zookeeper 概述 Zookeeper 是一款开源的分布式协调服务,主要用于解决分布式环境中的一致性问题。...无论是配置管理、集群管理还是领导选举等场景,Zookeeper 都能提供稳定可靠的支持。

    flume与kafka整合需要的jar包

    4. `zookeeper.jar`:Apache ZooKeeper的jar包,Kafka通常依赖ZooKeeper来管理集群元数据。 5. `commons-lang3.jar`和`commons-configuration.jar`:Apache Commons库,提供额外的编程工具和配置支持。 6. `flume-ng...

    Flume+kafka+Storm整合

    #### 二、Flume配置详解 1. **下载Flume:** - 下载Flume的最新版本(例如 Apache Flume 1.5.0)。 - 命令行输入 `wget http://archive.apache.org/dist/flume/1.5.0/apache-flume-1.5.0-bin.tar.gz` 下载。 2. ...

    flume,kafka,storm整合

    - **Zookeeper配置**: - 复制`zoo_sample.cfg`为`zoo.cfg`,修改配置文件中的端口号为21810。 - **Kafka配置**: - 修改`server.properties`配置文件,保持默认端口9092。 - **Flume配置**: - 更新`flume-...

    Flume采集数据到Kafka,然后从kafka取数据存储到HDFS的方法思路和完整步骤

    - **解决方案**:仔细检查Flume配置文件,确保数据源、Channel和Sink配置无误。 **5.2 权限问题** - **原因**:在HDFS上存储数据时可能会遇到权限问题。 - **解决方案**:使用`hadoop fs -chmod`命令更改HDFS文件...

    flume kafak实验报告.docx

    2. **Flume 与 Spark Streaming 集成**:在 DEA(可能是开发环境或服务器)上,通过 Maven 管理项目,将 `spark-streaming-flume-sink_2.11-2.4.2.jar` 添加到 Flume 安装目录的 `lib` 文件夹。由于文件权限问题,...

    kafka+flume 实时采集oracle数据到hive中.docx

    然后,需要配置Flume的配置文件flume.conf,指定Kafka Topic和HDFS的路径。 首先,需要创建一个Kafka Topic,使用命令./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions...

    Zookeeper概述

    - **配置管理**:通过Zookeeper统一管理集群中的配置文件,实现动态更新和分发。 - **集群管理**:实时监控集群中各节点的状态,便于做出相应的管理决策。 - **分布式通知/协调**:实现服务间的状态同步,增强系统的...

    全国首份接地气流处理文档,kafka,flume,整合

    - 修改Zookeeper配置文件`zoo.cfg`,设置如下参数: ```properties tickTime=2000 initLimit=10 syncLimit=5 dataDir=/home/hadoop/zookeeper-3.4.8/data dataLogDir=/data/zookeeper/zkdatalog clientPort=...

    flume与kafka整合高可靠教程

    在本教程中,我们将从安装 Kafka 和 Flume 开始,然后配置 Flume,使其将数据传输到 Kafka。 一、安装 Kafka 在本教程中,我们使用的 Kafka 版本为 kafka_2.11-0.9.0.1.tgz。首先,需要安装 Zookeeper,因为 Kafka...

    flume+kafka+storm最完整讲解

    Flume 的配置文件 `flume-kafka-conf.properties` 中,source 使用 spooldir 类型,这意味着 Flume 将监视一个指定的目录,一旦检测到新文件,它就会读取并传输这些文件。sink 则配置为 `org.apache.flume.sink....

    Kafka+Flume-ng搭建

    - **作为Producer的Flume端配置**: ```properties # example-producer.conf: Asingle-node Flume configuration # Name the components on this agent producer.sources=s producer.channels=c producer....

    flume解析日志所需jar

    总结来说,"flume解析日志所需jar"涉及到的技术点包括:Flume的基本架构、Kafka Source、日志解析、Channel、HBase和Elasticsearch的Sink配置,以及Flume类路径的管理。理解并掌握这些知识点对于构建高效的数据流...

    apache-flume-1.7.0-bin.zip

    通过 ZooKeeper 或 Chubby 进行协调,可以实现高可用的Flume集群。 10. **性能优化**:Flume支持多线程和批量处理,能够有效地处理高吞吐量的数据流。用户可以通过调整配置参数来优化性能,例如设置通道的容量、...

Global site tag (gtag.js) - Google Analytics