Flume支持通过zookeeper来管理Agent的配置,但是这是一个实验性的功能。配置文件必须先上传到zookeeper中。以下Agent在Zookeeper节点树的结构:
- /flume
|- /a1 [Agent配置文件]
|- /a2 [Agent配置文件]
处理配置文件的类:
org.apache.flume.node.PollingZooKeeperConfigurationProvider : 如果zookeeper指定的路径有变更,就从Zookeeper重新获取配置文件。
org.apache.flume.node.StaticZooKeeperConfigurationProvider : 启动Flume后,不会重新加载配置文件,即使Zookeeper的配置文件有变更。
org.apache.flume.agent.embedded.MemoryConfigurationProvider : 从存储中读取配置文件。传入数据格式是Map。
org.apache.flume.node.PollingPropertiesFileConfigurationProvider : 定时冲硬盘读取配置文件。
org.apache.flume.node.AbstractZooKeeperConfigurationProvider创建Zookeeper客户端:
protected CuratorFramework createClient() {
return CuratorFrameworkFactory.newClient(zkConnString,
new ExponentialBackoffRetry(1000, 1));
}
Flume采用Curator作为zookeeper的客户端,Curator是Netflix公司开源的一个Zookeeper客户端,与Zookeeper提供的原生客户端相比,Curator的抽象层次更高,简化了Zookeeper客户端的开发量。
Curator的maven配置:
<dependency>
<groupId>org.apache.curator</groupId>
<artifactId>apache-curator</artifactId>
<version>2.9.0</version>
</dependency>
Zookeeper还有一个原生态的客户端,maven配置:
<dependency>
<groupId>org.apache.zookeeper</groupId>
<artifactId>zookeeper</artifactId>
<version>3.4.6</version>
</dependency>
使用原生态的客户端,上传配置文件flume-zookeeper.properties到zookeeper集群:
@Test
public void uploadFileToZK() throws KeeperException, InterruptedException {
String propFilePath = "D:\\flume-zookeeper.properties";
ZooKeeper zk = null;
try {
zk = new ZooKeeper("10.0.1.85:2181,10.0.1.86:2181,10.0.1.87:2181", 300000, new Watcher() {
// 监控所有被触发的事件
public void process(WatchedEvent event) {
System.out.println("已经触发了" + event.getType() + "事件!");
}
});
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
if (zk.exists("/flume", true) == null) {
zk.create("/flume", null, Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
}
InputStream is = null;
ByteArrayOutputStream bytestream = null;
byte[] data = null;
try {
is = new FileInputStream(propFilePath);
bytestream = new ByteArrayOutputStream();
int ch;
while ((ch = is.read()) != -1) {
bytestream.write(ch);
}
data = bytestream.toByteArray();
System.out.println(new String(data));
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
bytestream.close();
is.close();
} catch (IOException e) {
e.printStackTrace();
}
}
// 创建一个目录节点
Stat stat = zk.exists("/flume/a1", true);
if (stat == null) {
zk.create("/flume/a1", data, Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
} else {
zk.delete("/flume/a1", stat.getVersion());
zk.create("/flume/a1", data, Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
}
}
@Test
public void get() throws KeeperException, InterruptedException {
ZooKeeper zk = null;
try {
zk = new ZooKeeper("10.0.1.85:2181,10.0.1.86:2181,10.0.1.87:2181", 300000, new Watcher() {
// 监控所有被触发的事件
public void process(WatchedEvent event) {
System.out.println("已经触发了" + event.getType() + "事件!");
}
});
} catch (IOException e) {
e.printStackTrace();
}
System.out.println(new String(zk.getData("/flume/a1", true, null)));
}
flume-zookeeper.properties配置文件内容:
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.sources.r1.channels = c1
a1.sources.r1.type = AVRO
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 41414
a1.sinks.k1.channel = c1
a1.sinks.k1.type = file_roll
a1.sinks.k1.sink.directory = /logs/
a1.sinks.k1.sink.rollInterval = 0
a1.channels = c1
a1.sources = r1
a1.sinks = k1
avro获取数据,通过Memory Channel写入文件中。
配置文件上传到Zookeeper后,通过如下命令启动Flume:
$ bin/flume-ng agent –conf conf -z 10.0.1.85:2181,10.0.1.86:2181,10.0.1.87:2181 -p /flume –name a1 -Dflume.root.logger=INFO,console
参数名称
默认值
描述
z
|
–
|
Zookeeper的连接字符串hostname:port列表通过逗号分隔。
|
p
|
/flume
|
Agent配置文件的根路径。
|
zookeeper中的配置如果有更新,Flume会通过PollingZooKeeperConfigurationProvider类的refreshConfiguration方法重新加载配置:private void refreshConfiguration() throws IOException {
LOGGER.info("Refreshing configuration from ZooKeeper");
byte[] data = null;
ChildData childData = agentNodeCache.getCurrentData();
if (childData != null) {
data = childData.getData();
}
flumeConfiguration = configFromBytes(data);
eventBus.post(getConfiguration());
}
分享到:
相关推荐
MySQL是一款广泛使用的开源关系型数据库,而Zookeeper是Apache的一个分布式协调服务,它为分布式应用程序提供了简单一致的命名服务、配置管理、组服务等。Hadoop则是分布式存储和计算框架,提供了海量数据的处理能力...
本项目旨在搭建一套完整的Spark集群环境,包括Hadoop HA(高可用)、HBase、Phoenix、Kafka、Flume、Zookeeper以及Scala等多个组件的集成。这样的环境适用于大规模的数据处理与分析任务,能够有效地支持实时数据流...
- 修改`conf/flume.conf`配置文件,根据实际需求设置Sources、Channels和Sinks。 - 配置数据源,例如从HTTP服务器获取日志,使用http source。 - 配置数据目标,如将数据发送到Kafka,使用kafka sink。 2. **...
Apache ZooKeeper是一个开源的分布式协调服务,它是集群中的一个可信赖的第三方,负责管理命名服务、配置管理、组服务、领导选举等任务。ZooKeeper基于简单的键值对存储,但其核心价值在于它提供的强一致性保证和...
它提供了一个可靠的、高性能的分布式同步服务,用于解决命名服务、配置管理、组服务、领导者选举等问题。在Hadoop生态系统中,ZooKeeper被用作集群管理和协调,例如管理HBase的RegionServer分布和Flume的数据流路径...
通过上述步骤,我们成功实现了Flume与Kafka的集成,具体包括了ZooKeeper的安装与启动、Kafka服务的配置与启动、Flume Agent的配置与启动、数据的生成与发送以及数据的消费等环节。这种集成方式不仅能够实现大规模的...
### Zookeeper 基本介绍 #### Zookeeper 概述 Zookeeper 是一款开源的分布式协调服务,主要用于解决分布式环境中的一致性问题。...无论是配置管理、集群管理还是领导选举等场景,Zookeeper 都能提供稳定可靠的支持。
4. `zookeeper.jar`:Apache ZooKeeper的jar包,Kafka通常依赖ZooKeeper来管理集群元数据。 5. `commons-lang3.jar`和`commons-configuration.jar`:Apache Commons库,提供额外的编程工具和配置支持。 6. `flume-ng...
#### 二、Flume配置详解 1. **下载Flume:** - 下载Flume的最新版本(例如 Apache Flume 1.5.0)。 - 命令行输入 `wget http://archive.apache.org/dist/flume/1.5.0/apache-flume-1.5.0-bin.tar.gz` 下载。 2. ...
- **Zookeeper配置**: - 复制`zoo_sample.cfg`为`zoo.cfg`,修改配置文件中的端口号为21810。 - **Kafka配置**: - 修改`server.properties`配置文件,保持默认端口9092。 - **Flume配置**: - 更新`flume-...
- **解决方案**:仔细检查Flume配置文件,确保数据源、Channel和Sink配置无误。 **5.2 权限问题** - **原因**:在HDFS上存储数据时可能会遇到权限问题。 - **解决方案**:使用`hadoop fs -chmod`命令更改HDFS文件...
2. **Flume 与 Spark Streaming 集成**:在 DEA(可能是开发环境或服务器)上,通过 Maven 管理项目,将 `spark-streaming-flume-sink_2.11-2.4.2.jar` 添加到 Flume 安装目录的 `lib` 文件夹。由于文件权限问题,...
然后,需要配置Flume的配置文件flume.conf,指定Kafka Topic和HDFS的路径。 首先,需要创建一个Kafka Topic,使用命令./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions...
- **配置管理**:通过Zookeeper统一管理集群中的配置文件,实现动态更新和分发。 - **集群管理**:实时监控集群中各节点的状态,便于做出相应的管理决策。 - **分布式通知/协调**:实现服务间的状态同步,增强系统的...
- 修改Zookeeper配置文件`zoo.cfg`,设置如下参数: ```properties tickTime=2000 initLimit=10 syncLimit=5 dataDir=/home/hadoop/zookeeper-3.4.8/data dataLogDir=/data/zookeeper/zkdatalog clientPort=...
在本教程中,我们将从安装 Kafka 和 Flume 开始,然后配置 Flume,使其将数据传输到 Kafka。 一、安装 Kafka 在本教程中,我们使用的 Kafka 版本为 kafka_2.11-0.9.0.1.tgz。首先,需要安装 Zookeeper,因为 Kafka...
Flume 的配置文件 `flume-kafka-conf.properties` 中,source 使用 spooldir 类型,这意味着 Flume 将监视一个指定的目录,一旦检测到新文件,它就会读取并传输这些文件。sink 则配置为 `org.apache.flume.sink....
- **作为Producer的Flume端配置**: ```properties # example-producer.conf: Asingle-node Flume configuration # Name the components on this agent producer.sources=s producer.channels=c producer....
总结来说,"flume解析日志所需jar"涉及到的技术点包括:Flume的基本架构、Kafka Source、日志解析、Channel、HBase和Elasticsearch的Sink配置,以及Flume类路径的管理。理解并掌握这些知识点对于构建高效的数据流...
通过 ZooKeeper 或 Chubby 进行协调,可以实现高可用的Flume集群。 10. **性能优化**:Flume支持多线程和批量处理,能够有效地处理高吞吐量的数据流。用户可以通过调整配置参数来优化性能,例如设置通道的容量、...