故障解决总结:
某flume问题总结:
不论怎么折腾都不sink写入HDFS和本地磁盘
解决方法:
修改HDFS路径、折腾一下,然后还原线上配置,就可以正常写入HDFS和本地磁盘了,虽然看似奇怪,但是以后再遇到这种问题一定要折腾一下HDFS路径然后还原路径。
补数方法:
flume数据采集到HDFS完毕后需要手动执行脚本去补数(HDFS->hive ods表)
vi testbushu.sh
for((w=1;w<=10;w++));
do
if [ -z "$1" ];
then
ydate=`date -d "-${w} day" "+%Y%m%d"`
else
ydate=$1 ydate=`date -d "$ydate" "+%Y%m%d"`
fi
.........................老脚本的执行逻辑...........................
done
某Flume故障解决:
故障描述:
flume采集不到RocketMQ数据,也不报错,RocketMQ消息过不来,Flume启动正常,假死状态。
解决办法:
折腾RocketMQ的namesrvAddr配置,在IP端口后边添加;111 随机字符串,然后保存配置文件,启动Flume,RocketMQ消息就过来了,然后kill-9 pid、还原namesrvAddr的配置重新启动。
agent_gome_live3.sources.source3.namesrvAddr=11.58.22.191:9876;11.58.50.112:9876;111
添加Flume监控:
启动脚本: vi gzztest.sh
nohup ./bin/flume-ng agent -n agent_vshop -c /home/flume/flume1.6/conf/ -f /home/flume/flume1.6/conf/flume-conf-test.properties -Dflume
.log.file=test.log -Dflume.monitoring.type=http -Dflume.monitoring.port=10210 >> ./logs/test.log 2>&1 &
建议启动脚本放到跟bin并行目录 方便启动监控
http://10.112.182.11:10210/metrics 进行监控
crontab -l
#自启动监控脚本
*/10 * * * * sh /home/flume_monitor.sh > /home/flume/monitor/flume_monitor.log 2>&1
flumepid1=$(ps -ef | grep flume | grep Dflume.monitoring.type=http | grep Dflume.monitoring.port=12100 | awk '{print $2}')
if [ -z $flumepid1 ]
then
echo "error:"$flumepid1
cd /home/flume/apache-flume-1.6.0-bin
/home/flume/apache-flume-1.6.0-bin/bin/flume-ng agent -n agent_kafka -c /home/flume/apache-flume-1.6.0-bin/conf/ -f /home/flume/apache-flume-1.6.0-bin/conf/test.properties -Dflume.log.file=test.log -Dflume.monitoring.type=http -Dflume.monitoring.port=12100 2>&1 &
result=${result}"\tagent_name:agent_test"
else
echo "kafka_video correct:"$flumepid1
fi
相关推荐
flume是分布式的,可靠的,用于从不同的来源有效收集 聚集 和 移动 大量的日志数据用以集中式的数据存储的系统。 是apache的一个顶级项目
通过上述命令启动后,可以在windows中使用telnet命令连接到Flume所在机器的相应端口(如44444)发送数据,验证Flume是否正常工作。 进一步地,我们也可以配置更高级的Source类型,如AvroSource,它可以监听AVRO端口...
星环大数据平台提供的Flume使用方法文档是一份面向数据工程师的培训材料,旨在教授如何安装和使用Flume进行数据的分布式采集。文档详细介绍了Flume组件和配置,并通过实验步骤,帮助工程师理解和掌握数据采集的流程...
下面是Flume集群搭建与使用文档的知识点总结: Flume集群搭建 1. 硬件环境:三台物理服务器,,每个服务器拥有2个物理CPU、8个核心和32G内存。 2. 软件环境:64位CentOS release 6.5,JDK版本为1.7.0_60。 3. ...
- **池伟的博客:** 池伟先生在CSDN上发表了多篇关于Flume的详细教程和经验分享,如链接所示,这些文章详细讲解了Flume的安装配置、架构设计以及使用中碰到的问题和解决方案。 ### 知识点总结: 1. **Flume发展历史...
在使用前,你需要根据你的需求配置Flume的配置文件,例如`conf/flume.conf`,定义数据流的源(source)、通道(channel)和接收器(sink)。 在部署Flume时,有几点需要注意: 1. **配置**: 配置文件定义了数据流动...
总结,本实验报告详细介绍了如何将 Flume 作为数据源,通过 Kafka 中继,再由 Spark Streaming 进行实时处理的过程。这种架构在大数据实时分析场景中非常常见,可以有效处理大规模的实时数据流,适用于日志分析、...
例如,配置一个简单的Flume Agent,可以使用`netcat source`从网络接收数据,`memory channel`作为临时存储,最后用`logger sink`将数据打印到控制台。配置文件(如`example.conf`)可能如下所示: ```properties ...
Flume学习思维导图总结
总结,Flume-ES5.X的依赖涵盖了多个核心组件,包括Flume自身、Elasticsearch、Avro等,它们共同构建了一个高效的数据流转平台。自定义Sink是Flume灵活性的体现,允许用户根据业务特性进行定制化开发,从而更好地满足...
总结来说,Apache Flume 是一个强大的数据采集和传输工具,适用于大数据环境中的日志管理和分析。其可定制性、可靠性和灵活性使其成为企业级日志管理和实时数据流处理的首选解决方案。无论是对于监控、分析还是数据...
总结来说,"flume开发相关工具包"是一个全面的资源集合,包含Flume的安装程序和开发所需的库,旨在帮助开发者构建和集成高效的数据流处理系统,尤其适合大数据环境下的日志管理和分析。无论是初学者还是经验丰富的...
总结,Apache Flume 是一个强大的工具,用于管理和处理大规模的日志数据。通过正确安装、配置和使用 Flume,可以实现高效的数据流动和处理,这对于大数据分析和实时监控至关重要。理解 Flume 的基本概念、配置以及...
总结来说,Flume 通过 Thrift 协议与 Python 结合,为日志收集提供了一种灵活且可扩展的方式。Python 应用可以方便地将日志数据推送到 Flume,然后 Flume 将其转发到目标存储,实现高效的数据流处理。这种方式尤其...
在IT行业中,Flume是一个广泛使用的分布式、可靠且可用于有效收集、聚合和移动大量日志数据的工具。它设计的目标是高效地从源抽取数据,然后将其传输到存储系统,如Hadoop HDFS(Hadoop分布式文件系统)。在这个场景...
总结来说,Flume作为一个强大的日志收集工具,其核心在于灵活的配置和可靠的传输机制,使得数据的收集、处理和分发变得更加简单高效。通过理解并实践Flume的基本配置和工作原理,我们可以更好地利用它来构建高效的...
5. **使用Avro客户端向Flume发送数据**: - 执行命令`/usr/local/apache-flume-1.6.0/bin/flume-ng avro-client -c /usr/local/apache-flume-1.6.0/conf -H localhost -p 4141 -F /usr/local/apache-flume-1.6.0/...
- **监控与优化**:可以使用 Ganglia 监控 Flume 的运行状态,当发现提交失败次数过多时,可能需要优化内存大小或增加服务器数量。 5. **自定义组件**: - **自定义拦截器**:实现 Interceptor 接口,包括初始化...