Flume监听文件夹中的文件变化_并把文件下沉到hdfs -

liangyan9966

浏览: 43179 次
性别:
来自: 北京

最近访客更多访客>>

dpjava

limengna845567

eyeLimit

amc1989

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (64)

社区版块

存档分类

2017-06 ( 64)
更多存档...

Flume监听文件夹中的文件变化_并把文件下沉到hdfs

CVS c

阅读全文http://click.aliyun.com/m/23237/
1、采集目录到HDFS
采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去
根据需求，首先定义以下3大要素
采集源，即source——监控文件目录 : spooldir
下沉目标，即sink——HDFS文件系统 : hdfs sink
source和sink之间的传递通道——channel，可用file channel 也可以用内存channel

配置文件spooldir-hdfs.conf编写：

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
##注意：不能往监控目中重复丢同名文件
## 通过spooldir来监控文件内容的变化
a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /home/tuzq/software/flumedata
a1.sources.r1.fileHeader = true

# Describe the sink
## 表示下沉到hdfs，下面配置的类型不同，type下面的参数就不同
a1.sinks.k1.type = hdfs
#sinks.k1只能连接一个channel，source可以配置多个
a1.sinks.k1.channel = c1
#下面的配置告诉用hdfs去写文件的时候写到什么位置，下面的表示不是写死的，而是动态变化的。表示输出的目录名称是可变的
a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/%H%M/
#表示文件的前缀
a1.sinks.k1.hdfs.filePrefix = events-
#表示到了需要触发的时间时，是否要更新文件夹，true:表示要更新
a1.sinks.k1.hdfs.round = true
##表示每隔1分钟改变一下文件夹
a1.sinks.k1.hdfs.roundValue = 1
##切换文件的时候单位是分钟
a1.sinks.k1.hdfs.roundUnit = minute
##表示只要过了3秒钟，就切换生成一个新的文件
a1.sinks.k1.hdfs.rollInterval = 3
##如果记录的文件大于20字节时切换一次
a1.sinks.k1.hdfs.rollSize = 20
##当写了5个事件时触发
a1.sinks.k1.hdfs.rollCount = 5
##收到了多少条消息往hdfs中追加内容
a1.sinks.k1.hdfs.batchSize = 1
#使用本地时间戳
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#生成的文件类型，默认是Sequencefile，可用DataStream，则为普通文本
a1.sinks.k1.hdfs.fileType = DataStream

# Use a channel which buffers events in memory
##使用内存的方式
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
Channel参数解释：
capacity：默认该通道中最大的可以存储的event数量
trasactionCapacity：每次最大可以从source中拿到或者送到sink中的event数量
keep-alive：event添加到通道中或者移出的允许时间
阅读全文http://click.aliyun.com/m/23237/

分享到：

CDN适用哪些场景？ | Flume安装部署_采集方案配置文件编写案例 ...

2017-06-14 15:56
浏览 708
评论(0)
分类:研发管理
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

flume.docx的配置与整合: 4. **利用 tail 命令获取数据**：如 `tail -F` 命令可以实时监控文件的变化，结合 Flume Source，可以持续地从文件中收集新增数据并下沉到 HDFS。在配置中，`a1.sources.r1.command = tail -F /home/hadoop/log/...

hadoop-辅助工具-笔记.docx: 每当新文件出现，Flume会自动读取并将其内容传输到HDFS。完成采集的文件会被添加"COMPLETED"后缀，以标识处理状态。总结来说，Hadoop辅助工具Flume在大数据处理系统中扮演着至关重要的角色，它简化了日志数据的...

计算机术语.pdf: 计算机术语.pdf

包括缺陷和有限视场效应的Etalon模型 matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

基于PLC和组态软件的智能停车场收费系统：电气控制与梯形图程序详解: 内容概要：本文详细介绍了基于PLC（可编程逻辑控制器）和组态软件的智能停车场收费系统的实现方法和技术细节。首先，文章概述了系统的总体架构，指出PLC用于控制停车场的电气设备，而组态软件则提供直观的操作界面。接着，深入解析了PLC梯形图程序的具体逻辑，包括车辆检测、闸门控制、收费计算等功能模块。此外，文章还讨论了接线图的设计原则和注意事项，如防止电磁干扰、确保系统稳定性的措施。最后，介绍了组态画面的设计思路及其优化方法，如动态显示车位状态、实时更新收费信息等。通过这些内容，读者能够全面了解智能停车场收费系统的内部运作机制。适合人群：从事自动化控制、工业物联网、智能交通等领域的工作技术人员，尤其是对PLC编程和组态软件应用感兴趣的工程师。使用场景及目标：适用于新建或改造停车场项目的规划与实施阶段，帮助工程师理解和设计类似的自动化控制系统，提高停车场管理效率和服务质量。其他说明：文中提供了大量实际案例和技术细节，有助于读者更好地掌握相关技术和应对实际工程中的挑战。

MATLAB实现电-气-热综合能源系统耦合优化调度模型: 内容概要：本文详细介绍了利用MATLAB及其工具箱YALMIP和求解器CPLEX/Gurobi构建电-气-热综合能源系统耦合优化调度模型的方法。首先，文章描述了电网部分采用39节点系统进行直流潮流建模，气网部分则使用比利时20节点配气网，并对Weymouth方程进行了线性化处理，将非线性问题转化为线性规划问题。热网部分引入了热电联产(CHP)和电转气(P2G)设备，实现了热电耦合。通过模块化设计，代码能够灵活地添加新的能量存储或转换设备。实验结果显示，相比单一网络优化，三网耦合优化降低了12.6%的系统总成本，并显著改善了负荷峰谷差。适合人群：从事能源系统优化研究的专业人士，尤其是熟悉MATLAB编程和优化理论的研究人员和技术人员。使用场景及目标：适用于希望深入了解综合能源系统耦合优化调度机制的研究人员和技术人员。主要目标是掌握如何使用MATLAB搭建电-气-热耦合优化模型，理解各个子系统的数学建模方法以及它们之间的相互作用。其他说明：文中提供了详细的代码片段和解释，帮助读者更好地理解和复现模型。此外，还讨论了一些实际应用中的注意事项，如求解器的选择、参数调优等。

计算机三级网络机试考试试题及答案(下).pdf: 计算机三级网络机试考试试题及答案(下).pdf

NX MCD时序仿真中机械臂抓取仿真的参数配置与PLC联动实现: 内容概要：本文详细介绍了使用NX MCD进行机械臂抓取仿真的方法和技术要点。首先探讨了运行时参数的配置，如夹爪力度的动态调整和位置控制的脚本编写。接着讨论了条件仿真序列的设计，包括状态机跳转、阻塞等待、异步响应和超时保护等关键概念。此外，文章还讲解了与PLC的联合仿真，展示了如何通过TIA Portal实现抓取力度的动态补偿以及信号同步。最后分享了一些实用的调试技巧，如使用半速模式观察力学变化、设置碰撞检测触发器等。适合人群：从事自动化设备开发、机械臂控制系统设计的技术人员，尤其是对NX MCD和PLC有一定了解的工程师。使用场景及目标：适用于需要进行复杂机械臂抓取仿真的项目，帮助工程师更好地理解和掌握NX MCD与时序仿真的核心技术，提高仿真精度和可靠性。其他说明：文中提供了大量具体的代码片段和配置示例，便于读者快速上手实践。同时强调了参数化配置的重要性，指出这是为了在现场调试时提供更大的灵活性。

计算机数控系统.pdf: 计算机数控系统.pdf

基于Qt框架的音频采集与播放工具: 本人创作，禁止商用

大型流水线贴膜机PLC与触摸屏程序：初学者必备的工业控制项目: 内容概要：本文详细介绍了一款大型流水线贴膜机的PLC程序和触摸屏程序，涵盖多个控制工艺如上下气缸控制、输送带电机控制、贴膜伺服控制等。程序适用于西门子S7-1200 PLC和KTP700触摸屏，支持V13及以上版本。文中提供了详细的代码示例和分析，解释了各个控制部分的工作原理及其优化技巧。此外，还介绍了异常处理机制、报警处理模块、以及触摸屏界面上的一些实用功能，如动画流程图显示和参数微调。适合人群：工业自动化领域的初学者，尤其是对PLC编程和运动控制感兴趣的工程师和技术人员。使用场景及目标：① 学习PLC编程和触摸屏程序设计的基础知识；② 掌握常见工业控制元件的编程方法和优化技巧；③ 提高对复杂控制系统的设计和调试能力。其他说明：文章强调了程序中的关键技术和注意事项，如定时器保护、光电开关连锁、位置补偿算法等，有助于初学者避免常见错误并提高系统的可靠性和安全性。

基于51单片机的多点测温系统：利用DS18B20传感器与LCD1602实现实时温度监测: 内容概要：本文详细介绍了基于51单片机的多点测温系统的构建方法。系统采用五个DS18B20数字温度传感器进行温度采集，并将数据实时显示在LCD1602屏幕上。文中涵盖了硬件连接、单总线通信协议、温度读取与显示的具体实现细节，以及常见问题的解决方案。特别强调了ROM匹配算法的应用，确保多个传感器在同一总线上能够正确通信。此外，还提供了Proteus仿真的注意事项和一些调试技巧。适合人群：对嵌入式系统开发感兴趣的初学者和有一定单片机基础的研发人员。使用场景及目标：适用于恒温箱监控、多房间温控等应用场景，旨在帮助开发者掌握多点温度监测系统的搭建方法和技术要点。其他说明：文中附有完整的硬件连接图和核心代码片段，便于读者理解和实践。同时提到了一些扩展功能，如温度单位切换、阈值报警等，增加了项目的趣味性和实用性。

直流电机模糊PID控制技术详解及其Python与C语言实现: 内容概要：本文详细介绍了将模糊控制与传统PID相结合应用于直流电机控制的方法。首先阐述了传统PID控制在面对负载突变或转速大幅变化时的局限性，随后引入模糊PID的概念并展示了具体的实现步骤。文中提供了完整的Python和C语言代码示例，涵盖模糊规则表的设计、隶属度函数的选择以及参数自适应调整机制。此外，作者还分享了多个实用的经验技巧，如参数调整范围限制、误差量化因子选择、抗积分饱和算法的应用等。并通过实验数据对比证明了模糊PID相比传统PID在响应速度和稳定性方面的优势。适合人群：具有一定自动化控制理论基础和技术实践经验的研发人员，尤其是从事电机控制系统开发的技术人员。使用场景及目标：适用于需要提高直流电机控制系统鲁棒性和响应速度的实际工程项目。主要目标是在保持系统稳定的前提下，缩短调节时间和减少超调量，从而提升整体性能。其他说明：尽管模糊PID能够显著改善某些特定条件下的控制效果，但仍需注意合理设置初始参数和调整幅度限制。同时，对于不同类型的电机和应用场景，可能还需要进一步优化模糊规则和隶属度函数。

计算机试题office应用.pdf: 计算机试题office应用.pdf

强化学习算法的功能实现，举了一个小例子，运行无问题 matlab代码.rar: 1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

基于多目标粒子群算法的CCHP联供系统MATLAB优化代码解析与应用: 内容概要：本文详细介绍了用于冷热电联供系统(CCHP)的多目标粒子群优化(MOPSO)算法MATLAB实现。该代码通过动态惯性权重、轮盘赌全局最优选取和约束集成等特性，解决了燃气轮机出力与风光发电波动的平衡问题，优化了电制冷机和锅炉的启停策略，从而提高系统的经济性和环保性能。文中展示了核心代码片段，如粒子位置更新、适应度函数构建、约束处理策略以及帕累托前沿筛选等，强调了工程化思维的应用，如设备启停控制、风光预测处理等。适合人群：从事能源系统优化的研究人员、工程师和技术爱好者，尤其是对MATLAB编程和多目标优化算法有一定了解的人士。使用场景及目标：适用于需要优化冷热电联供系统运行策略的场合，旨在实现系统运行成本最小化和碳排放量最低的目标。具体应用场景包括但不限于：工业园区能源管理、分布式能源系统调度、智能电网优化等。其他说明：该代码不仅提供了理论上的优化方案，还通过实际案例验证了其有效性，如在夏季负荷高峰场景下的动态调度策略。此外，代码具有良好的扩展性和实用性，支持多种设备模型和目标函数的定制化修改。

计算机求职笔试内容与分类: 计算机求职笔试内容与分类

料箱输送线程序：WCS与PLC的Socket接口及分拣控制详解: 内容概要：本文详细介绍了欧洲进口料箱分拣系统的程序架构及其核心技术。系统采用西门子S7-1500 PLC作为控制器，通过Socket接口实现WCS（仓储控制系统）与PLC之间的高效通信。文中展示了PLC端的Socket服务端代码，以及分拣逻辑的具体实现，包括动态权重算法优化分拣路径、异常处理机制、变频器控制和报警处理模块的设计。此外，文章还探讨了硬件配置如扫码枪、直流辊筒电机和变频器的作用，以及程序中的模块化设计和工业级代码规范。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对PLC编程、WCS集成和工业物联网感兴趣的读者。使用场景及目标：适用于需要深入了解料箱输送线控制系统的工作原理、优化分拣效率、提高系统可靠性和稳定性的应用场景。目标是帮助读者掌握WCS与PLC的Socket通信设计、分拣逻辑优化及硬件配置的最佳实践。其他说明：文章不仅提供了详细的代码示例，还分享了许多实际调试经验和设计思路，有助于读者更好地理解和应用相关技术。

三菱FX5U PLC ST语言螺丝机程序详解：涵盖轴控制、气缸逻辑及触摸屏交互的标准模板: 内容概要：本文详细介绍了基于三菱FX5U PLC的螺丝机项目的ST语言程序，涵盖了轴控制、气缸逻辑以及威纶通触摸屏交互的设计与实现。程序采用功能块（FB）封装的方式，将复杂的运动控制和气缸操作简化为易于理解和使用的模块。轴控制部分利用状态机实现了伺服回原点等功能，并加入了类型校验和异常处理机制。气缸控制则通过状态机和超时保护确保可靠性。触摸屏程序通过严格的变量映射和结构化设计，实现了PLC与HMI的无缝对接。此外，还包括详细的注释和报警处理机制，使得系统更加健壮。适合人群：具备PLC编程基础的技术人员，尤其是对三菱FX系列PLC和ST语言感兴趣的工程师。使用场景及目标：适用于需要深入了解PLC编程和工业自动化系统的工程师，帮助他们在实际项目中快速掌握ST语言的应用技巧，提高开发效率并减少调试时间。其他说明：文中提供了大量实际案例和技术细节，如轴控制、气缸控制、触摸屏交互等，有助于读者更好地理解和应用相关技术。同时，丰富的注释和错误处理机制也为后续维护提供了便利。

地铁线路最短路径规划1.1版本: 帮助用户规划地铁出行路线

最近访客 更多访客>>