FlumeBase是一个建立在Flume之上的数据驱动的流处理系统。这个系统允许用户动态的向数据收集环境插入查询并且监控被Flume收集到的事件流。这些查询可能是抽样调查输入的数据,也可能是指定固定的监控,也可能是数据转换或者是质量过滤任务。这些查询是用一个类似于SQL的名为“rtsql”语言编写的。
FlumeBase可以把数据反馈给一个在交互的shell环境下的用户。它也可以配置成把输出的事件流返回到Flume网络中,用于被其他的工具使用或者持久化到Hbase、HDFS或者其他的存储介质中。
这个系统强调对被Flume捕获到的输入数据的低延迟分析。“rtsql”语言的名字强调了系统的实时查询特性,也说明了衍生于基于SQL的查询语言语法。FlumeBase被期望于在把被Flume捕捉的数据被用类似于Hadoop一样的工具去深入分析(可能是高延时的)之前,可以允许你执行有效的in-line数据转换或者过滤,或者有时效性的消息或者是一个更广泛系统的调谐。
警告FlumeBase是一个实验性的系统!现在还不能满足生产环境使用的要求。把这个系统连接到Flume生产环境的节点上可能会导致数据丢失,错配置或者其他比较严重的问题。
FlumeBase系统是由一个命令行客户端、一个成为执行环境的服务器和负责收集和传输数据的Flume系统组成。这些可能被配置为单独的、分布式的进程、或者相对的在一个机器上甚至是在一个进程中。
命令行客户端是这里面最简单的组件。这个进程直接被一个用户运行(可能是一个服务器、但是更多的是他的桌面电脑或者笔记本)。它需要连接到执行环境。这个客户端提供给用户一个提示信息,这个提示中可能会有新的查询或者控制语句被给出。
每一个查询(比如说,SELECT语句)会产生一个在执行环境中的流。用户可能需要订阅正在运行的流(这对于用户新创建的流是自动完成的)。当一个订阅的流发出一个输出事件,它的文本将被打印到客户端的终端上。
关闭客户端不会终止任何已提交的流,它们运行在执行环境中,执行环境是一个单独的可以被多个用户共享的常驻进程。一个执行环境保存着所有流的定义(用CREATE STREAM创建),并处理运行中的流。所以执行环境一般运行在专用的服务器上。为了测试的需要,可能也会包含在和命令行客户端相同的进程中。(当执行环境内嵌到客户端的时候,关闭客户端将关闭所有的流,并且不能够在获得这些流)
提交的查询可以在流的数据上做计算。流被定义为一个事件集,就类似于在以表为基础的SQL执行环境中的记录。这些事件直接和Flume中的事件连接。用户需要在查询之前先定义这个流,这个定义指定了在这个事件中的字段,包括怎样把事件主体转换成字段和这个流起源于哪里。每一个查询流本身是一个流,它的输出是一系列的事件,这些输出的事件是基于用户指定的计算处理过程和这个查询流所输入的事件集。
默认情况下,被用户提交的查询将导致一个没有名称标识的查询流,这个查询流只会把它的输出传送给订阅的客户端实例。这些查询流在没有用户订阅的时候持续的运行,但是这时候所生成的输出结果将被丢弃掉(而且也没办法在此获取)。
用户可以给运行的查询流绑定一个名称(或者在使用CREATE STREAM AS SELECT语句提交一个查询流的时候这样做)。这个名称被作为一个Flume逻辑节点的名称,这个逻辑节点把这个查询流的结果作为一个Avro编码的事件集广播出去。用户可以接着使用Flume的shell把这个逻辑节点配置成把一个该输出结果的拷贝定向到一个监控的应用,比如持久化存储(比如HDFS)或者其他的应用。
FlumeBase通过修改在CREATE STREAM语句中指定的节点的接收器的定义来从一个Flume的网络读取。当一个逻辑节点被确定为一个流的源头,它的接收器定义被重写为一个包含它原有的接收器和一个新的代理接收器的新的接收器,这个新的代理接收器负责把这个节点的输出推送给在FlumeBase执行环境中的一个collector source 。(FlumeBase将拥有一个内嵌的Flume物理节点,这节点将拥有托管给它的一个逻辑节点作为接受和传送事件流的必要条件).当一个流被丢弃掉(使用DROP STREAM或者\shutdown!直接关掉执行环境)的时候,最初的逻辑节点的定义会被恢复为提供数据流的那个逻辑节点。
在FlumeBase执行环境和Flume之间的交互式通过Flume的master节点的thrift接口完成的。寄宿在一个执行环境中的物理节点是被Flume的master节点所控制的,而且是对于所有的Flume节点都是这样的。因为这个原因,查询流可能需要花费几秒钟去初始化或者取消,因为这些都依赖于Flume方面的配置。一旦初始化成功,查询流将在事件的处理上有较低的延时。如果没有外部的Flume网络可用,你可以配置Flume的执行环境来维护一个内嵌的Flume的master节点,以用于测试或者单机计算的目的。
相关推荐
iOS版微信抢红包Tweak.zip小程序
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过严格测试运行成功才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
基于springboot社区停车信息管理系统.zip
基于springboot南皮站化验室管理系统源码数据库文档.zip
## 数据指标说明 全要素生产率(TFP)也可以称之为系统生产率。指生产单位(主要为企业)作为系统中的各个要素的综合生产率,以区别于要素生产率(如技术生产率)。测算公式为:全要素生产率=产出总量/全部资源投入量。 数据测算:包含OL、FE、LP、OP、GMM共五种TFP测算方法!数据结果包括excel和dta格式,其中重要指标包括证券代码,固定资产净额,营业总收入,营业收入,营业成本,销售费用,管理费用,财务费用,购建固定资产无形资产和其他长期资产支付的现金,支付给职工以及为职工支付的现金,员工人数,折旧摊销,行业代码,上市日期,AB股交叉码,退市日期,年末是否ST或PT等变量指标分析。文件包括计算方法说明及原始数据和代码。 数据名称:上市公司全要素生产率TFP数据及测算方法(OL、FE、LP、OP、GMM) 数据年份:2000-2023年 数据指标:证券代码、year、TFP_OLS、TFP_FE、TFP_LP1、TFP_OP、TFP_OPacf、TFP_GMM
内容概要:本文详细总结了多种编程语言下常用的算法实现资源,涵盖Python、C++、Java等流行编程语言及其相关的开源平台、在线课程和权威书籍。对于每种语言而言,均提供了具体资源列表,包括开源项目、标准库支持、在线课程及专业书籍推荐。 适合人群:适用于所有希望深入研究并提高特定编程语言算法能力的学习者,无论是编程新手还是有一定经验的技术人员。 使用场景及目标:帮助开发者快速定位到合适的算法学习资料,无论是出于个人兴趣自学、面试准备或是实际工作中遇到的具体算法问题,都能找到合适的解决方案。 其他说明:文中提及多个在线学习平台和社区网站,不仅限于某一特定语言,对于跨学科或多元化技能培养也具有很高的参考价值。
基于springboot的交通旅游订票系统源码数据库文档.zip
内容概要:本文档是一份详细的GO语言教程,涵盖了Go语言的基础语法、数据类型、控制结构、函数、结构体、接口以及并发编程等多个方面。主要内容包括Go语言的基本概念和历史背景、环境配置、基本语法(如变量、数据类型、控制结构)、函数定义与调用、高级特性(如闭包、可变参数)、自定义数据类型(如结构体、接口)以及并发编程(如goroutine、channel、select)等内容。每部分内容都附有具体的代码示例,帮助读者理解和掌握相关知识点。 适合人群:具备一定编程基础的开发者,尤其是希望深入学习和应用Go语言的技术人员。 使用场景及目标:①初学者通过本教程快速入门Go语言;②有一定经验的开发者系统复习和完善Go语言知识;③实际项目开发中利用Go语言解决高性能、高并发的编程问题。 阅读建议:本文档全面介绍了Go语言的各项基础知识和技术细节,建议按章节顺序逐步学习,通过动手实践代码示例加深理解。对于复杂的概念和技术点,可以通过查阅更多资料或进行深入研究来巩固知识。
GEE训练教程
memcached笔记资料,配套视频:https://www.bilibili.com/list/474327672?sid=4486766&spm_id_from=333.999.0.0&desc=1
基于springboot校内跑腿业务系统源码数据库文档.zip
计算机控制光感自动窗帘控制系统设计.doc
基于SpringBoot的校园服务系统源码数据库文档.zip
基于SpringBoot+Vue的美容店信息管理系统源码数据库文档.zip
基于springboot程序设计基础课程辅助教学系统源码数据库文档.zip
这是一个原生的JS网页版斗地主小游戏,代码注释全。带有斗地主游戏基本的地主、选牌、提示、出牌、倒计时等功能。简单好玩,欢迎下载
基于springboot亚运会志愿者管理系统源码数据库文档.zip
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过严格测试运行成功才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。
GEE训练教程——Landsat5、8和Sentinel-2、DEM和各2哦想指数下载
基于springboot家校合作平台源码数据库文档.zip