bboss大数据抽取工具功能特点如下:
- 实现db到hadoop hdfs数据导入功能,提供高效的分布式并行处理能力,可以采用数据库分区、按字段分区、分页方式并行批处理抽取db数据到hdfs文件系统中;能有效解决按字段分区抽取数据时,各分区数据不均匀导致作业任务处理节点负载不均衡的问题。
- 灵活的作业任务处理模式:可以增量方式执行作业任务,作业可以停止后重新执行,重新执行时只需执行未完成的作业任务,也可以全部重新执行所有作业任务;当停止作业后,可以在原有作业切分的基础进一步切分出子任务,然后再重新执行作业,提升系统处理数据效率。
- 数据处理服务器为每个作业分配独立的作业任务处理工作线程和任务执行队列,作业之间互不干扰
- 采用异步事件驱动模式来管理和分发作业指令、采集作业状态数据。
- 通过管理监控端,可以实时监控作业在各个数据处理节点作业任务的实时运行状态,查看作业的历史执行状态,方便地实现提交新的作业、重新执行作业、停止正在执行的作业、清除作业执行监控数据、同步作业任务执行状态等操作
工具架构拓扑图:
所采用的技术体系:
- Bboss ioc:轻量级ioc容器,ioc扩展属性配置语法
- Bboss持久层:高效数据查询行处理器,灵活动态数据源管理(连接池数据源/非连接池数据源),表分区信息查询等,动态创建作业配置表和作业监控记录表
- Bboss分布式事件框架:基于JGroups,提供异步分布式事件驱动模型,动态管理作业节点(服务节点和数据处理节点),包括作业节点的动态加入、动态离开等;在管理节点、数据处理节点之间分发和接收各种作业处理指令事件
- Bboss mvc:实现监控管理应用模块,在监控服务节点中,通过mvc 容器启动监听器启动作业管理节点
- Bboss序列化组件:用来将作业监控数据序列化存储到sqllite中的作业监控表,同时在查看作业执行历史时将序列化存储的作业监控数据还原为对象状态的监控对象,便于界面展示
- Bboss 标签库,jquery等:实现监控管理应用的视图层
- Hadoop Hdfs客户端:用来连接hadoop hdfs文件系统
- Sqllite:在监控节点中保存作业配置,保存作业执行状态数据
- Jetty:运行监控管理应用模块的web应用容器
- Bboss应用执行容器:用来启动作业管理监控应用、作业数据处理应用、启动jetty容器
bboss大数据抽取工具源码github托管地址:
https://github.com/bbossgroups/bigdatas
版本源码和发布包下载地址:
https://github.com/bbossgroups/bigdatas/releases
操作使用文档:
大数据抽取工具管理操作手册.docx

- 大小: 294.7 KB
分享到:
相关推荐
《大数据抽取工具管理操作手册1》是一份详细指导如何管理和操作大数据抽取工具的文档,主要针对BBOSS BigData平台。这份手册由尹标平撰写,旨在帮助用户理解和使用该平台进行高效的数据处理。 首先,手册从概述部分...
bboss group project blog:版本构建切换到命令行模式:cd D:\bigdatas直接发布版本:gradle :bigdatamonitor:releaseRuntime构建发布的版本包存放在目录:D:\bigdatas\bigdatamonitor\build\distributionsbboss...
完成清洗和转换后,bboss-datatran 可以将处理后的数据加载到不同的存储系统,如Hadoop HDFS、Hive、HBase、Elasticsearch、Greenplum、Oracle等。这为用户提供了灵活的数据存储选择,并且支持数据分片、分区策略,...
stm32+esp8266+mqtt/onenet智能家居
Android开发不用存储权限进行拍照,得到拍照后的图片效果。有一点难度,关键是存储路径的定义。
j
反向Lora提高画面细节。
小秘书(凤凰电话管理系统)【纽曼声卡版小秘书】,主要用来做为来电自动录音功能。
基于SpringBoot的疫情居家检测管理系统,系统包含三种角色:管理员、用户、医生,主要功能如下。 【用户功能】 1. 首页:获取系统信息。 2. 论坛:参与居民讨论和分享信息。 3. 公告:查看社区发布的各类公告。 4. 医保信息:了解医疗保障相关信息。 5. 个人中心:管理个人信息,查看预约和就诊历史。 【管理员功能】 1. 首页:查看系统整体。 2. 个人中心:管理管理员的个人信息。 3. 管理员管理:维护系统管理员的账户信息。 4. 医生管理:添加、编辑和删除医生信息。 5. 用户管理:查看和管理系统用户的信息。 6. 预约管理:审核和管理用户对医生的预约服务。 7. 就诊历史管理:查看和管理用户的就诊历史记录。 8. 健康信息管理:记录和查看用户的健康信息。 9. 药品管理:管理系统内的药品种类。 10. 药品入库管理:记录和管理药品的入库情况。 11. 药品使用管理:记录和管理药品的使用情况。 12. 医保信息管理:管理医保相关信息。 13. 论坛管理:审核和回复用户在论坛上的帖子。 14. 公告管理:发布、编辑和管理公告信息。 15. 基础数据管理:管理系统的基础数据。 16. 轮播图信息:管理系统首页的轮播图展示。 【医生功能】 1. 首页:查看医生个人信息。 2. 个人中心:管理医生的个人信息。 3. 预约管理:查看和管理用户对医生的预约服务。 4. 就诊历史管理:查看和管理用户的就诊历史记录。 5. 健康信息管理:记录和查看用户的健康信息。 6. 药品管理:管理系统内的药品种类。 7. 药品入库管理:记录和管理药品的入库情况。 8. 药品使用管理:记录和管理药品的使用情况。 9. 医保信息管理:管理医保相关信息。 10. 论坛管理:审核和回复用户在论坛上的帖子。 11. 公告管理:发布、编辑和管理公告信息。 12. 轮播图信息:管理系统首页的轮播
基于python的Opencv项目实战.zip
鸿蒙开发画廊效果功能,中间大,两边小的浏览效果,难度不小,进行了一定的封装。很好看的画廊效果
win32汇编环境,网络编程入门之十九
linux
【HD-RK3576-PI】定制用户升级固件
内容概要:本文是关于大规模L1正则化线性分类优化方法和软件比较的补充材料,由台湾大学计算机科学系的研究团队撰写。文章详细介绍了GLMNET算法的核心公式推导及其具体实现步骤,包括如何计算L¯j(0; X˜),以及如何维护关键变量以减少计算量。此外,文中对比了多种求解器(如CDN、IPM、TRON等)在不同数据集上的性能,涵盖达到特定停止准则所需时间、迭代次数及每次迭代的平均成本。研究结果显示,在大多数数据集上,CDN方法表现最优,但在极严格的条件下,IPM方法表现更好。对于L1和L2正则化的逻辑回归,文中指出L1正则化在某些数据类型上可能提供更好的准确性,但训练时间较长,因此推荐先尝试L2正则化用于分类任务,而L1正则化更适合特征选择。 适合人群:对机器学习算法尤其是正则化技术有一定了解的数据科学家和研究人员。 使用场景及目标:①需要进行大规模线性分类问题的优化;②比较不同优化方法和工具包在实际应用中的效果;③理解L1和L2正则化在逻辑回归中的区别及其适用情况。 其他说明:本文提供了详细的数学推导和实验结果分析,有助于深入理解各种优化方法的工作原理及其优劣。读者可以通过这些内容选择最适合自身需求的算法和工具包。
西电A测或通院微控温度仿真控制系统的proteus文件
华为ONT使能2.0工具
basalt_top
无极调速数控车床主轴箱装配CAD图.rar
乳液涂料生产流程图.rar