bboss大数据抽取工具功能特点如下:
- 实现db到hadoop hdfs数据导入功能,提供高效的分布式并行处理能力,可以采用数据库分区、按字段分区、分页方式并行批处理抽取db数据到hdfs文件系统中;能有效解决按字段分区抽取数据时,各分区数据不均匀导致作业任务处理节点负载不均衡的问题。
- 灵活的作业任务处理模式:可以增量方式执行作业任务,作业可以停止后重新执行,重新执行时只需执行未完成的作业任务,也可以全部重新执行所有作业任务;当停止作业后,可以在原有作业切分的基础进一步切分出子任务,然后再重新执行作业,提升系统处理数据效率。
- 数据处理服务器为每个作业分配独立的作业任务处理工作线程和任务执行队列,作业之间互不干扰
- 采用异步事件驱动模式来管理和分发作业指令、采集作业状态数据。
- 通过管理监控端,可以实时监控作业在各个数据处理节点作业任务的实时运行状态,查看作业的历史执行状态,方便地实现提交新的作业、重新执行作业、停止正在执行的作业、清除作业执行监控数据、同步作业任务执行状态等操作
工具架构拓扑图:
所采用的技术体系:
- Bboss ioc:轻量级ioc容器,ioc扩展属性配置语法
- Bboss持久层:高效数据查询行处理器,灵活动态数据源管理(连接池数据源/非连接池数据源),表分区信息查询等,动态创建作业配置表和作业监控记录表
- Bboss分布式事件框架:基于JGroups,提供异步分布式事件驱动模型,动态管理作业节点(服务节点和数据处理节点),包括作业节点的动态加入、动态离开等;在管理节点、数据处理节点之间分发和接收各种作业处理指令事件
- Bboss mvc:实现监控管理应用模块,在监控服务节点中,通过mvc 容器启动监听器启动作业管理节点
- Bboss序列化组件:用来将作业监控数据序列化存储到sqllite中的作业监控表,同时在查看作业执行历史时将序列化存储的作业监控数据还原为对象状态的监控对象,便于界面展示
- Bboss 标签库,jquery等:实现监控管理应用的视图层
- Hadoop Hdfs客户端:用来连接hadoop hdfs文件系统
- Sqllite:在监控节点中保存作业配置,保存作业执行状态数据
- Jetty:运行监控管理应用模块的web应用容器
- Bboss应用执行容器:用来启动作业管理监控应用、作业数据处理应用、启动jetty容器
bboss大数据抽取工具源码github托管地址:
https://github.com/bbossgroups/bigdatas
版本源码和发布包下载地址:
https://github.com/bbossgroups/bigdatas/releases
操作使用文档:
大数据抽取工具管理操作手册.docx
- 大小: 294.7 KB
分享到:
相关推荐
《大数据抽取工具管理操作手册1》是一份详细指导如何管理和操作大数据抽取工具的文档,主要针对BBOSS BigData平台。这份手册由尹标平撰写,旨在帮助用户理解和使用该平台进行高效的数据处理。 首先,手册从概述部分...
bboss group project blog:版本构建切换到命令行模式:cd D:\bigdatas直接发布版本:gradle :bigdatamonitor:releaseRuntime构建发布的版本包存放在目录:D:\bigdatas\bigdatamonitor\build\distributionsbboss...
bboss hadoop集群搭建 hadoop集群搭建 hadoop集群搭建 hadoop集群搭建 hadoop集群搭建
完成清洗和转换后,bboss-datatran 可以将处理后的数据加载到不同的存储系统,如Hadoop HDFS、Hive、HBase、Elasticsearch、Greenplum、Oracle等。这为用户提供了灵活的数据存储选择,并且支持数据分片、分区策略,...
bboss集团网站: bboss组项目博客: bboss版本重建方法 gradle安装 开发工程生成方法: ...bboss大数据抽取工具db-hdfs github托管地址 svn下载地址 bboss rpc原始码 github托管地址 svn下载地址 b
BBoss MVCDemo 是一个基于Java的企业级应用框架,它主要为开发者提供了一种高效、灵活的MVC(Model-View-Controller)开发模式。这个框架的目的是简化企业级Web应用的开发流程,提高开发效率,并且具备良好的可扩展...
bboss-datatran 由 bboss 开源的数据采集&流批一体化工具,提供数据采集、数据清洗转换处理和数据入库以及数据指标统计计算流批一体化处理功能。 同时也是一个高性能Elasticsearch orm 客户端,100%兼容es各个版本 ...
"基于bboss新版平台项目环境搭建和代码工具使用视频教程"提供了一套详细的指导,旨在帮助开发者快速掌握bboss新版本平台的相关操作。bboss,全称为Business Basic Open Source,是一个开源的企业级开发框架,它为...
本实例是一个基于bboss es spring boot starter的demo maven工程,可供spring boot项目集成bboss elasticsearch rest client参考 展示了通过spring boot管理单集群功能和管理多集群功能 单集群测试用例:...
bboss会话共享是一种分布式会话管理技术,它针对在集群环境下应用部署时如何解决会话数据丢失和单点登录问题提供了专门的解决方案。根据提供的文档内容,我们可以详细探讨bboss会话共享涉及的关键知识点。 首先,...
5. **工具支持**:BBoss Persistent作为一个工具,提供了友好的API和示例,使得开发者能够更方便地与数据库交互,尤其是在处理大字段时。通过学习相关文档和博客(如提供的链接),开发者可以快速上手并掌握其使用...
BBoss(全称为bbossgroups)是一个专为企业级J2EE应用设计的开源框架,它为Java开发者提供了一系列强大的工具和服务,以简化Web应用程序的开发过程。该框架旨在提高开发效率,降低维护成本,同时保持高度的灵活性和...
该工具是一款基于bboss...此工具能够自动生成bboss MVC、IOC、持久化、JSP、i18n、SQL配置文件、Web服务、Hessian服务等相关源代码,适用于快速开发和项目迭代。详细文档请参考:http://yin-bp.iteye.com/blog/2256948
1. **Java环境**: 首先确保系统安装了 Java 运行环境(JRE)和 Java 开发工具(JDK),Elasticsearch 基于 Java,因此这是基础。 2. **下载Elasticsearch**: 从官网下载对应版本的 Elasticsearch 并解压至合适的位置...
BBoss Elasticsearch是针对Elasticsearch设计的一款辅助工具,主要用于帮助开发者实现数据库数据到Elasticsearch的批量和定时导入。 BBoss(Business Basic Open Source)是一系列企业级开源组件的集合,旨在简化...
在Java开发中,Elasticsearch(ES)作为一种流行的分布式搜索引擎和数据分析工具,常用于大数据处理和实时分析。bboss(Business Basic Operation Support)框架则是针对Elasticsearch设计的一套高效、易用的Java ...
springboot集成ElasticsearchBboss调用Elasticsearch的案例分享
本bboss-datatran项目基于Java开发,包含591个文件,包括Java源代码、Markdown文档、GIT忽略文件、Gradle构建文件、Properties配置文件、Preferences配置文件、XML配置文件、GIT属性文件、LICENSE文件和PNG图片。...