背景
在这个项目之前,也做过一个准实时的项目,大约延时10分钟左右,但是对业务单位的数据有要求,需要提供数据变化表,采用批量方式抽取,通过仓库调度系统控制任务顺序和数据流向。存在的问题:需要业务方做配合,提供数据变化表(删除,修改,新增);数据准实时,有10分钟延时;任务有异常的时候,从错误时间补数据需要耗费大量时间且找到数据偏移不容易。所以开始寻求一种通用的实时数据服务平台,目标是开发成本较低,延时少,稳定性高。
需求
根据需求目标有多种数据来源,数据库,文件,HTTP,SYSLOG,数据量较大,目标支持20000/s的数据抓取和请求,提供在线服务请求和数据查询。
设计
根据需求我们做出来如下图的设计方案,
从下往上是数据的流向,底部是实时数据采集和数据数据捕获层,中间是实时数据接收层,上面是数据处理和计算层,顶部是数据服务层。
1. 数据采集层,捕获层
因为数据来源较多,有通过syslog发的,tcp发的,http发的,还有主动捕获数据的,数据库包括mysql, sqlserver,还有log文件方式;将来还需要补充oracle数据库和客户端插件方式。mysql数据库数据变化采用的是binlog解析方式,利用了中间件,sqlserver数据库采用了cdc捕获方式,其余的是在flume基础上做二次开发或自研。
2. 数据接收层
flume和kafka做数据接收和消息队列,实践证明这个框架还是很成熟稳定,每秒20000次的测试轻松搞定。flume方面需要做一定的二次开发,进kafka根据不同的topic进行设置。
3. 数据处理和计算层
需要统计计算的数据从storm框架计算,得到结果集插入数据库或直接提供在线统计服务;需要提供明细数据服务的根据不同的需求发往hbase或者elasticsearch。
4. 数据服务层
插入数据库的数据提供给前台报表展现,在线服务可以提供给前台展现或第三方调用;hbase的数据服务提供key-value的明细数据查询,elasticsearch的数据服务提供多种组合条件的查询。
分享到:
相关推荐
在实时数据处理系统的实现中,关键技术包括实时数据获取、实时数据计算和实时数据存储等。在实现过程中,需要使用到的技术工具包括Flume、Kafka、Spark Streaming和HBase等。这些技术的选择与应用对于系统的性能和...
电力系统实时数据服务平台的研究,旨在为电力系统提供一个高效的数据管理解决方案,确保电力系统各个环节的实时数据得到有效收集、处理和应用。 首先,电力系统实时数据的重要性不言而喻。在电力系统中,各类设备的...
一站式的大数据处理平台是指设计了一个完整的闭环系统,从数据采集、数据处理、分布式存储、数据管理等环节,实现了从数据采集到数据应用的全链路处理。该平台具有高效、低延迟和高容错性的要求,保障任务严格无误地...
本文介绍了一个基于Ionic架构的网络数据管理平台的设计与实现,旨在为编程零基础的企业、机构及个人用户提供安全、高性能且低成本的在线数据库服务。该平台通过提供场景模板库、共享数据库和定制化服务,满足用户...
本文设计的家教服务平台旨在为用户提供一个集人性化、高效率、便捷等优点于一身的在线教育平台。该平台包含多个核心功能模块,包括系统用户管理、课程类别管理、家教课程管理、所有报名记录管理、新闻管理以及系统...
文中详细探讨了内容服务器在大数据处理中的角色特征,提出了内容服务器的总体设计方案和系统设计要求,并将系统设计具体细化为数据采集、数据存储、数据展示、数据处理和内容推荐等几个关键部分。 一、内容服务器...
综上所述,Java实现多数据库数据同步是一个涉及多种技术和策略的复杂问题,需要根据具体业务需求和系统架构来选择合适的方法。在实践中,应注重设计的灵活性、可扩展性和容错性,以保证系统的稳定运行。
综上所述,微软的流程服务平台和数据总线为企业构建了一个灵活、可扩展且高效的数字化工作环境,促进了流程优化和数据驱动的决策。无论是大型企业还是中小型企业,都可以利用这些工具提升自身的核心竞争力,实现业务...
本篇文章将深入探讨如何设计并实现一个针对地理信息企业的时空大数据服务平台,旨在提升数据处理效率,优化业务流程,并为企业创造更大的价值。 首先,我们需要理解时空大数据的特点。时空大数据具有海量性、高速...
系统目标:协同服务平台的主要目标是提供一个集成的协同服务平台,实现多方之间的实时通信、协作和信息共享。 用户角色:协同服务平台的用户角色包括会议组织者、会议参与者、管理员等。 业务流程:协同服务平台的...
本科毕业设计基于ASP技术的《数据结构》精品课程多媒体网络教学平台设计与实现旨在构建一个功能完备的多媒体网络教学平台,以提高《数据结构》课程的教学质量和学生的学习效果。该平台采用Internet信息服务(IIS)...
内容概要:本文档详细介绍了一个基于C++的都市达人健身综合管理平台的设计与实现。该平台旨在通过集成智能硬件、数据分析和个性化推荐系统,为用户提供高效的健身管理服务。平台的核心功能包括实时健康数据收集与...
海关监管区数据管理系统设计与实现...该系统的设计和实现对海关监管区数据管理产生了重要的影响,为海关提供了一个实时、可靠的监管信息系统,提高了海关的工作效率和效率。 关键词:海关;监管;信息查询;数据管理。
数据字典是一种用于描述数据的结构和组织方式的文档,是数据设计和开发的重要组成部分。在设计数据字典时,需要考虑到数据的存储、处理和维护等方面,以确保数据的正确性、完整性和一致性。 在本文档中,我们将详细...
该平台旨在通过高效的赛事管理、精准的数据统计和实时的数据更新,提升篮球赛事的管理水平和用户体验。平台涵盖了用户管理、赛事管理、数据分析、前端展示和安全保障等多个功能模块。通过模块化设计和先进技术的应用...
社会发展日新月异,用计算机...这样就让用户用着方便快捷,都通过同一个后台进行业务处理,而后台又可以根据并发量做好部署,用硬件和软件进行协作,满足于数据的交互式处理,让用户的数据存储更安全,得到数据更方便。
这个平台以STM32F407ZVT6作为主控制单元,负责核心数据处理任务,并且具备摄像头、定位和联网功能,能够实现自主移动、实时监控环境并智能识别周围情况。平台的移动性由STM32F103从机控制,它通过操作麦克纳姆轮实现...