批量问题1:
最近支付系统因为晚收到了人行的清算文件,导致清算跑批失败,下游个人业务和对公业务没有及时收到支付系统清算结果文件,对账不平,需要手工调账,加上需要老板邮件批复才可以手工调账,占用了大家特别多的时间。
问题
1. 文件没有取到没有及时告警:只是简单去清算机构取全量文件,没有对具体文件监控
2. 跑批失败时没有及时告警:批量程序本身没有触发告警,而是在外部启动线程每小时定点监控任务状态发告警,延迟厉害
3. 有时候,文件在我们跑批时间后才生产,导致我们批量必然失败,没有办法人工干预
改进
1. 监控:对于时效性敏感的文件,结合文件的正常提供时间,增加单独的监控。比如:清算机构每日18:28前文件已提供,我们18:30检查文件是否存在,不存在马上告警,这样可以人工监控文件是否已生成,争取在跑批前人工获取好文件;
2. 批量程序及时告警:批量程序跑批失败时,调用告警接口,实时通知。该做法最好在批量程序第一次上线时就做,否则上线很久后再加入需要全量回归测试;
3. 针对批量文件在跑批时间后送达的情况,我们要做好预判,先暂停当天任务,等文件到达后再续做;同时要通知下游暂停他们的批量任务,避免跑批失败或者错过批量任务;
批量问题2:
某个批量任务平时只要跑不到1个小时,结果跑了2个小时都没有结束,也没有及时发现。问题发生后,开发人员不知道问题在哪,等着批量自然结束。
问题:
1. 没有监控:任务没有跑完,虽然没有报错,但是应该及时告警
2. 问题诊断:虽然批量框架能展示目前进行到哪个步骤,但是步骤里具体是因为什么原因一直不结束,不知道诊断
改进:
1. 需要监控每个批量产生的结果文件的正常生成时间,及时告警
2. 需要知道java性能诊断的基本方法,比如thread dump去分析目前程序到底在做什么,同时有配套的性能监控工具去监控系统潜在的性能问题多角度分析,比如我们使用了AppDynamic监控DB慢sql。
批量问题3:
某日核心系统需要提前一个小时跑批,需要上游系统提前跑批。
问题:在当天中午没有批量任务时,修改批量任务时间表,确保任务提前跑,特定任务前跑完后再修改回原来的跑批时间。主要问题是修改后需要重启程序。
改进:
批量框架应该支持实时修改任务配置,并时效生效, 不应该重启程序,以免影响其他任务。
总结
为了高效运维,批量设计需要从以下方面考虑:
1. 跑批失败告警
2. 监控上下游文件生成时间,没有按时生成需要告警,及时人工干预
3. 需要支持任务暂停和续做
4. 需要支持实时修改任务配置,无需重启程序
分享到:
相关推荐
在本文中,作者段继刚探讨了运维系统开发过程中的安全架构设计,结合了自身在运维领域的实际工作经验,分享了在系统架构设计中如何实现安全性的经验与思考。 首先,作者提出了运维人员的工作特点,这些特点包括维护...
综上所述,从运维系统开发的角度来讨论安全架构设计,不仅可以解决运维人员在实际工作中面临的问题,也能够为整个系统的安全性提供更坚实的保障。在当今信息化快速发展的背景下,这种综合考虑运维效率和系统安全的...
**多维度管理**:从不同角度(如业务、运维等)管理整个IT架构,帮助用户理解IT资源之间的复杂关联。 3. **自动化数据采集**:通过自主研发的数据采集引擎,经由Telnet/SSH协议,实现IT配置信息的自动采集和动态...
他们试图从用户角度出发,挖掘运维需求,通过HULK(绿巨人)这样的产品,提供便捷的运维工具,帮助工程师更高效地工作。运维平台的建设中,开发工程师被视为主要用户,他们的需求被优先考虑,以此提升整个团队的技术...
优化可以从多个角度进行,包括但不限于SQL语句优化、索引优化、查询缓存、硬件升级、服务器配置优化等。 Mysql的sql语句优化: 优化SQL语句可从减少数据量、减少资源消耗、合并查询、优化数据结构等方面入手。 ...
首先,从工程力学角度看,螺栓的上紧力矩直接影响到变电器箱体的密封性和稳定性。通过精确控制上紧力矩,可以防止因紧固过度导致的金属疲劳或因紧固不足引发的连接松动。批量上紧装置通常配备有扭矩传感器,能够实时...
结合每个基站的覆盖方向和角度,可以确定哪些小区能够真正有效地覆盖目标区域。这一细化步骤能够大幅减少需要进行保障的小区数量,让运维工作更加高效和集中。 通过实际应用证明,本方法在处理大规模目标区域时,...
设计思维要求团队成员具有开放性,愿意接受失败作为学习的一部分,并且鼓励从用户的角度出发,不断试错和优化。 敏捷开发是一种迭代和增量的软件开发方法,它强调适应性和客户合作。敏捷开发的核心在于快速交付小...
内容涵盖了设备购置、台帐管理、日常维修、保养、调拨、报废、折旧及系统数据的查询、统计、批量增加、批量修改、自动核算折旧值、动态自定义报表生成、自定义设计条码标签,该系统的投入可显著提高设备资产的利用率...
根据提供的文件信息,本文将详细解析“配网线路设备可视化维护与定位手机APP的设计与实现”这一主题,从APP应用开发、数据分析等角度出发,力求深入浅出地介绍该领域内的关键技术点及其应用场景。 ### 一、项目背景...
总结来说,送餐机器人产品设计涵盖了从硬件选型、定位导航、环境感知到软件开发、系统集成等多个层面,确保机器人能在复杂环境中高效、准确地完成送餐任务。通过不断的技术优化和创新,送餐机器人的实用性和智能化...
7、Redis集群的批量数据查询性能优化:对于分布式的Redis集群,数据在多个实例中分布式存储,如果要优化大批量数据的批量查询性能,就需要采用hash tag分片路由+mget单分批大批量读取的优化设计。 8、高可用架构...
在IT行业中,尤其是在建筑信息模型(BIM)和工程设计领域,AutoCAD是一款广泛使用的计算机辅助设计软件。本文将深入探讨“基于AutoCAD图纸的地铁综合管线数据提取方法”,这一主题涉及了数据处理、工程图档管理和...
从价格角度看,安骑士的定价可在阿里云官方网站的定价频道查看,具有轻量级设计,正常运行时仅占用1%的CPU和10MB内存,可根据需要设定资源占用上限。该产品跨平台兼容,支持所有主流的Linux和Windows操作系统,以及...
通过上述分析可以看出,药店信息管理系统的构建不仅需要关注技术实现层面的问题,还需要紧密结合药店的实际业务场景,从多个角度出发进行全面考虑。只有这样才能够真正发挥出信息系统的优势,助力药店提升管理水平和...
优化HBase的性能是一个综合性的工程,需要从多个角度进行考量。 ### 故障排除和调试 这一部分提供了故障排除和调试HBase的一些通用指引,如何查看日志、使用工具以及针对MapReduce、NameNode、RegionServer和...
从编程语言的角度来看,Python属于解释型语言,这意味着源代码不会预先编译成机器语言,而是在运行时逐行解释执行。这种特性使得Python易于调试和开发,但相对于编译型语言,执行速度可能较慢。同时,Python是动态...
#### 四、运维角度的整体优化措施 - **批量部署**: 通过标准化的部署流程,加快新服务器的上线速度。 - **开局安装**: 简化初始配置过程,减少技术人员的工作量。 - **故障处理**: 建立快速响应机制,缩短故障恢复...
总的来说,这款PHP+SQLite3的网址导航与书签管理器网站源码集成了多项实用功能,无论是从用户体验还是开发者的角度,都展现出了高度的灵活性和实用性。它提供了一个安全、便捷的平台,帮助用户管理和分享他们的网络...
从技术角度来分析,双速手摇电动两用绕线机的核心在于其精密的控制系统。该系统可以保证线圈缠绕的均匀度和紧密度,这对于电子设备的性能和寿命至关重要。因为线圈是许多电子设备的组成部件,如果缠绕不均匀或者不够...