项目上线之后,因为他抱过来的故障,截止到目前为止,已经有两个了。直接后果也是导致偶本季度的故障分已经基本被扣光了。有必要总结一下了。
一、外网搬家用户搬家失败,提示“图片银行空间已满”
现象:很多用户搬家之后发布的产品都失败了,提示图片银行没空间了。可是用户明明有上百M的未使用的空间。
排查过程:
- grep整个代码,找到系统中抛出这中业务异常的地方(有两处),进入的条件都是图片银行的接口调用之后,判断图片银行没空间了。基本定位,就是该接口处返回值有问题。
- 进一步跟进看看方法实现,完全没问题啊,查看了SVN记录,最近此处代码根本没有被动过,况且如果真的是这里早就出问题了,怎么会等到现在才出问题呢?开始有点晕了。
- 因为是线上问题,不能跟踪代码执行流程和结果,感觉有点束手无策了。
- 汪汪帮我在测试环境跑了一遍搬家过程,发现没问题,于是感觉可能是个别案例,具体原因尚未明确,侥幸心理告诉我这个只是个案,于是第一天就这样结束了,告诉服务台的结果也是代码没问题,不是故障。
- 晚上是还是觉得有点不放心的,找来了刚哥又跟我一起过了一遍代码,还是没有发现问题,不过刚哥还是给出了建议,如果明天还有这个问题,直接找图片银行的人过来一起排查,毕竟是他们的代码,他们应该更熟悉具体逻辑。至此第一轮排查结束。
周四早晨晨会之后,我就找来了图片银行的工程师跟我一块排查了一遍代码,发现其中还是有两种情况会返回0这样的空间容量的。具体跟踪进去,发现取用户图片银行默认空间大小的地方是来自某文件,忽然之间恍然大悟,因为该文件在项目中被sourcing工程师修改过以适应新的逻辑。于是去SVN对比了一下修改记录,对比代码执行逻辑,确定果然会受到影响。到这里才找到了根本原因。 为什么会发生这个故障: 直接原因就是项目发布当天没有重新发布该定时器。这也解释了为什么QA同学在测试过程中没有发生这个问题以及汪汪在测试环境中没有重现这个问题的原因,因为测试同学每次跑的时候,都相当于重新发布了一次该程序,已经是最新的了,所以压根不会再发生这个情况。当然如果当时汪汪重新跑的那个环境如果没有更新过(公用环境),理论上也会出现这个问题,但是当时没出现,有可能当时测试时候的账户是这种特定类型的,因为只修改了这种类型的配置,这个跟我没有给她提供足够的用户信息有很大关系。 如何避免这类问题: 在测试阶段,QA测试过的定时器理论上都应该重新发布一次,因为当时都是根据当时最新的代码(这里包括数据文件)来做的,如果测试没问题,只能证明在新的修改上没问题,应该重新发布,不然可能会出现在老的环境下会出现问题,这次这个案例就是最好的说明了。当然根本手段还是需要开发同学对对整个系统有足够的了解,能够及时的识别代码修改可能带来的风险,但是鉴于系统的庞大和我目前对系统的了解程度,完全做到这点还很难,况且人的记忆是会消退甚至遗忘的,所以个人觉得还是通过第一种制度上的约束靠谱一点,也更稳妥一点。 排查过程暴露的问题:
- 初级定位问题大的方向是对的,但是没有深入细节,对别人写的代码的分析不够透彻,这点曾经见过聪妈分析代码的过程,确实值得好好学习和积累。
- 主观上抱有侥幸心里,不然可以更早更及时的处理这个故障。
- 在发现问题之后,虽然电话和图片银行的工程师沟通过,但还是不够彻底,当时就应该把他们揪过来一块排查问题,毕竟他们才是最了解自己东西的人。
二、原来已经断约的某类型用户在转换类型重新开通之后,发现之前发布的WS产品都不见了。服务台刚报过来这个故障时,第一反应就是发布当天也出现过这个问题,于是直接想到这可能是sourcing方面某工程师的问题,于是让服务台直接联系他。但不久就有新的用户报来了新的同样的问题。因为当时在处理外网搬家的故障,也没有引起足够的重视。快到下班时间时,sourcing方面的工程师直接上来找我了,明确了他的涉及该处的功能还没有正式被使用, 所以不可能是他那边的问题。于是在一起分析问题的时候发现,这批重新启用的老用户都是当时直接走的数据订正的流程来完成的,因为他们都是历史数据。想起来当时我给出的数据订正的sql语句少写了一个字段的更新,这个是直接导致问题的原因。哎,又杯具楽。于是又是一通紧急的数据订正,涉及的数据量在75W条以上。 问题原因:
- 对数据订正这种过程没有给予足够的重视,可能是因为这个没有涉及到代码的改动。但是事实证明,数据订正本身就是一项非常危险的操作过程,如果处理的有问题,会直接导致线上故障(因为直接人为操作数据)。
- 对被订正的数据没有做充分的分析和排查,这个从根本上说也是属于第一种情况,但是作为开发,既然由自己提供订正的逻辑,就应该也有责任保证这个逻辑是没问题的。
如何避免:
- 主观上,就是上面分析的问题的原因,自己必须给予足够的重视,并进行充分的分析,找到风险点。
- 上面的毕竟是主观上的,也是我觉得不是完全靠得住的方法,制度上的预防手段就是认真制定预发布和发布计划,将数据订正的验证列入其中,这样保证在预发布环境就暴露这个问题,不会把问题带到线上。
总结: 任何失败的经历都是成长过程的源泉,希望在自己身上不要再次出现这样的错误,这样他们的曾经出现才是有价值的。 这里还要特别感谢Roby同学替我分担的数据订正故障,所以这个没最终被记录在案。 不过目前Q4的故障分数已经达到了自己的上限了,已经再经不起任何差错了,后面必须更加小心了,希望能够保持这里不要再发展了。
|
分享到:
相关推荐
* 假设:库CNFM1与CFR1是一个项目不同时期的版本数据库,由于整合的需要,那么下面的功能可能有用 * 使用:将CNFM1、CFR1库的名称替换成你需要对比的两个即可F5 * 作者:黄顺龙 * 联系:huangshunlong@139.com */
西门子FDA221-CN/FDA241空气采样吸气泵是消防与安全领域不可或缺的设备,它在预防火灾及保障生命财产安全方面扮演着重要角色。...本文将围绕这款西门子产品的特性和使用方法进行详细介绍。 ...通过持续不断地抽取环境中的...
#### 七、总结 《移动梦网短信业务信令流程规范V3.0》是中国移动通信集团公司为了保障移动梦网短信业务的高效、稳定运行而制定的一项重要技术规范。通过对SCP、ISMG、SMSC及SP之间交互的信令消息流程进行详细描述,...
- 创建目录 `/usr/local/mysqlData/master/cnfm` 和 `/usr/local/mysqlData/master/data`,分别用于存放配置文件和数据库数据。 - 编辑配置文件 `/usr/local/mysqlData/master/cnf/mysql.cnf`,设置 `server-id=1`...
【NLP 66、实践 ⑰ 基于Agent + Prompt优化进行文章优化】
无
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
# 【tokenizers-***.jar***文档.zip】 中包含: ***文档:【tokenizers-***-javadoc-API文档-中文(简体)版.zip】 jar包下载地址:【tokenizers-***.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖:【tokenizers-***.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖:【tokenizers-***.jar Gradle依赖信息(可用于项目build.gradle).txt】 源代码下载地址:【tokenizers-***-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字: tokenizers-***.jar***文档.zip,java,tokenizers-***.jar,ai.djl.huggingface,tokenizers,***,ai.djl.engine.rust,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,djl,huggingface,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压 【tokenizers-***.jar***文档.zip】,再解压其中的 【tokenizers-***-javadoc-API文档-中文(简体)版.zip】,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件; # Maven依赖: ``` <dependency> <groupId>ai.djl.huggingface</groupId> <artifactId>tokenizers</artifactId> <version>***</version> </dependency> ``` # Gradle依赖: ``` Gradle: implementation group: 'ai.djl.huggingface', name: 'tokenizers', version: '***' Gradle (Short): implementation 'ai.djl.huggingface:tokenizers:***' Gradle (Kotlin): implementation("ai.djl.huggingface:tokenizers:***") ``` # 含有的 Java package(包): ``` ai.djl.engine.rust ai.djl.engine.rust.zoo ai.djl.huggingface.tokenizers ai.djl.huggingface.tokenizers.jni ai.djl.huggingface.translator ai.djl.huggingface.zoo ``` # 含有的 Java class(类): ``` ai.djl.engine.rust.RsEngine ai.djl.engine.rust.RsEngineProvider ai.djl.engine.rust.RsModel ai.djl.engine.rust.RsNDArray ai.djl.engine.rust.RsNDArrayEx ai.djl.engine.rust.RsNDArrayIndexer ai.djl.engine.rust.RsNDManager ai.djl.engine.rust.RsSymbolBlock ai.djl.engine.rust.RustLibrary ai.djl.engine.rust.zoo.RsModelZoo ai.djl.engine.rust.zoo.RsZooProvider ai.djl.huggingface.tokenizers.Encoding ai.djl.huggingface.tokenizers.HuggingFaceTokenizer ai.djl.huggingface.tokenizers.HuggingFaceTokenizer.Builder ai.djl.hu
人形机器人产业的发展需要人工智能、高端制造、新材料等先进技术的协同创新和突破。
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
开关电源的尖峰干扰及其抑制.zip
房地产培训 -新进业务员压马路市调培训.ppt
内容概要:本文探讨了基于MATLAB平台的虚拟电厂优化调度方法,特别关注电转气(P2G)协同、碳捕集技术和垃圾焚烧的应用。文中介绍了虚拟电厂的概念及其重要性,详细解释了碳捕集、需求响应和电转气协同调度的关键技术,并展示了如何使用MATLAB和CPLEX求解器进行优化调度的具体步骤。通过定义决策变量、构建目标函数和设定约束条件,最终实现了多目标优化,即经济性最优和碳排放最低。此外,还讨论了一些常见的代码实现技巧和潜在的问题解决方案。 适合人群:从事能源管理和优化调度研究的专业人士,尤其是那些熟悉MATLAB编程和优化算法的人士。 使用场景及目标:适用于希望深入了解虚拟电厂运作机制和技术实现的研究人员和工程师。主要目标是通过优化调度提高能源利用效率,减少碳排放,降低成本。 其他说明:文章提供了详细的代码片段和理论分析,有助于读者更好地理解和复现实验结果。同时,强调了在实际应用中需要注意的一些细节问题,如约束条件的平衡、求解器配置等。
1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
# 【spring-ai-pinecone-store-1.0.0-M7.jar中文-英文对照文档.zip】 中包含: 中文-英文对照文档:【spring-ai-pinecone-store-1.0.0-M7-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【spring-ai-pinecone-store-1.0.0-M7.jar下载地址(官方地址+国内镜像地址).txt】 Maven依赖:【spring-ai-pinecone-store-1.0.0-M7.jar Maven依赖信息(可用于项目pom.xml).txt】 Gradle依赖:【spring-ai-pinecone-store-1.0.0-M7.jar Gradle依赖信息(可用于项目build.gradle).txt】 源代码下载地址:【spring-ai-pinecone-store-1.0.0-M7-sources.jar下载地址(官方地址+国内镜像地址).txt】 # 本文件关键字: spring-ai-pinecone-store-1.0.0-M7.jar中文-英文对照文档.zip,java,spring-ai-pinecone-store-1.0.0-M7.jar,org.springframework.ai,spring-ai-pinecone-store,1.0.0-M7,org.springframework.ai.vectorstore.pinecone,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,springframework,spring,ai,pinecone,store,中文-英文对照API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压 【spring-ai-pinecone
内容概要:本文详细介绍了如何使用MATLAB及其优化工具箱,通过混合整数规划(MILP)方法对微网电池储能系统的容量进行优化配置。主要内容包括定义目标函数(如最小化运行成本),设置约束条件(如充放电功率限制、能量平衡约束),并引入决策变量(如电池容量、充放电功率和状态)。文中提供了具体的MATLAB代码示例,演示了如何将实际问题转化为数学模型并求解。此外,还讨论了一些实用技巧,如避免充放电互斥冲突、考虑电池寿命损耗等。 适用人群:从事微电网设计与运维的技术人员,尤其是那些希望通过优化算法提高系统性能和经济效益的专业人士。 使用场景及目标:适用于需要确定最佳电池储能容量的微电网项目,旨在降低总体运行成本,提高系统的稳定性和可靠性。具体应用场景包括工业园区、商业建筑或其他分布式能源系统。 其他说明:文章强调了模型的实际应用价值,并指出通过精确控制充放电策略可以显著减少不必要的容量闲置,从而节省大量资金。同时提醒读者注意模型的时间粒度选择、电池退化成本等因素的影响。
# 压缩文件中包含: 中文文档 jar包下载地址 Maven依赖 Gradle依赖 源代码下载地址 # 本文件关键字: jar中文文档.zip,java,jar包,Maven,第三方jar包,组件,开源组件,第三方组件,Gradle,中文API文档,手册,开发手册,使用手册,参考手册 # 使用方法: 解压最外层zip,再解压其中的zip包,双击 【index.html】 文件,即可用浏览器打开、进行查看。 # 特殊说明: ·本文档为人性化翻译,精心制作,请放心使用。 ·只翻译了该翻译的内容,如:注释、说明、描述、用法讲解 等; ·不该翻译的内容保持原样,如:类名、方法名、包名、类型、关键字、代码 等。 # 温馨提示: (1)为了防止解压后路径太长导致浏览器无法打开,推荐在解压时选择“解压到当前文件夹”(放心,自带文件夹,文件不会散落一地); (2)有时,一套Java组件会有多个jar,所以在下载前,请仔细阅读本篇描述,以确保这就是你需要的文件;
内容概要:本文详细介绍了基于TMS320F28335的光伏离网并网逆变器设计方案,涵盖了从硬件架构到软件控制的各个方面。首先,文章阐述了TMS320F28335作为高性能DSP的优势及其初始化配置方法。其次,探讨了逆变器的数字控制策略,如双闭环控制(电压外环和电流内环)的具体实现方式。然后,深入讲解了SPWM(正弦脉宽调制)技术,包括SPWM波的生成方法和相关代码示例。此外,还讨论了硬件保护逻辑、过流检测、死区时间配置等实际应用中的注意事项。最后,提供了调试经验和学习资源建议。 适合人群:从事光伏逆变器设计、嵌入式系统开发的技术人员,尤其是有一定DSP编程基础的研发人员。 使用场景及目标:适用于需要深入了解光伏逆变器设计原理和技术实现的研究人员和工程师。主要目标是掌握基于TMS320F28335的逆变器控制系统设计,包括数字控制策略和SPWM技术的应用。 其他说明:文中提供的代码示例和实践经验有助于读者更好地理解和应用于实际项目中。建议读者结合TI官方提供的学习资料进行进一步学习和实践。
内容概要:深度学习在医疗影像分析中展现出显著的优势,主要体现在自动特征学习、高准确性和效率、多模态数据融合与综合分析、个性化治疗与预测、减少主观性、处理复杂和高维数据、实时分析与远程医疗支持、数据挖掘与科研突破以及可扩展性与持续优化九个方面。通过卷积神经网络(CNN)、U-Net等模型,深度学习能够自动从影像中提取多层次特征,无需手动干预,在分类、分割任务中表现出色,处理速度远超人工。此外,它还能够整合多源数据,提供全面的诊断依据,实现个性化治疗建议,减少误诊和漏诊,支持实时分析和远程医疗,挖掘病理模式并加速研究,同时具有可扩展性和持续优化的能力。; 适合人群:医疗行业从业者、科研人员、计算机视觉和深度学习领域的研究人员。; 使用场景及目标:①用于医疗影像的自动特征提取和分类,如乳腺癌筛查、皮肤癌诊断等;②整合多模态数据,如CT、MRI等,提高诊断准确性;③提供个性化治疗建议,优化治疗方案;④支持实时分析和远程医疗,尤其适用于偏远地区的急诊场景;⑤挖掘病理模式,加速疾病机制的研究。; 其他说明:深度学习正逐渐成为医疗影像分析的核心诊断伙伴,未来发展方向包括增强可解释性、保护数据隐私和轻量化部署,旨在进一步提升医疗效率和患者护理质量。
内容概要:深度学习是机器学习的一个子领域,通过构建多层次的“深度神经网络”来模拟人脑结构,从而学习和提取数据的复杂特征。文章介绍了深度学习的核心概念,包括神经元、多层感知机、深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)和Transformer等常见网络结构。同时,详细讲解了激活函数、损失函数与优化器的作用。此外,还探讨了深度学习的关键突破,如大数据与算力的支持、正则化技术和迁移学习的应用。文中列举了深度学习在计算机视觉、自然语言处理、语音与音频以及强化学习等领域的应用场景,并指出了其面临的挑战,如数据依赖、计算成本和可解释性问题。最后提供了使用PyTorch和TensorFlow/Keras框架的经典代码示例,涵盖图像分类、文本生成和迁移学习等内容。; 适合人群:对机器学习有一定了解,希望深入学习深度学习理论和技术的研究人员、工程师及学生。; 使用场景及目标:①理解深度学习的基本原理和核心概念;②掌握常见深度学习框架的使用方法,如PyTorch和TensorFlow;③能够根据具体应用场景选择合适的网络结构和算法进行实践。; 其他说明:本文不仅提供了理论知识,还附带了详细的代码示例,便于读者动手实践。建议读者结合理论与实践,逐步深入理解深度学习的各个方面。