`
爱的轨迹
  • 浏览: 9255 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

三年0故障总结

阅读更多

近段时间我的老板,其他团队一直在强调代码质量, 减少故障(最近故障频率似乎有点高)。入职快三年半了,距离我上次故障也快三年半了,所以在这方面有些感触和大家分享一下, 我从 个人经历 , 代码质量理解, 以及针对代码质量这块的 工作习惯三个方面来分析总结一下。

个人经历

对我代码质量影响最大的是在一家外资企业,在这家公司我觉得有以下几个方面做的很不错。

  • 团队编码风格统一
    • 统一到什么程度? 不看代码作者,你很难区分代码是谁写的(在目前公司一些团队也能达到这个标准)。

个人观点:

  1. 这样做有什么好处?团队中每个人阅读代码都很容易,减少很多沟通,维护成本( 代码阅读的次数远远大于变更的次数),并且心情非常愉悦。有人肯定觉得愉悦有点夸张,举个栗子: 有一些代码,如果不是由于与工作内容有关联,你是否有种这辈子都不情愿去接触它的感受。但也有一些代码,阅读下来一气呵成,心情舒畅,促使你有种继续阅读下去的冲动(并且你也会有种不想破坏这种统一的想法).
  2. 基础层面越统一,效率越高(不仅仅是指统一编码规范,还有基本的做事的原则). 举个栗子: 我们团队规定个人周报必须在每周五上班前必须发出来,否则罚款10元。之前团队周报迟发现象比较突出,规则一出,明显改善(开会缺席情况也一样得到明显改善)。罚钱是否不太合理?注释写多少才算合理?与其花大量精力讨论这些不痛不痒的问题,不如及时统一规范(一般制定的规范不会差的),严格执行。后续针对问题即使做调整。关键是统一和严格执行。
  • 代码简洁
    • 能1行解决就不要写2行(不影响可读性的情况下)
    • 多余的代码(比如注释代码 or 无实际意义)必须删除

个人观点: 大家都懂的, 没啥好说的

  • codereview
    • 团队的PLA(团队骨干)进行codereview, 团队中PLA之间的代码质量意识/以及代码规范非常统一.不会出现一个团队,多个标准的情况
    • 每周五周会会对这周代码review出来的问题进行回顾,得出结论。将例子放在wiki上,以供后续遇到类似问题的一个参照。新同学也可参照此内容学习规范,避免犯同类问题。规范中很多内容就是这么累计起来的。

个人观点:

  1. 我在阿里所经历的一个团队中,PLA有3,4位, 分别负责各自的一块业务。PLA之间codereview很少,代码质量的意识交流似乎也不多。但团队的普通开发同学在这些PLA之间轮流被codereview, 代码质量的评比标准差异较大。这可能会导致2种现象:开发倾向review宽松的同学, 因为宽松review发现问题(不仅仅是bug)较少,变动成本不大,不会有改动造成的故障风险,不会影响项目进度(但后续的维护和沟通成本会明显增加);另一种现象, 开发向不同的PLA提出疑义,PLA之间统一代码质量标准,在团队内达成共识并形成文档,以作为后续参考。
  2. 一个团队的代码质量主要取决于团队几位PLA,建议团队早期先统一PLA的代码质量意识和规范。例如: 先由1-2位PLA对整个团队开发做review,这个review工作量初期会很大, 并且团队工作效率不高,但后期的review工作量应该会明显减小, 代码质量也会明显提高, 团队的工作效率也会明显提升.

    我在外企这家公司刚入职的那一个月是我最痛苦的一个月,被codereview感觉很不适应:和以前编码习惯差异较大,review太严格(变量名,空行,注释有单词语法错误也会纠正),感觉限制编码自由.... 1个多月后体会到了明显的好处: 编码bug少; 沟通少,代码和注释已经解决了大部分疑问;阅读代码效率高; 感觉别人写的代码就像是自己写的一样,非常有亲切感.一个多月后, revew我代码的PLA明显放松了对我review的内容,因为他已经很多次没有review出问题,并且让我在每次review前告知需重点review的内容即可。

  • 执行力和压力
    • codereview出来的问题一旦得出结论,就会立马执行。如果有疑义,可以继续讨论,一直到得出结论为止。规范中的内容可以改进,但一旦形成规范就必须严格执行。
    • 一旦有不合规范的代码提交上去,就会邮件提醒给团队PLA以及老大,提醒次数多了还是继续犯类似问题,甚至会劝退。

个人观点:

  1. 我在阿里所经历的几个部门规范都很不错,但有的执行起来却比较宽松。因为项目进度一紧, 代码质量就容易妥协, 常见的现象 "我下个版本会改过来的", "这个应该暂时没有问题", "这个代码是没有按规范来做,但改动风险太大,出故障怎么办". 这时候, 如果你在这妥协, 基本以后代码规范就很难维持了。因为一旦ugly的代码上线, 这代码很可能就会在项目里扩散开来(和破窗效应类似).
  2. 很多人对代码质量/规范有强烈的意识,但少数人可能感受不那么明显或者还没有体会到这些带来的益处,或者和自己已有习惯差异而产生排斥心里,这时候得用外部压力刺激一下。比如上面提到的每周五 review当周的问题--没人会愿意自己的代码经常被拎出来作反面教材。迫使他朝正向发展, 做到对事不对人就可以了。新人对压力可能感触更明显,压力会促使你做事更谨慎, 也有可能让你做事畏首畏尾, 这时候对新人要多加关注。

代码质量理解

  • 代码的可读性放在第一位, 代码尽量做到don't make me think( 这里对集团中间件的开发同学提个建议,希望你们继续提高代码的可读性,因为你们的代码被阅读了无数遍了,你们提高一点可读性,将节约很多人的时间, 你们的代码很可能被很多同学模仿)
  • 没有bug的代码不一定是高质量的代码, 写代码不能紧紧满足于功能
  • 你的代码规范不一定要达到开源规范标准(能达到最好),但不要低(松)于团队的代码规范.
  • 写代码要有敬畏之心。想想如果让你开发载人火箭的程序,你敢随意去写么? 网站一样需要重视.
  • 团队的代码质量重要程度高于个人代码质量。如果只满足个人代码质量提高,而不去帮助团队提高代码质量,你很可能会踩上别人留下的坑,你在工作中很可能遇到各种不便(当然你也要避免给其他人留坑)。
  • 良好的代码规范不一定会让你避免bug.但可以帮助你/他人提升找到bug的速度, 以及提升工作效率
  • 读优秀的源码(书籍),关注一些细节,对代码质量提升非常有帮助.
  • codereview不仅仅是为了review出bug。这也是知识分享的一个过程, 团队更有经验的同学会对你的代码提出建议;review人员可以从中获取业务/技术相关信息;被review人员因为有人会review你的代码,而不得不提升自己的代码质量,以及代码的熟悉程度。
  • 代码规范不会影响开发效率, 你的开发效率应该通过其他的方式去提升。 相反,他会节省你很多成本(阅读,沟通)
  • 故障多少和自己的技术能力关系其实不是很大,和自身的工作习惯非常大(我看了很多故障案例,绝大多数不是开发同学没有相应的技术能力)
  • 对自己擅长什么,不擅长什么要有清楚的认识.有的故障产生的原因是对自己某方面能力太过自信.在不擅长的地方去咨询其他有经验的同学,这不会显得自己能力差, 反而给他人的印象是你很重视你的工作,工作谨慎.

工作习惯

  • 当你拿到需求时,分析下自己的需求功能点的重要性(不同重要程度的需求,重视程度和花费的精力也不一样).
  • 设计时多花点时间思考, 编码通常是比较快的
  • 单元测试一定要写, 这是底线(除非这个成本非常大)
  • findbugs,pmd这些工具在前几年我用的比较多,但近几年用的已经很少了,原因是发现的问题少,误判的几率还高,现在只是少数情况才会使用。但是新人建议还是多使用一下。
  • 在团队中寻找比你代码质量要求更高的同学来review自己的代码,一起探讨问题,这能帮自己很快的提升。有疑义的地方一定要达成共识,立刻执行,并告知团队,并形成规范。
  • 尽量不要在情绪低落,体力不支的情况下做需要大量思考性的工作(我个人比较喜欢运动,体力不支的情况比较多.哈哈).
  • 写代码就难免会有bug/故障发生.另外一种避免故障的方案是如何尽快知道异常情况(比如做好监控), 在用户投诉之前尽快解决掉,或者提前做好预备方案(通常是比较重要的需求).
  • 不要因为错小而放置不理,那会成为你的习惯。
  • 周四尽量减少发布, 你可能没有足够时间去观察/验证,发布时尤其需要重视.
  • 读源码是我比较喜欢做的一件事情。一方面能够熟悉一些技术原理/业务,开发时更胸有成竹,bug的几率当然也越少,当然你花费的时间可能就会多(你得去衡量). 这个做法也是不得已而为之: 一些部门的文档/代码注释都有问题,沟通又可能不便,读源码反而解决问题比较快.
  • 当别人向你提建议时, 心胸开阔点, 你会获取他人更多的帮助机会/建议

这篇文章被关注的程度远远超出了我的想像, 原本我并不打算在文章里过多去描述一些影响代码质量的现象,但是评论里提到的问题(比如说如何落地)多少都涉及这些。文章里主要是从普通开发的角度去看代码质量,关于如何落地, 我知道落地肯定不容易, 肯定会面临很多来自团队内外的压力.
举几个栗子:

  • 你的老板是否能够接受短期工作效率普遍偏低么(如果采用我在文章中提到的codereview方案)?
  • 团队成员是否都和你有类似的代码质量理念, 如果没有, 你得不断去影响他们, 得影响你的老板。 如果做不到, 落地也无从说起.
  • 每次故障频率比较高的时候, 高层传达的意思是重视用户体验,提升代码质量。到开发这里,可能是采取更安全的编码, 但不一定是合理的. 要不了多长时间,代码一定会变质.

坦白讲, 我没有很完整的, 可量化的, 可复制的方案, 我现在所在的团队也没有达到这个标准,
但我在alibaba经历过这样的团队, 一个让我终身难忘的团队(还有那家外企)。这样更加让我坚信
我上面的这些想法应该是能落地的, 我也正在努力去影响我现在所在的团队, 即使达不到我预想
的那样, 但我相信一定会有改善.
Alibaba一直被认为是业务驱动型公司, 也许哪天整个集团的代码规范统一并严格执行了, 估计成为技术驱动型的公司就不远了(O(∩_∩)O~~)。

分享到:
评论

相关推荐

    故障诊断技术学习总结

    "故障诊断技术学习总结" 故障诊断技术是指根据设备或系统运行状态信息查找故障源,并确定相应策略的一门综合性的新兴学科。它包括故障检测、故障诊断和故障预测三个方面。在故障诊断中,需要对故障进行分类,以弄清...

    电力系统故障分析可见

    #### 三、故障分析的基本知识 1. **故障分析的目的** 了解故障的性质、特点及对系统的影响,为故障处理提供依据。 2. **电力系统元件的各序参数和等值电路** - 掌握电力系统中各元件(如发电机、变压器、线路...

    IT故障事件处理报告

    #### 三、事件处理过程 - **处理日期**: - 发现日期:2015年7月14日。 - 报告日期:2015年7月20日。 - **事件类型**: - **意外的**:硬件故障、软件故障、通信故障、重要服务丧失。 - **错误造成**:软件维护...

    优秀资料(2021-2022年收藏)数控机床的故障诊断与维修总结.doc

    【数控机床故障诊断与维修总结】 随着科技的快速发展,数控机床作为现代机械制造的重要工具,其高精度、高效率和高灵活性的特点使得它在各行各业中得到了广泛应用。然而,作为精密设备,数控机床的故障诊断与维修是...

    液晶显示器经典故障修复

    - **故障原因分析**:经过多次维修经验总结,这种故障多由背光高压板上的电感线圈L1问题引起。由于生产工艺缺陷,电感线圈的焊接点可能存在接触不良的情况,导致高压无法稳定输出,进而影响背光源的正常工作。 - **...

    粗糙集实现配电网故障定位_配电网_粗糙集_电网故障定位_matlab_源码.zip

    《基于粗糙集理论的配电网...总结,粗糙集理论在配电网故障定位中的应用,体现了其在处理复杂、不确定信息时的强大能力。通过MATLAB源码的解析,我们可以深入理解这一过程,为实际电力系统的故障诊断提供有价值的参考。

    XXXX年版设备故障诊断技术-0.pptx

    1. **历史案例——理查三世的战役**:这个例子通过讲述1485年波斯沃斯战役中的一个小插曲,展示了由于一个小小的马蹄铁钉缺失而导致的一系列灾难性后果。这不仅说明了细节的重要性,也强调了预防性维护的价值。 2....

    基于MATLAB仿真的配网故障定位研究.pdf

    故障诊断与状态监控系统主要由三个部分组成:软件管理系统、前端采集系统和接地故障点巡查系统。软件管理系统负责接收前端采集系统发出的线路运行数据,并结合10kV配网的实际运行状况进行实时监控,以及远程控制线路...

    诺西lte一个故障

    ### 三、诺西LTE常见故障及处理方法 #### 1. 基站故障 基站是LTE网络的重要组成部分,常见的基站故障包括但不限于硬件故障、软件故障等。 - **硬件故障**:如电源模块故障、射频模块故障等。解决此类问题通常需要...

    概率神经网络的PNN的变压器故障诊断,基于神经网络的变压器故障诊断,matlab

    总结来说,这个项目利用MATLAB实现的概率神经网络PNN模型,通过对变压器运行数据的学习和分析,能够有效地进行故障诊断,提高电力系统的运维效率和安全性。通过深入研究和优化PNN模型,可以进一步提升故障识别的准确...

    变频器欠压故障处理办法

    #### 三、变频器欠压故障处理办法 ##### 1. **比较器检测** 比较器检测是一种常用的检测变频器欠压的方法。具体操作步骤如下: - 使用稳压管固定比较器的一端电压,另一端接入变频器的电压取样信号。 - 当变频器...

    AC-DC电源模块常见故障分析(2015年版).zip

    《AC-DC电源模块常见故障分析(2015年版)》是针对电力电子领域中广泛应用的AC-DC转换器进行故障排查和解决的技术资料。AC-DC电源模块是将交流电转换为直流电的核心组件,广泛应用于各种电子设备和系统中。本资料...

    IT运维服务报告总结归纳.pdf

    本报告聚焦于XXX公司XX年XX月至XX年XX月期间的IT运维服务,涵盖了维护服务、故障统计与分析、技术支持和补丁管理等多个方面。 一、维护服务总结 1. 本阶段维护服务工作总结:报告指出,期间共处理咨询类服务XX次,...

    三级数据库技术总结(1~11章重点)

    在2010年三级数据库技术的考试中,考生需要对数据库的基本概念、设计、管理及优化有深入理解。以下是对1到11章重点内容的详细总结: 1. **数据库系统基础**:这部分涵盖了数据库系统的组成,包括数据库、数据库管理...

    大准供电设备故障分析探讨.docx

    在过去的三年中,大准铁路供电段共发生了127件设备故障,涉及接触网、电力、变配电和自轮运转等多个领域。其中,接触网故障占比最高,电力设备故障次之,变配电设备故障相对较少。这些故障类型揭示了设备管理中存在...

    网络工程师近三年真题上午+下午答案.rar

    总结起来,网络工程师近三年的真题及答案详解是一份宝贵的参考资料,它不仅帮助考生熟悉考试形式,提升应试能力,更能让考生在学习过程中深化对网络原理的理解,增强解决实际问题的能力。无论是正在备考的考生,还是...

    2022长三角数学建模竞赛B题论文:《基于一维卷积神经网络的齿轮箱故障诊断问题》

    本文是关于2022年长三角数学建模竞赛的一篇参赛论文,主要研究齿轮箱的故障诊断问题。文章采用了一维卷积神经网络(1D-CNN)作为核心算法,结合信号处理技术,如小波变换,以实现对齿轮箱工作状态的精确分析和诊断。...

    试论Linux系统运维常见故障.pdf

    Linux系统运维常见故障总结 随着近些年我国通信领域的迅速发展,保障通信系统的良好运行显得非常重要。Linux系统的应用非常广泛,主要是因为该系统自身的优势,如用途广泛、感染少等优势。但是在具体的应用当中,也...

    计算机三级总结.docx

    【知识点详解】 1. QoS(服务质量):QoS是一种网络...这些知识点涵盖了计算机网络的基础架构、协议、服务质量管理、服务器和网络设备的性能评估等多个方面,对于准备计算机三级考试的人来说是非常重要的复习资料。

Global site tag (gtag.js) - Google Analytics