最近在总结2010年来的公司的运维进展,顺便拜读了冯大辉
前辈关于网站运维方面的文章。运维是对当前互联网中一个较为特殊的领域(其实每个领域都有特殊的地方),套用前辈的话就是“运维的工作包括(但不限于) 软硬件部署、网络管理、应用程序维护、安全、容量规划、故障修复等等
”。可能有人觉得和传统的公司IT管理员没啥区别,其实最大的区别就是你面临的用户群体不同,数量不同,服务质量的等级不同。所以,若想做好运维工作,对涉及的领域要尽可能的精通,善于应变,快速解决问题,同时做好大量的预防工作。
如何衡量运维的工作质量?系统的可用性和系统的实效时长成反比,是对运维工作的最重要指标。可用性不能单纯用某一天去衡量,而应该使用年作为单位,
甚至有可能需要过好几年,才能评论这个员工的工作质量。为什么这么说呢?打个比方,一个公司刚上线一套新的服务,那么运维工作人员可能采用了新的服务器
(性能很好,容量评估过大)。新的服务可能访问量很少,那么也许在很长一段时间内整套系统的负载很小,由于硬件得到了很好的保证,所以在很长一段时间内可
能是运行良好的(甚至出来问题也没有人发现)。至少上面的假设说明,短短的一段时间不能说明一个团队的运维工作如何。
以下是我根据实际工作中得到改善运维工作的一些见解。
系统结构的合理化
调整系统结构(硬件、软件部署结构),在合理的人力支出情况下,提高系统的可用性是一个非常重要的手段,也是提高可用性的根本之源。
- 建立合理的冗余,并加强自动化工作。冗余是系统组件发生故障时得到快速切换,提供无中断服务是重要基础,处于各种原因,系统服务和质量可能会持续
性的发生变化,应付这些变化,也需要持续合理的对系统结构进行调整(比如添加硬盘也是一种)。例如数据库的冗余,简单的Master/Slave方案也是
提高信心的手段,甚至还可以使用Slave来缓解Master查询的压力。当前我所负责的平台虽然在很多组件的部署上有这方面的意识,但合理性还有待改
善,同时也需要提供一定的测试演练来完善。尤其是一些游戏服务组件中,当前仅仅是提供了冗余的设备,但冗余的服务组件以及更智能的自动化切换一直没有完
善。web平台这边由于设备有限,虽然在各个组件上都实现了冗余,但还缺乏自动化切换。
- 提高系统的稳定性,这点需要从设计、开发方面着手。系统的设计应该朝着能够提供部分停机维护、升级、切换发展;从系统结构、代码上提供系统的稳定
性,减少因为某类异常导致影响到其他组件。我曾经发现一个核心系统总的积分排行功能设计缺陷导致数据库长时间锁,从而又导致整个核心无法提供服务。
- 整套系统还需要考虑Qos,避免带宽被非核心的服务占用过多。为此,从设计、部署上就要把那些大量占用带宽的服务和核心服务进行区分。例如对于网
站,将图片、大文件等使用另外的域名提供服务,并在网络上进行区分,可以让核心网站得到更多的带宽保障,另外使用不同的域名存图片、样式文件等可以让客户
有更快的并发,并减少客户端因为cookie等无用信息占用的带宽。
- 备份(甚至是尽可能实时的),对各类应用数据,尤其是不可恢复的信息做好备份,避免单点失效,所以备份需要存放到其他设备上,备份策略需要不断的
完善,并进行合理的演练。不同的服务组件有不同的备份形式,例如用户的图片(以及其他一些文件),可以使用rsync定期备份到另外的存储服务器,利用
dump/restore这组程序实现全量、增量的备份,当然结合lvm
snapshot以及一些合理的定期脚本,就能实现开源高可靠的容灾方案了(数据库的物理备份也可以用这招)。
监控
监控是测试系统可用性的手段,甚至能在灾难扩大前解决问题。监控的目标包括
- 对操作系统的一些重要指标进行监控,例如CPU、内存、存储、进程状态、网络状态。你可以使用nagios轻松的实现这类监控,当然你还需要对其阀值的合理性进行全面评估。
- 对业务组件、中间件的监控,例如mysql的健康状态(连接数、锁),tomcat的线程数。这类监控能告诉我们业务组件的健康状态,需要不断完
善这类监控,但这类的监控也是很难顾全的,因为这类组件容易出现”部分异常”,或者因为应用程序导致一些异常,甚至是必须在特定的业务流程中才重现。
- 业务流程监控,俗称业务拨测,模拟用户、客户端的业务来进行业务完整性测试。如果你的运营系统只是一个普通的web服务,根据你当前的一些业务采
集几个核心的url,还是能大体知道整个web服务是否正常运行的。但是如何运营系统了有一些特殊服务,比如游戏服务平台,那你可能需要开发与之对应的一
些业务模拟程序(厄,机器人)来进行测试了,当然,也可以通过各种办法采集服务组件的信息来监控,但这毕竟不是最终用户的感受(或实际操作结果)。
- 对监控服务器的监控,才能最大可能保证监控是顺利的。例如,你可以建立两套nagios监控,双方相互监控对方。
- 对于监控的完善,我们应尽可能使用成熟的方案,流行的开源工具实现监控,尽量避免自己编写(脚本、代码),经验告诉我们,自己编写的东西往往是不完善的,有时候会带来更大的问题,甚至影响被监控的对象。
日常工作中需要不定期的检查系统、中间件等各个监控点,以确保他们实际中没有出现问题,并且能根据各种人工检查和总结来完善监控系统。除了这些常规监控外,安全性检查,日志分析,补丁,入侵监控,漏洞扫描等也是日常需要完成的工作。
报警、应急处理
如何能得到快速的报警:
- 短信,有一定的延迟性,依赖于短信提供商。比如当前我们使用飞信(非官方),那么飞信的客户端组件、飞信服务器、短信服务器都是我们无法控制的。
缓解、解决办法:每日发送测试短信;监控发送短信的返回码,如果不正确,则再发送到139邮箱(也依赖于网络的健康)。更加改善的办法,购买短信发送客户
端。
- IM,一些IM支持报警,比如使用XMPP开放的客户端,也依赖于网络的健康。
- 定期订阅,firefox的插件支持查阅nagios的状态接口来获取各个监控项的报警。
故障处理流程和速度,监控内容的增多,意味着可能需要更多的人力去处理应急故障,明确的故障处理流程和责任人,以及经验的积累有助于快速解决故障。
另外,演习也是一个加快故障处理,积累经验的好办法。尤其是对大灾难,我们需要通过演习来完善应付方案,比如数据库的损害、硬件的损害。
测试、容量规划、分析预测
面对不断的变化和发展,对于系统未来一段时间内的状态和反应需要有合理的 评估。评估的基础有以下两方面提供:
- 测试,搭建合理的测试模型,能监测到系统在预估的测试模型下的表现。
- 基线建立,基线的建立在网络质量、服务器性能这方面尤为重要,从基线的发展中能了解到系统对服务质量的演变,并为容量规划提供依据,开源中cacti、ganglia是一些很好软件。
流程规范
流程规范是对长远的保障,也是避免人为故障的手段。运维面对的流程规范主要有两方面
- 业务应用程序维护、升级带来的变化。为了保证可用性,发生这些变化时最好有明确的文档指导,甚至是需要使用文档指导在测试环境下进行模拟变更,以减少在生产环境下变更时带来的问题。
- 服务系统、环境、结构等的修改。比如服务的搬迁,我们需要详细的搬迁方案和模拟演练,对修改需要进行归档,以备查阅。
知识积累管理
运维涉及大量的知识,不单单是技术性的知识,也有和业务系统相关的业务知识。只有保管好这些知识,才能不断的在团队中流传和使用,使团队人员能快速解决问题。当前众多互联网技术团队使用wiki管理这些知识,wiki能很好的维护这些文档的变更,也提供良好的查阅方式。
团队人员还需要对外界的资讯进行收集和吸收,尤其是各类漏洞的公布,补丁的修改,这类信息对运维至关重要。同时需要不断吸收新知识,以改善运维工作。
团队建设和管理、工作安排
总得来说,运维工作需要团队成员有强烈的责任心,高度自觉和技术敏感度。网络上众多人反映自己公司的运维工作人员,闲,每天就是喝茶。运维工作是一个可多可少的活,也是容易让人偷懒的活。
根据以往经验总结,可以从以下方面提高成员的工作质量:
- 工作的划分。工作的划分可以分为纵向切割和横向切割,纵向切割较为简单,需要成员具备足够的实力,把系统按物理设备、按服务组件切割任务,使每个
成员负责一部分,相互间干扰较小。横向切割可以理解为技术等级划分工作,技术能力较弱的负责有完善模型的工作,比如已经有良好的监控系统,技术若者进行例
行检查,技术强者在出现故障做后盾提供援助。
- 责任制,责任制和工作划分有密切的关系。如果作为横向切割,负责例行检查的人对于那些可预知、可发现的问题,因人为的忽略,最终导致系统故障,那
么负责检查的人需要对此负责任。纵向切割时,负责人需要解决自己所负责的任务,不能及时处理时需要申请援助。人的责任心、积极性也可以从故障发生的频度,
可预防性,应急速度、总结经验等过程中得到反馈。
- 技术性监工,也称技术型考核。对于成员所负责的任务,做出的技术性方案、实现进行分析评审,以查找可能存在的漏洞和弊端,减少人为失误。
分享到:
相关推荐
- **服务发现和服务网格**:Kubernetes通过Service对象实现服务发现,确保即使Pods重启或迁移,服务依然可用。服务网格(如Istio)则更进一步,提供微服务间的通信治理。 2. **Kubernetes架构** - **Master节点**...
Alibaba_Java_Coding_Guidelines-2.2.3.0x
【ABB机器人】-IRB460机器人维护信息V1.pdf
内容概要:本文详细介绍了新能源汽车VCU(车辆控制单元)控制器的开源项目,涵盖从应用层代码到底层代码、原理图、PCB设计、通信协议及控制策略等多个方面。应用层代码展示了如何根据电池电量调整车辆行驶模式,底层代码涉及硬件驱动如GPIO控制和ADC采样配置。硬件设计部分包括详细的原理图和PCB布局,确保系统的稳定性和可靠性。通信协议采用CAN网络,确保数据可靠传输,控制策略则涵盖了能量回收、扭矩控制等关键技术。丰富的文档资料和测试用例为开发人员提供了宝贵的学习和开发资源。 适合人群:新能源汽车开发人员、硬件工程师、嵌入式软件工程师、学生及研究人员。 使用场景及目标:帮助开发人员深入了解新能源汽车VCU控制器的工作原理和技术细节,加速项目开发进程,降低开发难度。无论是初学者还是有经验的专业人士,都可以从中受益。 其他说明:该项目不仅提供了完整的源代码和硬件设计文件,还包括详细的测试用例和故障处理方案,使得VCU开发变得更加透明和可复现。
详解DeepSeek的十个安全问题.pdf
《网络传播技术与实务》第10章-握在手中的网络——移动通信与无线网络技术.ppt
《计算机专业英语》chapter9-Communication-by-Avatars.ppt
性能测试工具Xrunner的使用手册
内容概要:本文深入探讨了基于自抗扰控制(ADRC)的永磁同步电机(PMSM)矢量控制调速系统的仿真方法及其优势。首先介绍了模型搭建,包括DC直流电压源、三相逆变器、永磁同步电机、采样模块、Clark、Park、Ipark以及SVPWM等关键组件。接着详细解析了ADRC在电流环和转速环中的应用,展示了其通过扩张状态观测器(ESO)实现的高精度扰动观测与补偿机制。文中还提供了部分MATLAB代码示例,如SVPWM模块和ADRC控制器的具体实现。仿真结果显示,ADRC相比传统PI控制器,在突加负载时表现出更好的稳定性和更快的响应速度,且不存在积分饱和问题。此外,文章讨论了一些实际应用中的注意事项和技术挑战。 适合人群:从事电机控制领域的研究人员、工程师及高校相关专业师生。 使用场景及目标:适用于希望深入了解和掌握现代先进电机控制技术的研究人员和工程师。目标是通过仿真平台验证ADRC的有效性,并为实际工程项目提供理论支持和技术指导。 其他说明:尽管ADRC具有诸多优点,但在实际应用中仍需注意参数选择和硬件条件限制等问题。
《网络设备安装与调试(锐捷版)》项目1-配置交换机设备-优化网络传输.pptx
内容概要:本文详细介绍了如何使用Fortran语言在ABAQUS中开发UMAT(用户材料子程序)和VUMAT(显式用户材料子程序),以实现材料损伤断裂弹塑性的自定义建模。文章首先阐述了材料损伤断裂弹塑性的重要性和应用场景,强调了自定义材料子程序在处理复杂材料行为方面的优势。接着,分别展示了UMAT和VUMAT的基本代码结构及其核心计算步骤,如材料参数读取、弹性刚度矩阵初始化、塑性应变增量计算以及应力更新等。此外,还讨论了DISP模型的应用,提供了具体的损伤演化和应力折减方法,并分享了一些实用的调试技巧和注意事项。 适合人群:具备一定ABAQUS使用经验和Fortran编程基础的研究人员和技术人员,尤其是从事材料力学、结构工程等领域的工作人士。 使用场景及目标:适用于需要对特定材料进行精确建模的工程项目,如航空航天、土木建筑等。通过自定义UMAT和VUMAT子程序,能够更好地模拟材料在复杂载荷条件下的损伤演化与断裂过程,提高结构安全性和可靠性评估的准确性。 其他说明:文中不仅提供了详细的代码示例,还分享了许多实践经验,帮助开发者避免常见错误并优化性能。同时提醒读者关注材料参数的正确配置、雅可比矩阵的对称性等问题,确保计算稳定可靠。
V1_3_example.ipynb
安川机器人DX100操作要领书 通用-搬运用途-E.0.pdf
这个是完整源码 SpringBoot + vue 实现 【java毕业设计】SpringBoot+Vue图书馆(图书借阅)管理系统 源码+sql脚本+论文 完整版 数据库是mysql 随着社会的发展,计算机的优势和普及使得阿博图书馆管理系统的开发成为必需。阿博图书馆管理系统主要是借助计算机,通过对图书借阅等信息进行管理。减少管理员的工作,作,同时也方便广大用户对所需图书借阅信息的及时查询以及管理。 阿博图书馆管理系统的开发过程中,采用B / S架构,主要使用Java技术进行开发,结合最新流行的springboot框架。使用Mysql数据库和Eclipse开发环境。该阿博图书馆馆管理系统的开发过程中,采用B / S架构,主要使用Java技术进行开发,结合最新流行的spri管理系统包括用户和管理员。其主要功能包括管理员:首页、个人中心、用户管理、图书分类管理、图书信息管理、图书借阅管理、图书归还管理、缴纳罚金管理、留言板管理、系同时也方便广大用户对所需图书借阅信息的及时查询以及管理。 阿博图书馆管理系统的开发过程中,采用B / S架构,主要使用Java技术进行开发,结合最新流行的springboot框架。使用Mysql数据库和Eclipse开发环境。该阿博图书馆管理系统包括用户和管理员。其主要功能包括管理员:首页、个人中心、用户管理、图书分类管理、图书信息管理、图书借阅管理、图书归还管理、缴纳罚金管理、留言板管理、系统管理,用户:首页、个人中心、图书借阅管理、图书归还管理、缴纳罚金管理、我的收藏管理,前台首页;首页、图书信息、公告信息、留言反馈、个人中心、后台管理等功能。 本论文对阿博图书馆管理系统的发展背景进行详细的介绍,并且对系统开发技术进行介绍,然后对系统进行需求分析,对阿博图书馆管理系统业务流程、系统结构以及数据都进行详细说明。用户可根据关键字进行查找自己想要的信息等。
内容概要:本文详细介绍了一个基于YALMIP和MATLAB的微电网优化调度模型,旨在帮助新手理解和应用微电网优化调度的基本概念和技术。模型综合考虑了蓄电池管理、市场购电售电约束以及功率平衡等因素,以实现系统总费用最低为目标。文中提供了详细的MATLAB代码示例,涵盖变量定义、约束条件建立、目标函数设定及优化求解过程,并附带了调试建议和可视化方法。此外,还讨论了一些常见的错误及其解决办法,如充放电互斥约束、功率平衡约束等。 适合人群:对微电网优化调度感兴趣的初学者,尤其是有一定MATLAB基础的学生或研究人员。 使用场景及目标:适用于希望快速掌握微电网优化调度基本原理的学习者,通过动手实践加深对相关理论的理解。具体应用场景包括但不限于:学术研究、课程作业、个人兴趣项目等。 其他说明:该模型不仅有助于理解微电网的工作机制,还可以为进一步探索复杂的微电网优化问题奠定坚实的基础。
内容概要:本文详细介绍了如何利用MATLAB搭建卷积神经网络(CNN),用于处理具有10个输入特征和3个输出变量的数据预测任务。首先进行数据预处理,包括数据读取、归一化以及训练集和测试集的划分。接着设计了一个包含多个卷积层、批量归一化层、ReLU激活函数层和全连接层的网络架构,确保能够有效提取特征并完成多输出预测。训练过程中采用Adam优化算法,并设置了合理的超参数如最大迭代次数、批次大小和初始学习率等。最终通过预测和反归一化步骤得到模型性能评价指标MAE和R²,展示了良好的预测效果。 适合人群:具有一定MATLAB编程基础和技术背景的研究人员或工程师,尤其是那些从事数据分析、机器学习领域的专业人士。 使用场景及目标:适用于需要解决多输入多输出预测问题的实际项目中,比如工业生产过程监控、设备故障诊断等领域。目的是帮助用户掌握使用MATLAB实现CNN的方法论,从而提高工作效率和解决问题的能力。 其他说明:文中提供了完整的代码片段供读者参考实践,同时针对可能出现的问题给出了实用性的建议,如调整批量大小、降低学习率等方法来应对训练不稳定的情况。此外还提到了一些改进方向,例如改变卷积核尺寸或者引入空洞卷积以增强模型表现。
机器人概要(外形图、目录的阅读方法)20120428.ppt
《计算机程序设计(C语言)》第7章-第2节-函数的定义.ppt
《网络工程设计与项目实训》02-交换机及其基本配置.ppt
内容概要:本文档详细介绍了将服务迁移到Nacos注册与配置中心的具体步骤,包括pom文件中依赖包的更新、启动类注解的添加以及详细的nacos客户端和服务配置文件设置。在pom文件中,需要移除旧的服务发现工具(如Eureka)相关依赖并引入特定版本的nacos-client及相关starter组件,确保springboot版本不低于2.2.3。启动类需添加`@EnableDiscoveryClient`注解以启用服务发现功能。配置文件中,明确指定了服务的基本信息(如端口、应用名称)、nacos服务器地址、命名空间、分组等关键参数,并强调了配置文件格式为YAML的重要性。对于已存在的服务,仅需完成前三个步骤,而对于新的服务,则还需进行配置文件的导入工作。 适合人群:对微服务架构有一定了解,特别是正在考虑或已经决定从其他服务发现工具迁移至Nacos的企业级开发者或运维人员。 使用场景及目标:①帮助团队将现有基于其他服务发现机制的应用程序平滑迁移到Nacos平台;②确保新开发的服务能够正确地注册到Nacos并使用其提供的配置管理功能;③通过合理的配置减少服务间的耦合度,提高系统的可维护性和扩展性。 阅读建议:由于涉及到具体的版本号和配置细节,在实际操作过程中应严格按照文档指导执行,同时关注官方最新动态,确保所使用的版本是最稳定且符合项目需求的。此外,建议在非生产环境中先行测试,验证配置无误后再推广到生产环境。