场景
客户投诉有问题,于是研发测试运维开始投入定位和分析问题。
A 研发去查日志,但是线上机器好多,一台一台的看, 日志文件太大,网速又慢,只能干等......
B 研发同学觉得数据库可能有问题,但是自己又不能直接操作数据库,只能找DBA,但是DBA正好不在......
C 运维同学更头大,一边要应付研发和测试的各种问题,一边还要自己查机器CPU、内存、io、网络、程序 状态,而且还那么多机器
解决方案
这种情况就需要一套“立体化、自动化、可视化的监控”,具体实现如下:
1、立体化
将故障分析和定位时涉及的所有的相关信息都要监控起来,共分为5层
(1)业务层
收集和分析业务层的访问量、成功率等指标,例如当系统被刷的时候,业务层能够一目了然的看出访问量 会增加很多。
(2)应用服务层
以URI为维度的分析,可以看到某个URI的访问量、HTTP响应码分布、HTTP响应时间等指标
应用服务层与业务层并不是一一对应的关系,一个业务可能对应多个应用服务层的URI,一个URI也可能对应多个业务层的业务
(3)接口调用层
接口调用层指的是系统依赖的外部系统接口,收集的信息包括访问情况,包括时延、错误码、次数等,当外部系统故障导致我们的业务故障时,通过接口调用层就能够快速的定位具体问题
(4)基础组件层
基础组件层指系统依赖的底层组件,例如容器、数据库、缓存、消息队列
不同的组件收集的信息不一样,例如数据库MySQL的监控指标包括连接数、请求数、查询行数、更新行数等,而缓存包括 使用率、踢出率、命中率等
(5)基础设施层
基础设施层指操作系统状态、网络状态,收集的信息,包括cpu使用率、内存使用率、网卡流量、连接数等
2、自动化
不要再由人工去分析日志或者执行命令了,而是由程序自动完成这些动作
当故障定位的时候需要这些信息时,可以立即看到,节省故障定位时间
为此我们开发了一套数据收集和分析系统,这套系统可以从其它各个系统(包括业务系统、运维系统等)获取并分析数据,例如日志数据、状态数据等
数据自动化收集和分析系统的结构如下:
Logstash用于采集日志,redis用于缓存日志,elasticsearch用于存储和分析日志
3、可视化
故障定位所需要的信息能够通过图表和数字直观的展示出来
有了自动化的收集和分析作为基础,可视化只需要将数据做成图表展示即可
除此以外,同比、环比这类数据也可以通过系统直观的展示出来,方便快速判断问题所在
内容整理自"面向业务的立体化高可用架构设计"
作者李运华 阿里资深工程师
相关推荐
- **JAE(Java Application Engine)** 是一个自动化运维平台,支持部署包管理、配置管理和多JDK支持,简化运维任务,提高效率。 - **LAP(Log Analysis Platform)** 作为日志分析平台,解决了传统模式下查看和...
有线电视运维调度系统是确保有线电视网络稳定运行、提供优质服务的关键组成部分。随着三网融合战略的推进,有线电视...未来,随着技术的进步,运维调度系统将进一步智能化、自动化,为用户提供更加稳定、高效的服务。
3. 改善运维服务质量:运维调度系统的自动化和智能化有助于弥补传统运维工作中的不足,如减少人为错误、提高人员素质和服务意识,以提升用户满意度,支持非传统增值业务的发展。 4. 支撑网络转型:在有线电视向智能...
织云覆盖自动化运维、立体化监控和智能化运维三大领域,提供全体系的运维能力,包括CMDB、工具编排、统一监控告警和AI算法等,帮助企业从传统运维过渡到自动化和智能化运维,支持私有化部署和定制化开发。...
通过这种方式,可以实现对楼宇的全方位、立体化的管理,包括室内室外空间、地上地下设施的管理,以及应急安全联动和指挥服务。 在功能组件层,方案涵盖了运维数据整合、建筑风貌展示、设备运行状态监控、管网分析、...
基于大数据的接入、存储、分析技术,对运维数据进行全面挖掘和分析,实现数据驱动自动化运维。基于智能算法的机器自我学习,训练机器智能运维模型,实现无人值守和智能的运维与运营。 三、DevOps流水线 蓝鲸中的第...
具体来说,Hightopo的3D可视化系统构建了一个包含RFID、AGV(自动导引车)、机器人码垛、立体化仓库、集装箱货运、机器人充电桩以及WMS(仓库管理系统)等在内的三维仿真仓储物流中心。这个系统能够实时显示设备状态...
此外,智慧校园的安防体系强调动静结合,采用三层立体化防控策略,包括主要出入口、单元楼宇外部和室内环境的防护。校园应急系统与电子地图、系统联动集成,能在紧急情况下迅速响应,提升应急处理能力。 通过...
【总结】腾讯AIOps平台的升级之路,体现了从传统运维向智能化运维的演进,通过构建通用的运维PaaS平台能力和立体化监控体系,提升了运维效率和业务质量。这一过程不仅依赖于技术的创新,更在于运维理念的转变和对...
精细化运维AIOps体现在问题的快速发现、深度分析和有效处置上,而AITSM-ITIL4框架的应用,推动了服务管理理念的革新,使IT运维更加以业务为中心。SCMDB(Service Configuration Management Database)的构建,则促进...
在Hightopo的3D可视化系统中,物流仓储中心被生动地呈现出来,包括RFID、自动引导车(AGV)、机器人码垛、立体仓库、集装箱货运、充电站等设备的状态和位置一目了然。用户可以定制AGV的行驶路径,实现精准调度。系统...
4. 安全防护:集成防火墙、入侵检测系统等,构建多层次、立体化的安全防护体系,有效抵御外部攻击。 三、系统功能 1. 环境监控:实时监测机房的温湿度、空气质量、水浸、烟雾等,确保设备运行环境的安全。 2. 动力...
- **数据驱动运维**: 利用大数据技术对接入、存储和分析的数据进行全面挖掘,实现数据驱动的自动化运维。 - **机器驱动运维**: 应用智能算法进行自我学习,训练出能够实现无人值守和智能运维的模型。 #### 五、应用...
- 与历史数据对比,异常情况将自动向电缆运行监控中心发出报警,改变以往的人工巡检模式。 7. 运维人员安全保障措施: - 针对长距离深埋隧道环境中的人员安全问题,配置了智能安全帽、手持智能终端等设备。 - ...
4. **自动化与一体化运维**:借助先进的监控和运维平台,提升运营效率,通过自动化和一体化实现资源的优化管理。 5. **投资与预期的平衡**:在满足当前需求的同时,考虑未来发展,合理规划投资规模,以实现经济效益...
本方案详细阐述了智慧工业园区安防一体化的建设理念、实施策略、实际案例及推荐产品,旨在构建一个全方位、立体化的安全防护体系。 1. **智慧工业园区安全理解与现状** 目前,智慧工业园区面临的主要安全问题包括...
在安全防控方面,SD-WAN引入了零信任网络的理念,建立云网端的立体化防御体系,通过持续验证和分布式身份认证,确保网络的安全性。同时,利用云端集中防护,对Internet流量进行精准防控,以智能化的方式实现故障的...
持续发布的重点在于一键部署和平滑发布,通过灰度控制系统、动态升级和立体化监控,确保了代码的稳定交付。业务指标报表、用户反馈收集和用户行为分析进一步提供了对产品质量和用户体验的深度理解。 最后,持续反馈...
同时,DevSecOps理念的引入,将安全融入开发运维的全过程,通过工程化和自动化手段,提升了安全运营的效率和质量。 证券公司通过设立专门的安全团队,例如信息安全中心,将安全职能细分,涵盖了安全技术运营与攻防...
4. **AGV小车车间运动过程模拟**:模拟AGV(Automated Guided Vehicle)小车在车间内的移动轨迹,提高自动化物流效率。 5. **机器人协同运动过程模拟**:实现机器人在复杂生产环境中的协同工作,提升生产灵活性。 6....