场景
客户投诉有问题,于是研发测试运维开始投入定位和分析问题。
A 研发去查日志,但是线上机器好多,一台一台的看, 日志文件太大,网速又慢,只能干等......
B 研发同学觉得数据库可能有问题,但是自己又不能直接操作数据库,只能找DBA,但是DBA正好不在......
C 运维同学更头大,一边要应付研发和测试的各种问题,一边还要自己查机器CPU、内存、io、网络、程序 状态,而且还那么多机器
解决方案
这种情况就需要一套“立体化、自动化、可视化的监控”,具体实现如下:
1、立体化
将故障分析和定位时涉及的所有的相关信息都要监控起来,共分为5层
(1)业务层
收集和分析业务层的访问量、成功率等指标,例如当系统被刷的时候,业务层能够一目了然的看出访问量 会增加很多。
(2)应用服务层
以URI为维度的分析,可以看到某个URI的访问量、HTTP响应码分布、HTTP响应时间等指标
应用服务层与业务层并不是一一对应的关系,一个业务可能对应多个应用服务层的URI,一个URI也可能对应多个业务层的业务
(3)接口调用层
接口调用层指的是系统依赖的外部系统接口,收集的信息包括访问情况,包括时延、错误码、次数等,当外部系统故障导致我们的业务故障时,通过接口调用层就能够快速的定位具体问题
(4)基础组件层
基础组件层指系统依赖的底层组件,例如容器、数据库、缓存、消息队列
不同的组件收集的信息不一样,例如数据库MySQL的监控指标包括连接数、请求数、查询行数、更新行数等,而缓存包括 使用率、踢出率、命中率等
(5)基础设施层
基础设施层指操作系统状态、网络状态,收集的信息,包括cpu使用率、内存使用率、网卡流量、连接数等
2、自动化
不要再由人工去分析日志或者执行命令了,而是由程序自动完成这些动作
当故障定位的时候需要这些信息时,可以立即看到,节省故障定位时间
为此我们开发了一套数据收集和分析系统,这套系统可以从其它各个系统(包括业务系统、运维系统等)获取并分析数据,例如日志数据、状态数据等
数据自动化收集和分析系统的结构如下:
Logstash用于采集日志,redis用于缓存日志,elasticsearch用于存储和分析日志
3、可视化
故障定位所需要的信息能够通过图表和数字直观的展示出来
有了自动化的收集和分析作为基础,可视化只需要将数据做成图表展示即可
除此以外,同比、环比这类数据也可以通过系统直观的展示出来,方便快速判断问题所在
内容整理自"面向业务的立体化高可用架构设计"
作者李运华 阿里资深工程师
相关推荐
- **JAE(Java Application Engine)** 是一个自动化运维平台,支持部署包管理、配置管理和多JDK支持,简化运维任务,提高效率。 - **LAP(Log Analysis Platform)** 作为日志分析平台,解决了传统模式下查看和...
同时,网络设备、存储设备和视频设备的监控管理功能,实现了对机房中所有关键硬件的全方位运维监控。 四、应用领域的广泛性 在应用领域上,大数据智能运维管理系统覆盖了政府、能源、通信、金融等多个行业,特别是...
有线电视运维调度系统是确保有线电视网络稳定运行、提供优质服务的关键组成部分。随着三网融合战略的推进,有线电视...未来,随着技术的进步,运维调度系统将进一步智能化、自动化,为用户提供更加稳定、高效的服务。
3. 改善运维服务质量:运维调度系统的自动化和智能化有助于弥补传统运维工作中的不足,如减少人为错误、提高人员素质和服务意识,以提升用户满意度,支持非传统增值业务的发展。 4. 支撑网络转型:在有线电视向智能...
通过这种方式,可以实现对楼宇的全方位、立体化的管理,包括室内室外空间、地上地下设施的管理,以及应急安全联动和指挥服务。 在功能组件层,方案涵盖了运维数据整合、建筑风貌展示、设备运行状态监控、管网分析、...
基于大数据的接入、存储、分析技术,对运维数据进行全面挖掘和分析,实现数据驱动自动化运维。基于智能算法的机器自我学习,训练机器智能运维模型,实现无人值守和智能的运维与运营。 三、DevOps流水线 蓝鲸中的第...
具体来说,Hightopo的3D可视化系统构建了一个包含RFID、AGV(自动导引车)、机器人码垛、立体化仓库、集装箱货运、机器人充电桩以及WMS(仓库管理系统)等在内的三维仿真仓储物流中心。这个系统能够实时显示设备状态...
此外,智慧校园的安防体系强调动静结合,采用三层立体化防控策略,包括主要出入口、单元楼宇外部和室内环境的防护。校园应急系统与电子地图、系统联动集成,能在紧急情况下迅速响应,提升应急处理能力。 通过...
而网络视频监控技术的出现,则让视频监控系统功能进一步增强,它通过网络技术将视频数据进行远程传输和处理,并具备与其他信息平安系统的集成能力,形成全方位、立体化的安全防护体系。 网络视频监控技术的特点主要...
精细化运维AIOps体现在问题的快速发现、深度分析和有效处置上,而AITSM-ITIL4框架的应用,推动了服务管理理念的革新,使IT运维更加以业务为中心。SCMDB(Service Configuration Management Database)的构建,则促进...
在Hightopo的3D可视化系统中,物流仓储中心被生动地呈现出来,包括RFID、自动引导车(AGV)、机器人码垛、立体仓库、集装箱货运、充电站等设备的状态和位置一目了然。用户可以定制AGV的行驶路径,实现精准调度。系统...
4. 安全防护:集成防火墙、入侵检测系统等,构建多层次、立体化的安全防护体系,有效抵御外部攻击。 三、系统功能 1. 环境监控:实时监测机房的温湿度、空气质量、水浸、烟雾等,确保设备运行环境的安全。 2. 动力...
- **数据驱动运维**: 利用大数据技术对接入、存储和分析的数据进行全面挖掘,实现数据驱动的自动化运维。 - **机器驱动运维**: 应用智能算法进行自我学习,训练出能够实现无人值守和智能运维的模型。 #### 五、应用...
腾讯运维团队高度重视技术数据的使用,并构建立体化监控体系,关注监控覆盖率、告警时效性和准确性。此外,通过根本原因分析(RCA)、事件管理和报表考核,腾讯推动了运营优化活动,包括架构和代码层面的改进。 ...
- 与历史数据对比,异常情况将自动向电缆运行监控中心发出报警,改变以往的人工巡检模式。 7. 运维人员安全保障措施: - 针对长距离深埋隧道环境中的人员安全问题,配置了智能安全帽、手持智能终端等设备。 - ...
4. **自动化与一体化运维**:借助先进的监控和运维平台,提升运营效率,通过自动化和一体化实现资源的优化管理。 5. **投资与预期的平衡**:在满足当前需求的同时,考虑未来发展,合理规划投资规模,以实现经济效益...
勤务管理的立体化,是“情指勤督”体系中的另一项核心能力。该系统实现了对交通管理人员的精确配置,优化勤务安排,合理规划管辖区域,确保警力资源得到最有效的利用。执法监督的实时监控,则通过监督交通事件确保了...
本方案详细阐述了智慧工业园区安防一体化的建设理念、实施策略、实际案例及推荐产品,旨在构建一个全方位、立体化的安全防护体系。 1. **智慧工业园区安全理解与现状** 目前,智慧工业园区面临的主要安全问题包括...
在安全防控方面,SD-WAN引入了零信任网络的理念,建立云网端的立体化防御体系,通过持续验证和分布式身份认证,确保网络的安全性。同时,利用云端集中防护,对Internet流量进行精准防控,以智能化的方式实现故障的...
持续发布的重点在于一键部署和平滑发布,通过灰度控制系统、动态升级和立体化监控,确保了代码的稳定交付。业务指标报表、用户反馈收集和用户行为分析进一步提供了对产品质量和用户体验的深度理解。 最后,持续反馈...