`
无尘道长
  • 浏览: 160710 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

通过日志实现简单的服务监控与快速问题定位

阅读更多

    生产系统出的问题中,请求响应慢是很常见的问题,如何快速定位慢的源头非常重要,通过对之前遇到的问题总结,发现一般都是依赖服务慢或者出现线程阻塞导致,对于这两种问题简单有效的定位方法如下:

   1、打印超过阀值的依赖服务访问时长到日志,通过日志定位

    2、使用java的jstack命令查看java线程是否阻塞

   其中简单介绍一下如何利用日志定位问题:

      对每个项目依赖的服务,比如:httpredishbasemysqlmemcachedkafka添加访问时长的日志,对超过设置阀值的信息输出到同一个单独的日志文件中,当出现服务慢等问题时,打开该文件就可以很快定位慢的是哪个服务,具体做法是在common项目中提供对相关服务的封装,应用通过封装类进行服务交互。

 

日志文件内容举例如下:

 

10:40:00.661 [http-bio-28000-exec-8] url http://217.0.0.1:8080/demo?p=1  response time > 300 ms , 362 ms

 

11:19:29.070 [http-bio-28000-exec-1] hbase table cloud_usr_book_3 getRowResultsByRowkeyRangeAndColumnNames nayoaixij_ nayoaixij_| columnNames count:1 2147483647 response time > 100 ms , 125 ms

11:45:02.924 [Thread-56] redis 192.168.7.122 6429 0 lpop nc_pre_ajbal response time > 20 ms , 21 ms

    该日志中只包含慢的请求,通过该日志一眼就能看出是具体哪个http服务或者redis或者hbase等慢,当然也有可能不是某个服务慢而是系统内部问题,比如有一次由于日志打印过多导致出现了logback的阻塞,这时通过jstack就可以定位到具体问题,关于打印日志有3点需要注意:

   1、线上日志级别调整为info,线上查错的日志以info的级别输出

  2、输出到线上日志文件的内容需精细化控制,比如:在调用外部系统bookDetail服务会返回图书的详细信息,该信息一共80多个字段,平均4K,不能全部输出,只输出业务用于查错的部分字段

  3、如果有多个文件的appender,如果不需要输出到rootappender,则应该设置logger配置项的additivity属性为false,避免同一份日志写两个日志文件,比如:

  

 

 

  • 大小: 30.8 KB
分享到:
评论

相关推荐

    SYSLOG日志数据采集实现

    - **故障定位:**通过分析日志文件,可以快速定位问题所在,减少故障排除时间。 - **合规性审计:**满足法律法规的要求,例如数据保护法等。 - **趋势分析:**长期保存的日志文件可用于趋势分析,帮助预测未来的安全...

    Go-go-monitor采用Go编写的简单服务器监控

    通过定期采集并分析这些指标,运维人员可以快速定位到可能影响服务性能的问题,从而进行优化或调整。 其次,Go-go-monitor具备灵活的报警机制。当服务器的某项指标超过预设阈值时,系统会自动触发报警,通过邮件、...

    监控错误日志并通过rabbitMq发送钉钉通知.docx

    这样,每当系统发生错误,钉钉上的工作群就会接收到实时的错误通知,帮助快速定位和解决问题。 总之,通过整合Logback、RabbitMQ和钉钉,我们可以构建一个高效且可靠的错误监控和告警系统,确保团队能够及时发现并...

    Delphi中用多线程实现日志文件的读写与管理

    本文将深入探讨如何在Delphi中利用多线程技术来实现日志文件的高效读写与管理。 首先,了解多线程的概念。在单线程环境下,所有的操作都是顺序执行的,如果在处理日志时阻塞了主线程,可能会导致用户界面的卡顿。而...

    文件监控处理和异常的日志处理

    良好的日志实践可以帮助开发者在出现问题时快速定位原因,提供调试信息,甚至用于性能分析和系统审计。在多线程环境中,由于并发可能导致的复杂性,日志尤为重要,因为它可以追踪到哪个线程在何时执行了什么操作。 ...

    物联网设备监控:实现访问日志记录的全面指南

    2. **故障排除**:当设备出现故障时,通过查看日志文件可以快速定位问题所在,比如硬件故障、软件错误或是网络连接问题,进而更快地修复问题。 3. **合规性**:许多行业和国家对于数据处理有严格的法律法规要求,...

    构建高效的管理系统日志记录与监控策略

    1. **故障排查**:当系统出现异常或错误时,日志能够提供第一手资料,帮助开发人员快速定位问题根源。 2. **安全审计**:通过对日志的记录与分析,可以跟踪和审查所有关键操作,为安全审计提供有力支持。 3. **性能...

    Spring Cloud 学习案例,服务发现、服务治理、链路追踪、服务监控等

    Spring Boot 实现的云应用开发工具集,它为开发者提供了在分布式系统(如配置管理、服务发现、断路器、智能路由、微代理、控制总线、一次性令牌、全局锁、领导选举、分布式会话、集群状态)操作的简单方法。...

    Dubbo简易监控中心发布包(2.5.4开发版)

    这个组件提供了基本的服务监控功能,允许管理员查看服务的运行状态、调用统计、异常信息等,有助于快速定位和解决问题。简单易用是其一大特点,可以在Windows和Linux操作系统上直接解压运行,无需额外安装其他依赖,...

    python实现实时监控文件的方法

    这不仅能帮助团队主动预防问题的发生,还能加快问题的定位与解决速度。 #### 方法一:利用 `subprocess` 模块调用 `tail -f` 命令 这种方法基于 Linux 下常用的 `tail -f` 命令,它能够持续输出文件的新增内容。...

    C# 通过进程队列实现的企业日志类

    通过记录异常堆栈信息,开发者能快速定位问题所在。 5. **配置简化**: 相比Log4net等日志框架,这个类省去了繁琐的XML配置,可能采用更直观的代码方式进行设置,降低了使用门槛,使开发者可以更快地集成到项目中...

    超简单版日志管理.rar_日志

    8. **故障排查与问题诊断**:日志是诊断系统问题的重要依据,一个简单的日志管理系统应至少能辅助开发者快速定位错误,理解问题发生的原因。 9. **自动化处理**:对于重复性日志问题,"超简单版日志管理"可能具备...

    云监控常见问题.docx

    云监控是一种重要的IT管理工具,它能够实时监测和分析服务器、网络、应用程序等...无论是对硬件资源的监控,还是对服务状态的跟踪,云监控都能提供关键的洞察力,帮助快速定位和解决问题,确保业务的连续性和可靠性。

    手机日志系统的设计与实现本科生毕业论文.doc

    通过日志技术,可以实时监控系统的运行状态,快速定位和解决系统问题,提高系统的可靠性和安全性。 在设计手机日志系统时,需要考虑到信息系统的安全性。随着企业信息化的发展,企业信息系统变得越来越复杂,企业对...

    Python-一个基于bottle的服务器监控插件

    3. **日志分析**:收集并分析服务器的日志文件,快速定位问题所在,便于故障排查。 4. **报警机制**:当服务器的某个指标超过预设阈值时,插件可以通过邮件、短信或推送通知等方式提醒管理员,以便及时处理。 5. *...

    服务器监控软件sealion

    3. **日志管理**:通过对服务器日志的收集和分析,Sealion能帮助管理员识别错误或异常行为,快速定位问题源头。 4. **报警与通知**:当服务器出现异常时,Sealion可设置阈值触发报警,通过邮件、短信等方式通知管理...

    java日志文件过滤

    过滤规则则允许我们根据特定条件(如关键字、日期范围、错误类型等)来筛选日志,以便快速定位问题。 在本项目中,"FilterFile"可能是主程序或者核心类的名字,它可能包含以下关键功能: 1. **读取日志文件**:...

    阿里巴巴的鹰眼全链路监控系统各组件实现介绍

    - **快速定位故障**:当应用发生异常或响应时间过长时,可以通过TraceId快速查询到完整的调用链路,进而定位问题所在。 - **性能优化**:通过对调用链路进行分析,可以发现系统中的瓶颈和性能问题,有助于进一步优化...

    windowsx下长ping检测网络,可以自动按照日期创建日志,日志会记录进任务和出任务时间,使网络检测更加直观

    在实际应用中,这样的网络检测脚本对于系统管理员来说非常有用,它可以帮助他们及时发现网络波动、丢包或延迟等问题,从而快速定位和解决问题。结合标签“网络”和“网络”,我们可以推断这个压缩包文件可能包含了一...

    serverMmon(青蛇探针)是nodeJs开发的一个酷炫高逼格的云探针、云监控、服务器云监控、多服务器探针

    3. **故障排查**:当出现问题时,提供详细的日志和报警功能,帮助快速定位和解决问题。 4. **自动化运维**:通过集成自动化工具,可以自动执行如重启服务、调整资源分配等操作。 5. **合规性审计**:记录服务器状态...

Global site tag (gtag.js) - Google Analytics