`
大涛学长
  • 浏览: 105645 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

6 个 K8s 日志系统建设中的典型问题,你遇到过几个?

阅读更多
![图片描述][1]

> 导读:随着 K8s 不断更新迭代,使用 K8s 日志系统建设的开发者,逐渐遇到了各种复杂的问题和挑战。本篇文章中,作者结合自己多年经验,分析
> K8s 日志系统建设难点,期待为读者提供有益参考。

在 Logging 这块做了几年,最近 1 年来越来越多的同学来咨询如何为 Kubernetes 构建一个日志系统,或者是来求助在这过程中遇到一系列问题如何解决,授人以鱼不如授人以渔,于是想把我们这些年积累的经验以文章的形式发出来,让看到这篇文章的同学能少走弯路。这个系列文章定位为长篇连载,内容偏向落地实操以及经验分享,且内容会随着技术的迭代而不定期更新。


**前言**

第一次听到 Kubernetes 的名字是在 2016 年,那个时候 Kubernetes 还处于和 Docker Swarm、Mesos 方案的“三国鼎立时代”,Kubernetes 由于一系列优势(可扩展、声明式接口、云友好)在这一竞争中崭露头角,最终获得统治地位。


Kubernetes 作为 CNCF 最核心的项目(没有之一),是 Cloud Native(云原生)落地的底座,目前阿里已经全面基于 Kubernetes 在开展全站的云原生改造,在 1-2 年内,阿里巴巴 100% 的业务都将跑在公有云上。


CloudNative 在 CNCF 的定义的核心是:在公有云、私有云、混合云等环境中,通过 Containers、Service Meshes、 MicroServices、Immutable Infrastructure、Declarative APIs 构建和运行可弹性扩展的且具有高容错性、易于管理、可观察、松耦合的应用系统。可观察性是应用系统必不可少的一个部分,云原生的设计理念中就有一条:面向诊断性设计(Diagnosability),包括集群级别的日志、Metric 和 Trace。


**为何我们需要日志系统**

通常一个线上问题的定位流程是:通过 Metric 发现问题,根据 Trace 定位到问题模块,根据模块具体的日志定位问题原因。在日志中包括了错误、关键变量、代码运行路径等信息,这些是问题排查的核心,因此日志永远是线上问题排查的必经路径。



![图片描述][2]



在阿里的十多年中,日志系统伴随着计算形态的发展在不断演进,大致分为 3 个主要阶段:

在单机时代,几乎所有的应用都是单机部署,当服务压力增大时,只能切换更高规格的 IBM 小型机。日志作为应用系统的一部分,主要用作程序 Debug,通常结合 grep 等 Linux 常见的文本命令进行分析;
随着单机系统成为制约阿里业务发展的瓶颈,为了真正的 Scale out,飞天项目启动:2013 年飞天 5K 项目正式上线。在这个阶段各个业务开始了分布式改造,服务之间的调用也从本地变为分布式,为了更好的管理、调试、分析分布式应用,我们开发了 Trace(分布式链路追踪)系统、各式各样的监控系统,这些系统的统一特点是将所有的日志(包括 Metric 等)进行集中化的存储;
为了支持更快的开发、迭代效率,近年来我们开始了容器化改造,并开始了拥抱 Kubernetes 生态、业务全量上云、Serverless 等工作。在这阶段,日志无论从规模、种类都呈现爆炸式的增长,对日志进行数字化、智能化分析的需求也越来越高,因此统一的日志平台应运而生。

**可观察性的终极解读**

在 CNCF 中,可观察性的主要作用是问题的诊断,上升到公司整体层面,可观察性(Observability)不仅仅包括 DevOps 领域,还包括业务、运营、BI、审计、安全等领域,可观察性的最终的目标是实现公司各个方面的数字化、智能化。


![图片描述][3]




在阿里,几乎所有的业务角色都会涉及到各式各样的日志数据,为了支撑各类应用场景,我们开发了非常多的工具和功能:日志实时分析、链路追踪、监控、数据加工、流计算、离线计算、BI 系统、审计系统等等。日志系统主要专注于数据的实时采集、清洗、智能分析与监控以及对接各类各样的流计算、离线系统。


**Kubernetes 日志系统建设难点**

![图片描述][4]


单纯日志系统的解决方案非常多,相对也比较成熟,这里就不再去赘述,我们此次只针对 Kubernetes 上的日志系统建设而论。Kubernetes 上的日志方案相比我们之前基于物理机、虚拟机场景的日志方案有很大不同,例如:

日志的形式变得更加复杂,不仅有物理机/虚拟机上的日志,还有容器的标准输出、容器内的文件、容器事件、Kubernetes 事件等等信息需要采集;
环境的动态性变强,在 Kubernetes 中,机器的宕机、下线、上线、Pod销毁、扩容/缩容等都是常态,这种情况下日志的存在是瞬时的(例如如果 Pod 销毁后该 Pod 日志就不可见了),所以日志数据必须实时采集到服务端。同时还需要保证日志的采集能够适应这种动态性极强的场景;
日志的种类变多,上图是一个典型的 Kubernetes 架构,一个请求从客户端需要经过 CDN、Ingress、Service Mesh、Pod 等多个组件,涉及多种基础设施,其中的日志种类增加了很多,例如 K8s 各种系统组件日志、审计日志、ServiceMesh 日志、Ingress 等;
业务架构变化,现在越来越多的公司开始在 Kubernetes 上落地微服务架构,在微服务体系中,服务的开发更加复杂,服务之间的依赖以及服务底层产品的依赖越来越多,这时的问题排查将更加复杂,如果关联各个维度的日志将是一个困难的问题;
日志方案集成困难,通常我们都会在 Kubernetes 上搭建一套 CICD 系统,这套 CICD 系统需要尽可能的自动化的完成业务的集成和部署,其中日志的采集、存储、清洗等也需要集成到这套系统中,并和 K8s 的声明式部署方式尽可能一致。而现有的日志系统通常都是较独立的系统,集成到 CICD 中代价极大;
日志规模问题,通常在系统初期的时候我们会选择自建开源的日志系统,这种方式在测试验证阶段或公司发展初期是没有什么问题的,但当业务逐渐增长,日志量增长到一定规模时,自建的开源系统很多时候都会遇到各种各样的问题,例如租户隔离、查询延迟、数据可靠性、系统可用性等。日志系统虽不是 IT 中最核心的路径,但一旦关键时刻出现这些问题都将是非常可怕的影响,例如大促的时候出现紧急问题,排查时多个工程师并发查询把日志系统打爆,导致故障恢复时间变长,大促收到影响。
相信在搞 K8s 日志系统建设的同学看到上面的难点分析都会深有感触,后面我们会从落地角度出发,详细介绍在阿里我们如何去搭建 K8s 的日志系统,敬请关注。

本文作者: 元乙  阿里云日志服务数据采集客户端负责人
原文链接:https://yq.aliyun.com/articles/718735?utm_content=g_1000076997
本文为云栖社区原创内容,未经允许不得转载。
分享到:
评论

相关推荐

    k8s日志平台建设最佳实践.pdf

    k8s日志平台建设最佳实践是指在Kubernetes系统中构建高效、可靠、可扩展的日志平台,以解决Kubernetes系统中的核心问题。日志平台的建设涉及到多方面的问题,如日志采集、资源消耗、运维代价、便捷使用等。 在...

    k8s(kubernetes)常见故障处理总结-详细笔记文档总结

    kubernetes(k8s)作为一个容器编排系统,广泛应用于云计算和大数据等领域。然而,在实际使用中,k8s 也会出现各种故障,影响系统的稳定性和可用性。因此,本文总结了 k8s 中常见的故障处理方法,以便快速诊断和解决...

    解决k8s中xxl-job执行器pod重建后无法读取到执行日志的问题

    但在k8s中,即使将本地文件通过nfs独立存储,在pod重建后也通常会因为ip变更,找不到执行器,导致读取不到执行日志。解决方案为单独再部署一个xxl-job-read-log服务,将读日志的请求都转到这个服务上,由这个服务...

    k8s监控与日志

    Kubernetes监控与日志作为容器编排平台的重要组成部分,主要负责资源管控、横向扩展、服务管理...这些监控与日志功能的实施,帮助运维人员及时了解集群的状态,有效地解决运行中的问题,并通过自动化工具提升运维效率。

    阿里云开源插件log-pilot搜集k8s部署应用容器内日志

    log-pilot是一款轻量级的日志收集工具,由阿里云开发并开源,专门用于解决k8s环境中的日志采集问题。它能够实时监控和收集k8s集群内的容器日志,并将这些日志数据转发到各种日志分析平台,如Elasticsearch、Logstash...

    K8S日志查询工具公开版.zip

    在K8S集群中,日志管理和查询是非常重要的运维任务,它可以帮助开发者和管理员追踪应用程序的行为、诊断问题以及进行性能分析。"K8S日志查询工具公开版.zip" 提供了一个专门针对K8S日志的查询工具,旨在简化这一过程...

    k8s之lens使用方式

    Lens是一款开源的K8s集成开发环境,它不仅提供了图形化的用户界面,还集成了代码编辑器、日志查看器以及多种K8s资源管理工具。通过Lens,用户可以轻松地与K8s集群进行交互,进行资源部署、监控和调试等操作。 #### ...

    k8s日志1111111111

    k8s日志1111111111

    promethues(普罗米修斯)监控k8s集群-详细文档

    通过这个详尽的步骤,你将能够构建一个完整的 k8s 集群监控系统,不仅能够实时查看集群状态,还能在出现异常时及时收到通知,从而提升系统的可维护性和稳定性。记得定期审查和更新监控策略,以适应 k8s 集群的变化和...

    K8S入门基础课件docx版本

    在K8S中,有几个关键概念是必须理解的: 1. **Pod**: Pod是K8S的基本执行单元,它可以包含一个或多个紧密相关的容器。Pod代表了运行时的实例,如应用程序进程或数据库。 2. **Service**: Service是K8S中的抽象层,...

    k8s架构图整体框架知识合集

    Prometheus是一个监控系统,Metrics Server是一个 metrics 服务,k8s监控体系是k8s中的一个监控系统。 七、k8s应用管理 k8s应用管理是基于声明式API的。声明式API是k8s中的一个API,用于定义和管理k8s集群中的应用...

    阿里云开源插件log-pilot(logpilot)搜集k8s部署应用容器内日志—超详细,超全面(带文档和相关软件包)

    阿里云开源插件Log-Pilot(也称为logpilot)是一款强大的日志收集工具,专为在Kubernetes(k8s)环境中运行的应用程序设计。它能够高效地从各个容器中提取日志,并将这些日志发送到指定的存储或分析系统,以便于监控...

    k8s-test_java和k8s_k8s环境日常_k8s_

    在IT行业中,Kubernetes(简称K8s)已经成为容器编排和管理的首选平台,而Java作为广泛应用的编程语言,其在K8s环境中的应用是企业级微服务架构的关键部分。本文将深入探讨如何利用Java进行K8s环境的日常操作与运维...

    k8s-coredns-1.8.6镜像包和安装文件

    在容器编排领域,Kubernetes(简称k8s)是一个广泛应用的开源系统,用于自动化容器化应用程序的部署、扩展和管理。在这个场景中,我们关注的是k8s的一个关键组件——CoreDNS,它是一个高性能、插件化的DNS服务器,被...

    K8S部署+实战+集群架构图.zip

    8. **实战应用**:实战文档可能包含如何将一个应用部署到K8s集群的步骤,包括编写YAML配置文件、使用kubectl命令行工具与集群交互、暴露服务给外部访问、监控和日志收集等。 9. **K8S网络模型**:Kubernetes采用了...

    rancher-k8s

    在使用Rancher-K8s部署Kubernetes集群的过程中,可能会遇到一些常见的问题,例如部署后的Kubernetes环境无法正常访问dashboard,或是在基础架构中找不到相关的容器。这些问题通常是由于Kubernetes依赖的一些组件(如...

    Kubernetes(K8S)超快速入门视频教程

    手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程简介 Kubernetes(K8S)是Google在2014年发布的一个开源项目,用于自动化容器化应用程序的部署、扩展和... 6、K8S课程总结

    k8s部署redis所需要的配置文件

    在Kubernetes(k8s)环境中部署Redis集群是一项常见的任务,尤其当需要高可用性和数据持久化时。这里我们将深入探讨如何使用Redis集群,并结合Ceph作为持久化存储的配置方法。 首先,Redis是一个高性能的键值存储...

    oracle on k8s 部署yaml

    oracle on k8s 部署yaml

    cloud-运维平台_k8s_k8s运维平台_cloud_

    Kubernetes运维平台是k8s生态系统中的重要组成部分,它通常包括监控、日志、报警、自动化部署、配置管理等多个功能模块。这样的平台能够帮助管理员更好地管理和优化k8s集群,确保服务的高可用性和性能。其中,"helm...

Global site tag (gtag.js) - Google Analytics