`
woodding2008
  • 浏览: 289554 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Storm平台监控方案[ 下 ]

 
阅读更多

监控选型

监控目标确定后,需要选择合适平台来实现数据收集、展示、以及告警。

经过调研发现小米运维部开源出来的Openfalcon设计巧妙,组件足够松散,扩容方便,经过大规模数据考验,周边生态比较完善。数据展示部分做得比较粗糙,不够美观,控制起来不是很方便,果断选择展示效果更胜一筹的Grafana,Grafana有比较绚的展示效果,而且有可以自动化的api使用,很容易实现定制以及程序化生成Dashboard,这里很感谢快网同学为Grafana与Openfalcon系统桥接插件做出的努力。

 

遇到的坑

  • Openfalcon的dashboard等个别组件依赖python,安装比较困难,跟作者沟通过,后续可能会用go重写。
  • Openfalcon组件太过于分散,管理成本较高,1.0版本也可能会做出调整。
  • Openfalcon权限部分太弱,扩展起来比较麻烦,快网、小米、美团等基本都是自己定制版。
  • Openfalcon的Judge组件以及mysql建议使用ssd盘,避免IO过高的问题
  • Grafana当时使用的是 v3.0.0-beta2,遇到了删除Dashboard API不太好用的问题,被迫使用页面上URL删除,这有很大隐患,目前V3.1.1问题已经fixed。

数据采集

  • Worker JVM信息通过Jmx的方式获取:GC、线程、老年代内存等
  • Worker 进程使用资源通过脚本获取:cpu、fd、日志等
  • 任务相关信息通过NimbusClient来获取,并做二次加工
  • 定时脚本抓取Jstack
  • 触发开关触发Jmap,生成堆文件
  • Openfalcon Agent默认会采集300项系统指标

 

数据汇报

  • agent插件汇报
  • jsonrpc4go RPC汇报

 

数据展示

Openfalcon提供API可以查看到endpoint下所有的监控项,Grafana也可以通过API的方式创建Dashboard,根据展示规则,采用程序【定时+手动】化生Dashboard【DashboardIndex】。

这里没有选择通过在Grafana中配置Template的方式来展示数据,这种方式效果不太理想,比如:过滤过期数据,展示版面控制个性化描述信息,用户视图展示等。

 

 

Oepfalcon API

  • POST   /graph/last
  • POST  /api/counters

 

Grafana API

  • GET        /api/search?query=$queryTitle&starred=false
  • POST      /api/dashboards/db/$dashboardName
  • DELETE  /api/dashboards/db/$dashboardName
  • POST      /api/user/stars/dashboard/$dashboardName

 

监控规模

  • 监控主机2800+
  • 监控指标70W+
  • 对接另外一个监控系统数据会整体翻倍

告警力度

  • 管理员收主机以及集群相关告警
  • 用户只收与自己相关任务告警

 

 老年代内存监控

 

 

 

  • 大小: 171.9 KB
分享到:
评论

相关推荐

    基于流处理技术的云计算平台监控方案的设计与实现.pdf

    1. 实时计算系统Storm:作为实时监控方案的核心,Storm提供了分布式实时计算的框架,能够快速处理大量数据流。 2. 服务器性能监控工具:包括iostat、mpstat等,这些工具能够提供详细的系统性能数据,对服务器状态...

    Storm实时处理方案架构.docx

    "Storm实时处理方案架构" 本文档介绍了基于Storm的实时处理架构,该架构包括数据收集部分、实时处理部分和数据落地部分。本文将详细解释每个部分的技术选型和业务需求,并对相关技术的熟悉度进行分析。 1. 数据...

    基于Storm的城市消防联网远程监控系统的实时数据处理应用.pdf

    标题《基于Storm的城市消防联网远程监控系统的实时数据处理应用》揭示了本篇论文的核心研究方向,即运用了Storm这一实时计算系统,针对城市消防联网远程监控系统进行实时数据处理应用的研究。在描述中,“#资源达人...

    Storm入门教程 之Storm原理和概念详解

    Storm流计算从入门到精通之技术篇(高并发策略、批处理事务、Trident精解、运维监控、企业场景) Storm入门教程 之Storm原理和概念详解,出自Storm流计算从入门到精通之技术篇,Storm入门视频教程用到技术:Storm集群...

    金融行业大数据平台综合监控解决方案.pdf

    总的来说,金融行业大数据平台综合监控解决方案的核心是利用创新技术优化现有监控架构,提高系统的稳定性和效率,以满足大数据环境下的复杂需求。通过采用如Storm和Redis等先进工具, Ultra-ΣM能够提供一个强大且...

    kafka跟storm收集日志解决方案

    ### Kafka与Storm在日志收集解决方案中的应用 #### 一、Kafka简介及安装 Apache Kafka是一种分布式的、基于发布/订阅模式的消息系统,它能够处理大量的实时数据流。Kafka因其高性能、高吞吐量以及低延迟等特点,在...

    金融行业大数据平台综合监控解决方案.pptx

    金融行业的大数据平台综合监控解决方案是...综上,金融行业大数据平台的综合监控解决方案采用先进技术和创新架构,如Storm,以适应大数据环境的挑战,提供高可用、可扩展、低延迟的监控能力,保障金融业务的稳健运行。

    基于Storm的铁道供电监控信息实时流计算处理研究_铁道供电相关专业论文毕业设计范文.pdf

    本文主要探讨了基于 Apache Storm 的实时流计算平台在铁道供电监控领域的应用,旨在解决海量数据的快速处理问题,提高调度监控的实时性和可靠性。 首先,传统的监控系统面临数据量激增的挑战,尤其是随着物联网设备...

    Twitter storm

    Storm 的设计目标是提供一个简单易用、可扩展且容错性高的平台,用于处理无界数据流(即持续不断地产生数据的数据流),并且能够保证消息的可靠传输。 Storm 与 Hadoop 类似,但主要针对的是实时数据处理,而Hadoop...

    基于Storm平台的数据恢复节能策略.docx

    为此,流计算框架如Apache Storm成为了首选解决方案,因为它能实时处理数据,避免了批量计算框架的延迟问题。Storm是一个开源、分布式、实时处理的平台,拥有强大的容错能力和活跃的社区支持,对比其他框架如Puma、...

    收集的storm的pdf版资料

    7. **监控与调试**:Storm提供了一套全面的监控工具,如Web UI和JMX指标,帮助开发者监控拓扑运行情况,并定位和解决性能问题。 8. **案例研究**:PDF资料可能包含实际项目案例,展示了如何在不同领域,如广告定向...

    storm大数据相关代码

    - **监控和管理**:可能包含用于监控拓扑性能、故障排查的代码或工具。 标签“storm”进一步确认了讨论的重点是Apache Storm框架。在压缩包的文件名列表中,虽然只有一个“storm”没有具体的文件名,但我们可以推测...

    中国移动storm项目代码

    【中国移动storm项目代码】是一个基于Apache Storm的实践项目,主要用于分析和处理中国移动基站的数据,特别是针对基站测试中的掉话率...通过深入研究这个项目,可以提升在实时大数据场景下的解决方案设计和实现能力。

    基于Storm流计算天猫双十一作战室项目实战

    - **案例2:HighCharts实现实时数据可视化**:结合HighCharts等前端技术,将Storm处理后的数据实时地展示出来,便于监控和决策。 - **案例3:Storm + Kafka + HBase 联合应用**:综合运用Storm、Kafka和HBase搭建一...

    storm性能测试文档

    在"storm性能测试方案与结果-public.docx"这个文档中,我们可以预见到它将包含以下内容: 1. **测试目的**:明确为什么进行性能测试,可能包括验证系统在大规模数据输入下的处理能力,评估资源利用效率,以及确定...

    storm与spark简介

    ### Storm与Spark简介 ...综上所述,**Storm** 和 **Spark** 分别针对实时数据处理和大数据分析提供了强大的解决方案。二者虽然在应用场景和技术实现上有较大差异,但都是当前大数据领域不可或缺的重要工具。

    apache-atlas-2.1.0-storm-hook.tar.gz--基于cdh6.3.1编译完成

    在这个版本中,Storm Hook 允许Apache Atlas 监控和记录 Storm 作业的数据流,这对于理解数据流动路径、追踪数据来源以及实施数据治理策略至关重要。 Apache Storm 是一个开源的分布式实时计算系统,它可以持续处理...

    实时计算平台STORM流式数据核心技术与报文系统.pdf

    【Storm实时计算平台核心知识点】 1. **流式数据与Storm的诞生** - **流式数据**:在大数据时代,流式数据成为一种重要的数据类型,它表现为连续、无界且瞬时的数据流,适合处理高并发和实时场景。与传统的静态、...

    行业分类-设备装置-一种基于Storm平台的分布式数字标牌广告投放方法.zip

    标题中的“一种基于Storm平台的分布式数字标牌...总的来说,这个技术方案利用了Storm的强大功能,实现了对数字标牌广告的高效、实时管理和投放,为广告主提供了更灵活、更智能的广告服务,同时也提升了观众的观看体验。

Global site tag (gtag.js) - Google Analytics