`
woodding2008
  • 浏览: 289576 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Storm平台监控方案[ 上 ]

 
阅读更多

监控的初衷

       社区版的storm除去storm UI可以提供一点信息外,实际上任务完全运行在一个黑盒子里,不仅不知道任务的运行情况,即使任务有问题时也无法及时通知用户来处理,事后排查问题又非常困难。为了解决这些问题,需要把任务运行的情况掌握起来。

 

监控的维度

任务维度监控 

  • 组件处理耗时,单位:毫秒 
  • 任务组件tps 
  • worker处理耗时,单位:毫秒 
  • worker tps 
  • worker.capacity【(number executed * average execute latency) / measurement time】

worker维度监控

  • 1分钟内parnew gc 平均耗时,单位:毫秒 
  • 1分钟内concurrentmarksweep gc 平均耗时单位:毫秒 
  • 1分钟内parnew gc次数 
  • 1分钟内concurrentmarksweep gc次数 
  • 老年代内存使用比率 
  • gc吞吐,计算公式:(runTime - totalGCTime) / runTime 
  • worker线程活跃数 
  • worker日志文件个数 
  • worker线程峰值 
  • worker文件大小 
  • worker运行时长,单位:天 
  • worker进程使用的文件句柄数 
  • worker进程使用的cpu
  • worker进程使用的swap
  • worker进程user使用的cpu
  • worker进程system使用的cpu 
  • worker内组件TPS监控

自助定问题

  • jstack定时生成并提供下载
  • 手动jmap堆信息并提供下载

管理员维度

  •  集群tps
  •  集群emit量   
  • 主机tps   
  • 主机emit量

灵活告警

  • 针对用户的告警
  • 邮件+短信

常见问题汇总

  • 内存泄漏
  • 线程泄漏
  • 连接泄漏
  • 任务并发设置不合理,worker不均衡
  • 不合理的日志输出
  • spout阻塞导致ticktuple停止
  • 不合理的slot数导致cpu都用来gc
  • 内核问题导致进程夯住
  • 网络连接随机端口导致worker端口被占
  • woker进程死锁
  • 下游系统慢导致反压队列爆满而OOM

 监控数据效果图

 

  • 大小: 131.4 KB
  • 大小: 66.5 KB
分享到:
评论
2 楼 woodding2008 2016-09-27  
gyp759596380 写道
你好,你这个是怎么做的,求分享

后面还会写几篇相关文章可供参考
1 楼 gyp759596380 2016-09-27  
你好,你这个是怎么做的,求分享

相关推荐

    基于流处理技术的云计算平台监控方案的设计与实现.pdf

    1. 实时计算系统Storm:作为实时监控方案的核心,Storm提供了分布式实时计算的框架,能够快速处理大量数据流。 2. 服务器性能监控工具:包括iostat、mpstat等,这些工具能够提供详细的系统性能数据,对服务器状态...

    Storm实时处理方案架构.docx

    "Storm实时处理方案架构" 本文档介绍了基于Storm的实时处理架构,该架构包括数据收集部分、实时处理部分和数据落地部分。本文将详细解释每个部分的技术选型和业务需求,并对相关技术的熟悉度进行分析。 1. 数据...

    基于Storm的城市消防联网远程监控系统的实时数据处理应用.pdf

    例如,在构建的云计算平台上,可以通过心跳检测机制来保证监控单位的实时性连接,从而确保数据处理的实时性。 在技术架构上,文章提出改进Storm框架的技术架构,使之适应消防系统的特定需求,提出一套高实时性、...

    Storm入门教程 之Storm原理和概念详解

    Storm流计算从入门到精通之技术篇(高并发策略、批处理事务、Trident精解、运维监控、企业场景) Storm入门教程 之Storm原理和概念详解,出自Storm流计算从入门到精通之技术篇,Storm入门视频教程用到技术:Storm集群...

    kafka跟storm收集日志解决方案

    ### Kafka与Storm在日志收集解决方案中的应用 #### 一、Kafka简介及安装 Apache Kafka是一种分布式的、基于发布/订阅模式的消息系统,它能够处理大量的实时数据流。Kafka因其高性能、高吞吐量以及低延迟等特点,在...

    金融行业大数据平台综合监控解决方案.pptx

    金融行业的大数据平台综合监控解决方案是...综上,金融行业大数据平台的综合监控解决方案采用先进技术和创新架构,如Storm,以适应大数据环境的挑战,提供高可用、可扩展、低延迟的监控能力,保障金融业务的稳健运行。

    金融行业大数据平台综合监控解决方案.pdf

    金融行业的大数据平台综合监控解决方案是针对现代金融领域中日益复杂的信息技术环境而提出的创新技术策略。随着大数据在金融领域的深入应用,传统的监控系统已经无法满足处理海量数据和保证系统稳定性的需求。在这种...

    基于Storm的铁道供电监控信息实时流计算处理研究_铁道供电相关专业论文毕业设计范文.pdf

    本文主要探讨了基于 Apache Storm 的实时流计算平台在铁道供电监控领域的应用,旨在解决海量数据的快速处理问题,提高调度监控的实时性和可靠性。 首先,传统的监控系统面临数据量激增的挑战,尤其是随着物联网设备...

    Twitter storm

    Storm 的设计目标是提供一个简单易用、可扩展且容错性高的平台,用于处理无界数据流(即持续不断地产生数据的数据流),并且能够保证消息的可靠传输。 Storm 与 Hadoop 类似,但主要针对的是实时数据处理,而Hadoop...

    基于Storm平台的数据恢复节能策略.docx

    为此,流计算框架如Apache Storm成为了首选解决方案,因为它能实时处理数据,避免了批量计算框架的延迟问题。Storm是一个开源、分布式、实时处理的平台,拥有强大的容错能力和活跃的社区支持,对比其他框架如Puma、...

    收集的storm的pdf版资料

    7. **监控与调试**:Storm提供了一套全面的监控工具,如Web UI和JMX指标,帮助开发者监控拓扑运行情况,并定位和解决性能问题。 8. **案例研究**:PDF资料可能包含实际项目案例,展示了如何在不同领域,如广告定向...

    storm大数据相关代码

    - **监控和管理**:可能包含用于监控拓扑性能、故障排查的代码或工具。 标签“storm”进一步确认了讨论的重点是Apache Storm框架。在压缩包的文件名列表中,虽然只有一个“storm”没有具体的文件名,但我们可以推测...

    storm与spark简介

    ### Storm与Spark简介 ...综上所述,**Storm** 和 **Spark** 分别针对实时数据处理和大数据分析提供了强大的解决方案。二者虽然在应用场景和技术实现上有较大差异,但都是当前大数据领域不可或缺的重要工具。

    apache-atlas-2.1.0-storm-hook.tar.gz--基于cdh6.3.1编译完成

    在CDH 6.3.1上安装和配置 Apache Atlas Storm Hook 的步骤大致如下: 1. 首先,确保已经部署了 Apache Atlas 和 Apache Storm 并且它们都在运行。 2. 解压提供的 "apache-atlas-storm-hook-2.1.0" 文件到适合的位置...

    基于Storm流计算天猫双十一作战室项目实战

    - **案例2:HighCharts实现实时数据可视化**:结合HighCharts等前端技术,将Storm处理后的数据实时地展示出来,便于监控和决策。 - **案例3:Storm + Kafka + HBase 联合应用**:综合运用Storm、Kafka和HBase搭建一...

    中国移动storm项目代码

    综上所述,【中国移动storm项目代码】是一个综合性的实时大数据处理实例,涵盖了分布式计算、实时分析、故障恢复等多个技术领域,对于理解和应用Apache Storm进行实时数据处理具有很高的参考价值。通过深入研究这个...

    实时计算平台STORM流式数据核心技术与报文系统.pdf

    【Storm实时计算平台核心知识点】 1. **流式数据与Storm的诞生** - **流式数据**:在大数据时代,流式数据成为一种重要的数据类型,它表现为连续、无界且瞬时的数据流,适合处理高并发和实时场景。与传统的静态、...

    行业分类-设备装置-一种基于Storm平台的分布式数字标牌广告投放方法.zip

    标题中的“一种基于Storm平台的分布式数字标牌...总的来说,这个技术方案利用了Storm的强大功能,实现了对数字标牌广告的高效、实时管理和投放,为广告主提供了更灵活、更智能的广告服务,同时也提升了观众的观看体验。

    storm性能测试文档

    在"storm性能测试方案与结果-public.docx"这个文档中,我们可以预见到它将包含以下内容: 1. **测试目的**:明确为什么进行性能测试,可能包括验证系统在大规模数据输入下的处理能力,评估资源利用效率,以及确定...

Global site tag (gtag.js) - Google Analytics