Storm任务常见问题总结 - 专注互联网后端技术 - ITeye博客

`

woodding2008

浏览: 291305 次
性别:
来自: 北京

最近访客更多访客>>

lixinendo

ws715

mulingya

KevinSha

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Ann-phei： wooding老师，有没有出书计划呀，是否方便加我QQ详聊呀 ...
2016年书架整理
可乐瓶里的小辣椒：
Storm目录贴
可乐瓶里的小辣椒： ...
TCP编号系统
woodding2008： tivan 写道反压的你有进行测试过吗？有做功能测试，没有做性 ...
Storm1.0.x新功能调研
tivan：反压的你有进行测试过吗？
Storm1.0.x新功能调研

Storm任务常见问题总结

博客分类：

Storm

阅读更多

内存泄漏[OOM]

容器类使用不当，导致对象无限增加。

线程泄漏

修复前后对比，正常情况下100-200个线程之间就足够了。

通过命令快速查看进程的线程数量 , ps hH p <pid> | wc -l，这个命令查看一个进程（用H选项）的线程数

for i in `ps aux | grep -v grep | grep java | awk '{print $2}'` ; do echo $i "-->" `ps hH p $i | wc -l`  ; done
81109 --> 29
81112 --> 22
166924 --> 43
176107 --> 153
176109 --> 148

连接泄漏

JDBC4PreparedStatement对象没有关闭，连接泄漏同时也会OOM

并发设置不合理

并发设置过大导致线程数高居不下，上下文切换成本较大。

组件并发设置不合理，导致worker CPU使用率偏差较大，影响任务的稳定。

不合理日志输出

日志太多，很容易把磁盘写爆。

下游系统故障

mysql IO问题，导致数据囤积在worker中会触发频繁的GC。

查看图片附件

分享到：

Storm TickTuple 意外停止 | Storm目录贴

2016-10-02 03:02
浏览 3349
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Storm的WordCount实例: 在这个“Storm的WordCount实例”中，我们将深入探讨如何利用Storm来实现经典的WordCount程序，这是一个在大数据处理中常见的示例，用于统计文本中的单词出现频率。首先，理解Storm的基本架构是至关重要的。Storm由...

STORM-User-guide-V3.2: 2. **灵活性**：STORM支持多种常见的实时调度算法，并且易于扩展新的调度算法。 3. **可视化**：仿真结果可以通过直观的图表形式展现出来，便于理解系统的行为。 4. **数据分析**：仿真过程中产生的数据可以保存下来...

apache-storm-1.0.2.tar.gz: 总结，Apache Storm 1.0.2 是一个强大的实时大数据处理工具，尤其适用于需要对海量数据进行实时分析的场景。在 Linux 环境下，用户需要了解如何解压和部署这个软件包，理解 Storm 的核心组件和工作原理，以及如何...

storm 从零到精通非常实用的文件: ### Storm 从零到精通知识点解析 #### 一、Storm简介 **1.1 什么是Storm** Apache Storm 是一个开源的分布式实时计算系统，能够处理大量...以上总结了从零开始学习 Storm 的基础知识和技术要点，希望对你有所帮助。

Storm1.2.2+Zookeeper3.4.14.zip: 在大数据处理中，Storm和Zookeeper的结合使用非常常见。Storm可以将数据流分成多个小任务，这些任务可以在分布式环境中并行处理，而Zookeeper则负责管理和协调这些任务，确保整个系统的正确运行。例如，Storm的...

storm深入学习.pdf: BasicBolt是Storm中设计用于简化开发的一种抽象，它封装了常见的处理逻辑：接收tuple、处理并发射新的tuple，然后确认tuple已被成功处理。开发者可以通过实现IBasicBolt接口，如使用BaseBasicBolt类，快速创建处理...

Storm流计算项目：1号店电商实时数据分析系统-16.项目1-地区销售额-优化Bolt支持重启及结果数据核查.pptx: 在大数据处理领域，Storm作为一个实时计算框架，被广泛应用于实时数据分析和处理任务。在1号店的电商实时数据分析系统中，项目1的重点是对地区销售额进行实时统计，这一过程中Bolt组件扮演了关键角色。本文将深入...

storm_maprdb:Storm + MapR-DB: 总结起来，"storm_maprdb:Storm + MapR-DB"是一个使用Java开发的项目，旨在利用Apache Storm的实时处理能力和MapR-DB的高性能存储，实现数据的实时处理和存储。这种技术组合在实时大数据处理领域有着广泛的应用前景...

item-storm-poc:项目只是一个要部署到Apache Storm的小项目: Apache Storm 是一个分布式实时计算系统，它允许开发者处理无界数据流，以实现实时分析、日志聚合、社交网络过滤、机器学习等任务。在这个名为 "item-storm-poc" 的项目中，我们看到它是一个针对Apache Storm的小型...

大数据课程体系.docx: - **集群搭建常见问题解决**：总结集群搭建过程中可能遇到的问题及其解决方案。 - **Storm常用组件和编程API**：介绍Topology、Spout、Bolt等核心组件的使用方法。 - **Storm分组策略（stream groupings）**：解释...

大数据平台常用组件-常见的大数据平台架构设计思路.pdf: 本文深入探讨了大数据平台的常见组件、架构设计思路，以及如何解决数据开发过程中的痛点。首先，大数据技术栈包含了多个复杂的模块，如数据采集（如Flume、Kafka）、数据传输（如HDFS、Spark）、实时计算（如Flink...

流行的python项目汇总.docx: Python，作为一种广泛使用的编程语言，已经渗透到各个领域，包括测试和调试、Web框架、并发处理、任务调度以及实用工具等。以下是对这些流行Python项目的详细介绍： 1. 测试和调试： - python_koans：它是一个交互...

Spark内核解析.docx: 总结来说，Spark内核的理解涉及其核心组件的功能、任务调度策略、内存管理机制以及部署模式的选择。深入理解这些知识点，有助于开发人员编写出更加高效、稳定的Spark应用，同时也能有效解决在项目运行中遇到的问题。

分布式计算技术教材源代码: 分布式计算的核心在于将单一的计算任务分解成多个小任务，分配到网络中的不同计算机上并行处理，然后将结果汇总，以实现更高的计算效率和可扩展性。这种技术在大数据分析、云计算、物联网(IoT)和人工智能(AI)等领域...

hmyjsmst.docx: - Storm集群中的中心管理节点，负责任务的分配和管理。 - **Zookeeper** - 提供高可用的服务协调功能，用于管理Storm集群的配置信息。 - **Supervisor** - 运行在每个工作节点上，负责接收Nimbus分配的任务，并...

《大数据平台搭建与配置管理》期中试题试卷及答案2套AB卷.docx: - Stream Grouping是Storm中的数据分发策略之一，常见的类型包括Shuffle Grouping、Fields Grouping等。 15. **Storm并行处理**： - Storm可以根据设置的并行度，在集群中分配相应数量的工作线程(Executor)来执行...

Strom流处理的基础知识总结: 【Strom流处理的基础知识总结】 Strom是一个分布式实时计算系统，由Twitter开源，用于处理大规模数据流。它被设计成可扩展、容错且低延迟的，适用于实时数据分析、在线机器学习、持续计算和大数据处理等多个场景。...

大数据培训总结.docx: 【大数据培训总结】大数据作为当前信息技术领域的重要方向，其学习内容涵盖了多个层面，从基础的编程语言到复杂的分布式计算框架，再到数据存储和分析。以下是对大数据培训的主要知识点的详细阐述： 1. **基础...

\"证券交易的低延迟挑战\"分享总结: 本文将探讨证券交易中的低延迟问题及其解决策略。 1. 交易系统的架构设计为了实现低延迟，证券交易系统需要优化其架构。这通常涉及采用分布式系统，将计算任务分散到多个节点，减少单个组件的负载。此外，使用...

Global site tag (gtag.js) - Google Analytics