本文想讨论下大数据分析处理平台的调度从架构上看应该起到一个什么样的作用,达到一个什么样的能力。
谈调度之前,先说说大数据分析处理平台的定义:集成数据采集/导入/存储、高效统计分析/挖掘分析、结果数据可视化呈现等功能的一体化系统,它具有简单易用、高度管理、平滑扩展、定向定制、算法丰富、支持迁移、可视呈现等特点。一般来说,大数据分析处理平台有以下几个显著特点:
- 规模大,集群化。百度,腾讯,阿里的大数据分析平台目前都在几千甚至上万台X86服务器的规模。
- 复杂度高,多个子系统异构。现在很难有一种技术能把所有问题搞定,所以通常是多个子系统混合一起通力合作。
- 系统负载高,压力大,从腾讯公布的数据来看,每天完成上百万个任务的执行。
- 可靠性要求高,容易维护。
那么调度在整个大数据分析处理平台中起到什么作用?我觉得一个智能、高效的调度应该达到以下几个层面的能力:
- 首先是从资源角度,整个系统中要做到高效,就需要一个全局的分配资源的中心。这样才能做到各个子系统资源合理,高效的分配和调度。业界现在最常见的是MESOS,YARN,腾讯基于YARN的基础上改造了GAIA,谷歌公布了他的第三代调度Omega,关于资源管理可以看我前面的文章《资源管理框架(mesos/YARN/coraca/Torca/Omega)选型分析》。
- 从系统整合角度,整个系统一定是异构的系统,所以调度要支持异构,能整合异构系统来一起完成整个数据的计算,流转,存储以及提供服务。
- 从业务角度来看,系统一定的可扩展的,业务可快速定制的,所以调度本身能结合业务进行定制,支持任务的编排,任务的各个子系统的快速迁移。
- 从调度本身能力来看,调度本身应该是一个智能的调度,具有自学习,自我调优的能力,一个智能的调度系统才适合业务的不停变化。
相关推荐
平台具备信息加工、数据转换和处理的能力,采用优先级服务机制,优先满足实时性要求高的交换和共享请求,保证信息交换、共享的安全性和可靠性。 平台的建设目标包括提供消息、数据服务和共享数据库等多种信息共享...
全域智慧旅游大数据分析平台的建设和运营是现代旅游业发展的重要趋势,它旨在利用先进的信息技术手段,如云计算、物联网、大数据分析,提升旅游行业的服务质量、管理效率和游客体验。本方案主要探讨了如何构建这样一...
【智慧农业大数据分析平台建设综合解决方案】 智慧农业大数据分析平台的建设旨在解决当前农业领域面临的诸多挑战,包括数据采集困难、信息普及不均、会商培训不足、监管追溯复杂、传统农业特征明显、物流效率低下...
2. 实时性:部分业务需求要求数据处理和分析具备实时或近实时的能力。 3. 复杂性:数据类型多样,需要支持结构化、半结构化和非结构化数据。 4. 安全性:确保数据传输和存储的安全,遵循隐私保护政策。 设计策略 1...
交通大数据分析平台的逻辑框架可以分为数据采集层、数据存储层、数据处理层和应用层。数据采集层负责收集各种交通数据,数据存储层负责存储结构化和非结构化的数据,数据处理层进行数据清洗、预处理、分析和挖掘,...
大数据分析平台是现代企业和组织利用海量数据进行决策支持的关键基础设施。这一平台通常由多个层次组成,涉及数据的获取、处理、存储、分析和展现。以下是对这些知识点的详细阐述: 首先,数据源是大数据分析的基础...
2.2 交通大数据分析平台逻辑框架 - 数据采集层:收集来自各类交通设备(如摄像头、传感器、GPS等)的原始数据。 - 数据预处理层:清洗、整合、转换数据,消除噪声和异常值,为后续分析做准备。 - 数据存储层:采用...
Dolphinscheduler,又称“小海豚”,是一款强大的开源调度平台,专为大数据处理而设计。它提供了页面化的操作界面,使得数据调度变得更加直观和易用。作为一个全面的大数据监控工具,Dolphinscheduler旨在解决大数据...
大数据分析平台是现代企业进行决策支持、业务洞察和创新的关键工具。它整合了大量多源异构数据,并利用先进的分析技术进行处理,以提取有价值的信息。以下是对"大数据分析平台总体架构方案"的详细解析: 1. **数据...
Spark为大数据分析提供了快速、灵活和容错的数据处理框架。通过其核心组件,Spark实现了高效的数据处理、实时流处理、机器学习和图计算等功能,适应了大数据时代的需求。对于需要快速处理大量复杂数据的企业和组织来...
大数据处理综合处理服务平台的设计与实现主要关注如何在金融行业中应对海量数据的挑战,提升数据分析能力,确保信息共享和数据安全。平台以SOA(Service-Oriented Architecture,面向服务的架构)为基础,结合云计算...
总之,《Spark 快速大数据分析》是一本深入浅出的指南,它不仅涵盖了Spark的核心技术,还涉及了数据挖掘和机器学习的实践应用,旨在帮助读者迅速掌握大数据分析的精髓,并具备使用Spark解决实际问题的能力。...
海量数据分析平台方案设计主要关注如何高效地处理和分析大规模数据,包括结构化和非结构化的信息。该平台设计的关键在于采用分布式处理技术和针对性的架构,以应对数据量大、写入速度快、更新少、查询复杂以及实时性...
【防汛抗旱大数据分析平台建设和运营整体解决方案】 防汛抗旱工作是确保人民生命财产安全和社会稳定的重要环节。随着信息技术的发展,大数据分析平台在这一领域的应用成为提升管理效能的关键。本解决方案旨在构建一...
大数据分析云是当今信息技术领域的重要趋势,它结合了云计算的弹性扩展能力和大数据的深度分析能力,为企业提供了一种高效、便捷的数据处理和洞察工具。本文将深入探讨大数据分析云的核心概念、应用场景以及具体的...
它能够根据预设的规则和策略,自动或半自动地启动、执行和监控数据处理任务,如数据抽取、转换、加载(ETL)、数据分析和报告生成等。调度系统通常具备以下特点: 1. **自动化**:自动执行数据处理任务,减少人工...
【互联网+智慧消防大数据分析平台建设整体解决方案】 随着信息技术的发展,智慧消防已成为现代消防安全管理的重要方向。本解决方案针对当前消防工作中的四大挑战:数据采集不全、信息孤岛、指挥调度效率低下、风险...
在本章"Python3实战Spark大数据分析及调度-第7章 Spark Core调优"中,我们将深入探讨如何优化Apache Spark的核心性能,以便更高效地处理大规模数据。Spark Core是Spark框架的基础,它提供了分布式任务调度、内存管理...