`
taskctl2012
  • 浏览: 11586 次
  • 性别: Icon_minigender_1
  • 来自: 成都
文章分类
社区版块
存档分类
最新评论

大数据与批量调度的紧密关系

阅读更多

当大数据在手机端花枝招展地跳跃时,你很自豪地说,我知道它是怎么来的,它是从网络另一端来的。可当碰到一个刨根问底的家伙,他又问,那网络另一端的数据又是怎么来的,你是否一脸蒙逼?不,你可能说,作为一枚IT男神,我知道很多情况下,它是一个叫调度的东东指挥着一大群小家伙程序从四面八方不断鼓捣来的。没错,大数据不管你熟不熟,它总是天天在你面前晃动,而那个叫调度神秘的东西,只是和你隔了一张网。

 

实际上,站在技术的角度,很多时候,调度和大数据就是那么如影相随。如果说把大数据的应用分前台与后台的话,前台就是怎么展示数据、怎么用数据,而后台就是怎么准备数据。要用东西,不正是先要准备好东西吗?这是客观基本逻辑道理,数据也如此。而这个数据的准备过程,很多时候,都是调度这个神秘的家伙,指挥这一大群小家伙程序,排好阵、列好队,每个小家伙程序各司其职,把千千万万、形形色色的数据搬来搬去,变来变去。最后,终于把这些数据放到该放的地方,该洗的洗了,该计算的计算了,妆化好了,衣服穿好了,一切就绪!当大领导坐在办公室,喝一口茶,理一下衣服,不经意在屏幕上轻轻一点,满意地笑了。因为他看到了一组数据,他的宇宙集团今年销售额一亿亿,同时系统还告诉他,我们宇宙集团健康运行,而且高速前进,如果在今后的集团运营中,只要在某个地方稍稍变动,明年销售额一定会是两亿亿。只是在领导满意一笑的瞬间,不知那个叫调度的心情怎样,不知领导是否知道,就是因为那个调度,天天带领着一大群程序小兵,在后台天天忙来忙去,算来算去,才有了领导那不经意的一笑。

 

这就是大数据与调度的关系,大数据是魅力无穷的,但调度是枯燥无边的。当你因某个数据激荡的背后,其实是由调度程序带领无数小程序,从浩如星海般的大数据中,经过千锤百炼,大浪淘沙,为你做了大量精心的准备。这就好像你到餐厅,点了一份可口的菜,其实背后是相应的总管,带领着很多员工,买原材料的买原材了,库管的库管、厨房打杂的打杂,总之,在你点菜的时候,锅碗瓢盆、油盐酱醋、猪肉牛肉大白菜都准备好,甚至洗好,切好了,你一点,大厨立马挥动大勺,很快做好菜,由前台服务员与你端上来而已。

 

其实,作位一枚IT男、技术工程师、数据专家,调度这个词语,从来都没离开过你,它经常出现在你方案当中,你用的工具当中。在一张张技术架构图中,经常有一个大大的方框,叫作业调度,出现在最下边、最左边或者最右边,贯穿着整个数据逻辑层。在你用的工具当中,比如ETL工具、BI工具,里边一般都有工作流(它就是调度)、调度器这样的模块。实际上,只要在整个应用体系后台,调度这样的技术体系,随处可见,只是因为你的专注度不同,有时你对它视而不见而也。

 

没错,这个世界很复杂,技术世界也同样复杂,生命有限,精力有限,你要专注,调度是什么鬼与我无关。但是,你在专注你的领域的同时,一定要关注背后的简单逻辑。数据,不论是小数据,还是大数据,都是未来的生产资料,我们对其关注的核心,不外乎就是怎么用的问题。今天,我们可能更多在思索数据该怎么用,发挥什么样的价值,而大量的数据还在数据生产原地停留,睡觉。如果,有一天,我们找到了更多数据的应用方法,那么,大量的数据一定会被唤醒,而整个社会数据应用的后台,一定是一片极具繁荣的数据准备场景。而作为数据准备的调度总长,你还不认识它吗?

 

 

分享到:
评论

相关推荐

    大数据宗露华为大数据产品及金融行业实践.ppt

    华为FusionInsight是云化、开放、融合的大数据平台,提供数据集成、批量采集、实时采集、作业调度管理、消息管理、文件传输管理等全面功能。此外,FusionInsight还包括关系型数据库服务、Hadoop生态发行版HD、数据...

    大数据平台架构相关介绍

    其核心组件包括数据采集、集成、开发、分析与可视化、服务、智能调度、管理以及存储计算,这八大组件支持一站式处理和分析大数据,适应多种开发场景。 - 平台还包含公共服务,如统一门户、项目管理、资源管理和权限...

    大数据成功关键.pptx

    BDFS提供了与Hadoop的紧密集成,允许在大数据环境下进行大规模数据操作。 6. **可扩展性和性能**:DataStage节点的扩展性几乎呈线性增长,随着硬件资源的增加,处理效率也随之提升。通过 Balanced Optimization,...

    大数据方案介绍.pdf

    - **无缝集成**:与Hadoop生态中的各类组件紧密配合,实现全栈数据处理。 - **交互式展示**:提供友好的用户界面,便于数据分析和报告生成。 ### 4. 应用领域 Hadoop大数据平台适用于多个行业,包括教育、医疗、...

    特色小镇旅游综合体大数据云服务平台建设方案 智慧小镇旅游综合体大数据云服务平台建设方案.pptx

    3. **物联网终端与用户行为分析**:通过批量数据采集模块,收集用户的终端信息和行为数据,为后续的数据分析和智能服务提供支持。 #### 三、特色小镇旅游综合体解决方案 解决方案聚焦于以下几个方面: 1. **智慧...

    NoSQL数据库技术数据库资源调度平台架构实践.zip

    2. **任务调度**:实现对数据库操作的智能调度,比如批量导入导出、备份恢复、数据迁移等,确保在不影响正常服务的前提下高效执行。 3. **监控与告警**:实时监控数据库性能指标,如读写速度、延迟、CPU利用率等,...

    智慧大数据云平台方案建议书.docx

    智慧大数据云平台方案建议书是针对企业或组织利用先进的信息技术,构建高效、智能的数据处理和分析平台的规划文档。...在实施过程中,需与业务部门紧密合作,确保平台建设与业务战略相一致,以达到最佳效果。

    储运流程优化与智能调度.pptx

    - **增强协作**:与供应商和客户之间建立更加紧密的合作关系,通过共享库存数据提高整个供应链的透明度。 **1.2 自动化订货** - **规则和算法驱动的订货**:设置合理的阈值,当库存低于预定水平时自动触发补货请求...

    华为FusionInsight HD产品FAQ.pdf

    5. **与开源社区关系**:华为FusionInsight HD与开源社区紧密联系,如Hadoop、Hive、Spark等,同时华为也会贡献自己的技术创新回社区。 6. **同步版本方式**:华为定期将开源社区的最新技术集成到FusionInsight HD...

    ETL详解.docx

    ETL 与大数据的关系紧密,因为大数据的处理往往涉及大量、多样化的数据整合,而这正是 ETL 技术的核心应用。随着大数据技术的发展,传统的 ETL 过程已经不能满足实时或近实时的数据处理需求。大数据环境下的 ETL ...

    工作流资料

    工作流系统与关系数据库的紧密结合是现代企业自动化和优化业务流程的关键。通过对数据库进行精心设计和持续优化,可以显著提升工作流系统的性能、可靠性和可扩展性。此外,随着大数据和AI技术的发展,工作流系统还...

    Python3实战Spark大数据分析及调度-第9章 Spark Streaming.zip

    9. **联合处理批处理和流数据**:由于Spark Streaming与Spark Core紧密集成,可以与Spark SQL、MLlib等其他组件结合使用,实现批处理和流处理的混合工作负载。 10. **Python API**:本章特别关注Python3在Spark ...

    big_data:IFE大数据编程模型

    在大数据领域,IFE大数据编程模型是一种重要的编程框架,它与Java技术紧密结合,为开发者提供了处理大规模数据集的有效工具。本文将深入探讨IFE大数据编程模型的核心概念、主要特点以及如何利用它来解决实际问题。 ...

    【DT-BigData】Sqoop-1.4.6.gz

    这为DT环境中的数据科学家和工程师提供了便利,使他们能够充分利用Hadoop的大数据处理能力,同时保持与传统数据库系统的紧密联系。 总的来说,Sqoop作为大数据DT环境中的关键工具,简化了大数据处理流程,增强了...

    Spark源码分析.pdf

    HDFS(Hadoop Distributed File System)为大数据存储提供了可靠的解决方案,而MapReduce则提供了批量处理模型。Spark与Hadoop的结合,使得用户可以方便地在Hadoop生态系统中利用Spark的强大计算能力。 源码分析是...

    hbase课件.rar

    HBase与Hadoop紧密集成,HDFS为HBase提供底层的数据存储,MapReduce用于执行HBase上的批量数据处理任务。此外,HBase还支持YARN资源调度,与其他Hadoop生态服务如Hive、Pig等无缝协作。 **总结** HBase作为大数据...

    分布式数据库Hive笔记_HDFS_Hadoop_分布式数据库

    分布式数据库Hive是大数据处理领域中的重要工具,它与Hadoop生态系统紧密相连,主要用于实现对大规模数据集的存储和查询。Hive构建在Hadoop的HDFS(分布式文件系统)之上,利用MapReduce进行分布式计算,同时引入了...

    hadoop-2.8.4.tar.gz

    这些组件与Hadoop紧密配合,共同构建了一个完整的数据处理平台,涵盖了数据的存储、处理、分析和应用等多个环节。 四、安装与配置 安装Hadoop-2.8.4通常涉及以下几个步骤: 1. 解压安装包:使用`tar -zxvf hadoop-...

    hbase-2.2.7-bin.tar.gz

    10. **丰富的生态系统**:HBase与其他大数据组件如Hadoop、Spark、Flink等紧密集成,构建了强大的大数据解决方案。 在使用HBase 2.2.7时,你需要了解如何配置集群、创建表、管理Region、优化RowKey设计以及使用过滤...

Global site tag (gtag.js) - Google Analytics