`
langyu
  • 浏览: 888901 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

对实时分析与离线分析的思考(二)

阅读更多

      接上一篇blog对实时分析与离线分析的思考

      昨天看了S4与Storm的设计,再结合之前对Microsoft的Dryad的了解,感觉有些共性是需要明确的。

      在MapReduce这种“分裂-合并”模型出世之前,我们都采用“一层计算”的方式。比如统计“What I Have Done”这句话中每个词的出现频度。因为这种问题简单,目标数据量小,所以对我们的计算没有挑战。

      分治思想早就有了,但在我印象中比较深刻的例子就是网格计算。把大型计算分裂成小型任务,然后交给志愿者的电脑执行后再合并结果。这也是MapReduce所做的事情。可以把MapReduce称为“两层计算”。核心问题就是利用并行化,解决遇到的大数据量或大计算量的问题。MapReduce的思想只有两步,也限制了它在做一些复杂计算时挺麻烦,比如Join,Sort等,需要多步MapReduce任务。当前Hadoop MapReduce在解决这些复杂任务时的缺点也在于每个MapReduce Job之间相互独立,有始有终。在任务序列中,后面Job不能有效利用前面Job的输出结果(局部性)。

                   

      而对于这几种实时计算框架,同样是分治思想,但它的基本模型都是:有向无环图(DAG)。数据处理流程因为计算的复杂度,可以很方便地延伸。可以把这种模型称为“多层计算”。整个计算过程中,依然是并行化计算,数据不落地,在内存和网络中流动。用户可因计算的复杂度来规划计算流程的拓扑结构。它解决了MapReduce遇到的两个问题:1. 复杂计算硬套MapReduce时,流程冗长,很难编码。2. 任务有序列关系,但计算是独立的,不能利用局部化优势。

         

      “两层模型”与“多层模型”在面对不同的业务场景时都是有价值的。我不太认同硬是将很多复杂的计算套在MapReduce模型上,这让理解起来挺困难,编码起来更恶心。好像这几种实时计算框架也提供了拓扑结构规划工具,这是很贴心的服务。

      现在看来,对几种架构的共性总结就是:
      1. 分析模型都是DAG
      2. 依然并行化
      3. 数据on the fly

      继续学习中...

1
0
分享到:
评论
3 楼 edishf 2013-01-25  
i look forwarded
2 楼 langyu 2013-01-24  
edishf 写道

PS:不过好像很久没更新了


是很久没更新了!有很多想法,需要一段时间静下心来整理,期望过年后可以继续更新
1 楼 edishf 2013-01-20  
最近在应用图像与hadoop的结合,确实碰到了任务序列输出结果的问题,只能自己写Writable类,用sequencefile输出,然后用distributecache来输入,再读出,确实很麻烦。

大部分图像应用都是需要实时分析的,我的想法是可以是实时分析与离线分析并存,实时需要离线分析(之前就已经分析好的,每次有新数据输入就调用)的结果。


看到您的博客分析的非常好,拜读!

PS:不过好像很久没更新了

相关推荐

    案例说明_基于招聘网站的离线统计及实时分析系统1

    本案例主要围绕基于招聘网站的离线统计及实时分析系统展开,目的是让学生理解和掌握大数据在实际工业场景中的应用。在《大数据架构与技术》课程中,这个案例将帮助学生学习和实践大数据预处理、数据分析以及大数据...

    工业机器人实验报告02-机械41-示教-离线编程编程资料

    #### 五、思考与讨论 **示教控制类型:** 机器人示教属于PTP(点到点)控制。这种控制方式侧重于关键点之间的移动,而不关注移动路径。因此,在示教过程中,仅需记录关键点的位置信息即可。 **离线编程的意义:** 除了...

    大工15秋《土木工程实验(二)》离线作业.doc

    本文将对“大工15秋《土木工程实验(二)》离线作业.doc”文档所涉及的两个主要实验项目进行深入探讨,以期达到对混凝土和钢筋混凝土简支梁实验技术性质和受力行为的全面了解。 首先,混凝土试验是土木工程实验的基础...

    项目化教学在工业机器人离线编程与仿真教学中的应用和实践.pdf

    通过在工业机器人离线编程与仿真教学中应用项目化教学方法,不仅能够提高学生的学习兴趣和参与度,还能够培养学生的团队协作能力与独立思考能力,最终达到提升教学质量和技能考核通过率的目的。

    ClickHouse在腾讯音乐敏捷数据分析中的实践和思考.pdf

    在腾讯音乐的业务环境中,由于在线音乐、直播、K歌等服务的高参与度和强社交性,数据量激增,对数据分析的实时性和效率提出了更高要求。传统的数据平台架构难以满足这种快速迭代的业务需求和海量数据的处理压力。...

    信息化教学设计在《工业机器人离线编程》的应用.pdf

    在教学策略方面,信息化教学设计注重采用多种教学方法,如任务驱动法、案例分析法等,以促进学生的主动学习和深入思考。在《工业机器人离线编程》的课程中,教师通过创设真实场景模拟任务,激发学生的学习兴趣和探索...

    统一数据平台的实践及思考.pptx

    * 实时分析&离线分析 * 数据治理&权限控制 * OLAP查询 平台架构: * 访问层 * 计算层 * 存储层 * 采集层 * 源数据层 * 处理层 * 自助查询 数据接入: * 面临的挑战: + 数据源类型多种多样 + 大流量业务高峰期...

    POJ离线版(无需联网)

    【标题】"POJ离线版(无需联网)"所涉及的知识点主要集中在程序设计与在线评测系统方面。POJ,全称Peking University Online Judge,是北京大学开发的一个在线编程题目评测系统,它允许用户提交自己编写的代码,系统会...

    流批一体的近实时数仓的思考与设计.docx

    ### 流批一体的近实时数仓的思考与设计 #### 一、数据的时间旅行与业务对数据的要求 数据的时间旅行是指数据从产生到被利用的过程中经历的不同阶段,包括用户生成数据、数据传输、存储以及计算等多个环节。在这个...

    基于Flink构建实时数据仓库.pptx

    本文将介绍基于 Flink 构建实时数据仓库的知识点,包括 Flink 的基本概念、Flink SQL 的扩展工作、实时数据仓库的应用案例、Apache Flink 的未来工作思考与展望等。 一、Flink 基础概念 Flink 是一个开源的分布式...

    第1、2章离线作业参考答案

    在计算机网络领域,离线作业通常是指学生在不依赖互联网的情况下完成的学习任务,这有助于强化基础知识和独立思考能力。这份“第1、2章离线作业参考答案”针对的是浙江大学计算机网络基础课程的第一次离线作业,旨在...

    戴金权:基于Spark软件栈的下一代大数据分析

    文档提及的“下一代大数据分析”,是指相较于传统的离线、批处理式的大数据分析方法,新的分析范式更加重视实时性、交互性与预测性。下一代大数据分析能够处理大规模和指数级增长的数据,支持多结构化、多来源且结构...

    19春-法律基础离线作业.zip

    《19春-法律基础离线作业》是一个压缩文件,主要包含了一份法律基础的离线作业,这通常是为了教育和学习...同时,教师也可能要求学生对作业中的问题进行独立思考,提出自己的见解,以增强批判性思维和解决问题的能力。

    乌云文章Drops离线版打包大全

    因此,这份“乌云文章Drops离线版打包大全”不仅是对过去安全知识的回顾,也是对当前及未来网络安全挑战的思考和借鉴。 总结来说,这个压缩包是互联网安全学习者的宝藏,其中的“乌云文章Drops离线版”为读者提供了...

    云时代下的安全思考_----聪明的应用层安全防护体系.pdf

    在云时代背景下,网站安全面临新的挑战和思考,本文将围绕数据挖掘与应用层安全防护体系展开讨论。 首先,随着云计算技术的普及和应用,传统的网站安全模式已经难以应对新型威胁。在云时代下,网站安全的重心已从...

    Java面试宝典-对线面试官.pdf

    这样的准备不仅能展示求职者对技术的深刻理解,还能表现出其对业务的前瞻性思考和持续改进的能力。 专业技能的掌握则是面试中的核心环节。在简历中列出的技术栈,求职者应当能够做到有深度的了解,包括但不限于技术...

    Jsp001精华文章离线版 v1.0(HTML)

    这些精华帖包含了具体的案例分析、技术讨论和问题解决方案,它们不仅能够帮助开发者解决实际遇到的技术难题,而且能够启发学习者在面对新问题时产生创新的思考和解决方案。在这些论坛精华帖中,我们可以看到开发者们...

Global site tag (gtag.js) - Google Analytics