`
- 浏览:
887908 次
- 性别:
- 来自:
杭州
-
数据的价值是有时效性的,越早分析越能得到更快的问题反馈或响应。Hadoop的设计初衷是存储与分析离线大数据,我认为它的缺点就是不能及时地利用数据中所蕴含的深层价值。
在做深入分析之前,我想从门外汉的角度来说说我自己理解的实时分析是什么样子的。它的目标很明确:尽快地从数据中挖掘出有用的内容来。这牵扯到把计算移动到哪个地方去的问题。数据源本地?数据传输流中?一个集中存储的地方?对数据的分析越靠近数据源就越有效。但一般的数据源都是业务系统,不能允许数据分析占用它的硬件资源。所以我想当前的一些实时分析系统也是取向于后两种场景。
实时分析过后的数据该怎么办,是抛弃掉还是需要继续存储着呢?我认为对数据的分析就如同对石油的提炼一样。高中时看到介绍提炼石油的过程,先分离出航空煤油,再经过步骤分离出普通汽油、煤油等,经过一道道筛选后最后还有渣料能用。数据分析的过程亦如此。要考虑实时,就不能对数据做复杂的逻辑分析,而这正是离线系统的优势。所以,对分析后的数据该怎样处理还是得看数据有没有必要再做深度处理。Facebook就有利用HDFS做中间存储,对数据既做实时分析,又做离线分析的实现。
离线分析现在遇到的一些问题,实时分析也会遇到。系统应该需要很容易地水平扩展,因为实时的数据量挺难预估,实时分析系统就应该可以自动调整容量。MapReduce的优点在于对源数据做切分,然后并行地执行。但怎样利用并行化来提高实时分析的效率也是需要考虑的。当前MapReduce在计算中依赖磁盘来做临时存储,我对这种做法不太认同,还是希望计算中只利用内存与网络,不要让磁盘存取成为影响计算能力的隐患。好像有个系统叫MapReduce Online正在尝试解决这个问题,之后会关注下它的进展。
他山之石,可以攻玉。因为初次接触实时分析,有必要分析下现有实时分析系统的设计架构。Google了一把,当前的实时分析系统有:Yadoo!的S4、Twitter的Storm和IBM的StreamBase等。这段时间会研究它们的需求与设计,以期更好地理解实时分析会遇到哪些问题。
OK,路还很长,得多多努力了
********************************************
这里是我写这些想法之前临时写的提纲:
离线分析的优点是:
可以寻找恰当地分割方式,对任务做并行分析
批量存取数据
可以对数据做复杂的业务处理
离线分析的缺点是:
数据中所蕴含的深层价值得不到及时的利用
实时分析的缺点:
数据量太大,很难有复杂的业务处理
对实时分析提出的建议:
尽量使用内存而不是磁盘
考虑并行化,减少数据压力
架构可水平扩展
********************************************
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
本案例主要围绕基于招聘网站的离线统计及实时分析系统展开,目的是让学生理解和掌握大数据在实际工业场景中的应用。在《大数据架构与技术》课程中,这个案例将帮助学生学习和实践大数据预处理、数据分析以及大数据...
#### 五、思考与讨论 **示教控制类型:** 机器人示教属于PTP(点到点)控制。这种控制方式侧重于关键点之间的移动,而不关注移动路径。因此,在示教过程中,仅需记录关键点的位置信息即可。 **离线编程的意义:** 除了...
通过在工业机器人离线编程与仿真教学中应用项目化教学方法,不仅能够提高学生的学习兴趣和参与度,还能够培养学生的团队协作能力与独立思考能力,最终达到提升教学质量和技能考核通过率的目的。
在教学策略方面,信息化教学设计注重采用多种教学方法,如任务驱动法、案例分析法等,以促进学生的主动学习和深入思考。在《工业机器人离线编程》的课程中,教师通过创设真实场景模拟任务,激发学生的学习兴趣和探索...
* 实时分析&离线分析 * 数据治理&权限控制 * OLAP查询 平台架构: * 访问层 * 计算层 * 存储层 * 采集层 * 源数据层 * 处理层 * 自助查询 数据接入: * 面临的挑战: + 数据源类型多种多样 + 大流量业务高峰期...
在腾讯音乐的业务环境中,由于在线音乐、直播、K歌等服务的高参与度和强社交性,数据量激增,对数据分析的实时性和效率提出了更高要求。传统的数据平台架构难以满足这种快速迭代的业务需求和海量数据的处理压力。...
【标题】"POJ离线版(无需联网)"所涉及的知识点主要集中在程序设计与在线评测系统方面。POJ,全称Peking University Online Judge,是北京大学开发的一个在线编程题目评测系统,它允许用户提交自己编写的代码,系统会...
为了更好地融合离线与实时数仓的优点,构建流批一体的近实时数仓,可以考虑以下几点: 1. **统一SQL表达**: - 设计一套统一的SQL语法,使得无论是处理流式还是批量数据,都能够使用相同的查询语言进行操作。 2....
本文将介绍基于 Flink 构建实时数据仓库的知识点,包括 Flink 的基本概念、Flink SQL 的扩展工作、实时数据仓库的应用案例、Apache Flink 的未来工作思考与展望等。 一、Flink 基础概念 Flink 是一个开源的分布式...
文档提及的“下一代大数据分析”,是指相较于传统的离线、批处理式的大数据分析方法,新的分析范式更加重视实时性、交互性与预测性。下一代大数据分析能够处理大规模和指数级增长的数据,支持多结构化、多来源且结构...
因此,这份“乌云文章Drops离线版打包大全”不仅是对过去安全知识的回顾,也是对当前及未来网络安全挑战的思考和借鉴。 总结来说,这个压缩包是互联网安全学习者的宝藏,其中的“乌云文章Drops离线版”为读者提供了...
在计算机网络领域,离线作业通常是指学生在不依赖互联网的情况下完成的学习任务,这有助于强化基础知识和独立思考能力。这份“第1、2章离线作业参考答案”针对的是浙江大学计算机网络基础课程的第一次离线作业,旨在...
《19春-法律基础离线作业》是一个压缩文件,主要包含了一份法律基础的离线作业,这通常是为了教育和学习...同时,教师也可能要求学生对作业中的问题进行独立思考,提出自己的见解,以增强批判性思维和解决问题的能力。
在云时代背景下,网站安全面临新的挑战和思考,本文将围绕数据挖掘与应用层安全防护体系展开讨论。 首先,随着云计算技术的普及和应用,传统的网站安全模式已经难以应对新型威胁。在云时代下,网站安全的重心已从...
过去的数据即OLAP数据,是非实时的,主要用于离线分析;未来数据涉及趋势分析,通常涉及在线流系统和算法分析。 OLAP场景广泛,包括用户状态、金币状态、活动反馈等多种业务场景。数据流转过程涵盖了从业务数据的...
24. 大数据分析类型:包括离线分析和在线分析,离线分析常在云计算平台上进行。 25. 大数据分析理论核心:数据挖掘算法用于从大量数据中发现模式。 26. 网络爬虫策略:深度优先遍历、广度优先遍历是最基础的策略。...
大数据的质量和管理是分析的基础,分析与处理通常分为离线和在线两种方式,离线分析通常基于云计算平台。 大数据的应用涵盖了众多领域,如金融、电信、医疗健康等。医疗健康数据包括诊疗数据、个人健康管理数据和...
这一架构旨在实现数据的统一接入、存储、校验、格式转换、实时与离线分析、数据治理和权限控制,以提升数据分析的时效性,保障数据安全,并降低使用成本。具体措施包括: 1. 数据接入:平台需要应对各种类型的数据...