`

从几幅架构图中偷得半点海量数据处理经验(转)

 
阅读更多

从几幅架构图中偷得半点海量数据处理经验

(注:本文只是简简单单的截几幅图而已,要想更深入的学习和了解hadoop框架和mapreduce模式,或者对淘宝的数据魔方感兴趣的话,尽可参考此文:从Hadhoop框架与MapReduce模式中谈海量数据处理。)

最近对海量数据处理发生了不小的兴趣,特此从一些精彩文章中摘取几幅精彩的图片或片段,拿来给大家分享。所谓奇文共欣赏,好Architecture共品之。至于各位能从图中是窥得半点经验,还是一图以窥全貌,则不在我之责任,全在于读者怎么去解读这几幅精彩的架构图了。

所以,本文在选取一些架构图之后,只配以最简单的文字,个中内容,读者自行品味之。如果有任何问题或建议,欢迎不吝指正或畅所欲言。谢谢。

  • 1、淘宝海量数据产品技术架构

上图是淘宝的数据魔方。按照数据的流向来划分,淘宝的数据产品的技术架构分为五层(如上图所示),分别是数据源、计算层、存储层、查询层和产品层(图摘自《程序员》8月刊)。

  • 2、搜索引擎架构图

  • 3、Facebook架构

3.1、架构概览

设计原则

  • 尽可能的使用开源软件,并且在需要优化的时候进行优化
  • Unix 哲学。包括,模块化原则;整合化原则;清晰化原则等
  • 任何组件具备扩展性;最小化故障影响;简化,简化,简化(本段文字摘自DBA nots)。

 

3.2、Facebook NewsFeed 的架构示意图

3.3、Facebook 搜索功能的架构示意图

..................

@hawksoft:处理海量数据的基本思路就是分而治之的策略和流水线作业。虽然从单个的计算效率来说,单台计算机的计算效率应该是最高的,但单台计算机的吞吐量有限。分布式计算的优势就在于虽然牺牲了部分计算能力,但由于人多力量大,而且节点间配置灵活,可互补,比单纯的增加计算机数量的模式要具有很大的优势。分布式计算的关键点就在于切分、调度、冗余和通信(谢谢风大哥)。

这些东西原理容易知道,但实践很难,因为一般人很少有机会。至于更多有关Mapreduce的介绍,还可参考:从Hadhoop框架与MapReduce模式中谈海量数据处理 ,与MapReduce技术的初步了解与学习完。

分享到:
评论

相关推荐

    从几幅架构图中偷得半点海量数据处理经验

    至于各位能从图中是窥得半点经验,还是一图以窥全貌,则不在我之责任,全在于读者怎么去解读这几幅精彩的架构图了。所以,本文在选取一些架构图之后,只配以最简单的文字,个中内容,读者自行品味之。如果有任何问题...

    论文研究-基于分布式的海量数据处理架构研究 .pdf

    文件处理系统是分布式架构中的重要组成部分,它涉及文件存储、文件传输和文件访问等多个方面。设计高效的文件处理系统,需要考虑到文件的分片存储、分布式文件系统的搭建和管理、以及分布式文件系统的容错机制等问题...

    AI大数据平台架构图

    从架构图中可以看到,AI大数据平台架构图主要包括三个部分:数据源、数据处理和模型训练、模型发布和部署。 数据源 数据源是指原始数据的来源,包括HDFS、CSV、SQL等。这些数据源可以来自不同的系统和应用程序,...

    基于云计算技术的分布式网络海量数据处理系统设计.pdf

    分布式网络强调了数据处理的网络化、分布式特点,数据处理侧重于海量数据的处理技术和方法,系统设计关注的是如何设计一个高效的数据处理系统架构。云计算技术作为实现海量数据处理的重要技术手段,处理方程的建立和...

    小滴课堂-海量数据处理商用短链平台大课-资料xiaoecf

    ● 实时计算+数据处理+存储可视化:Flink1.13 + ClickHouse + HDFS + 数据清洗分层 + Echart可视化数据 ● 分布式链路追踪+监控+持久化存储:Apache Skywalking + ElasticSearch7.X ● 上线部署:Jenkins CICD + ...

    Hadoop海量数据处理 技术详解与项目实战 PDF电子书下载 带书签目录 完整版

    《Hadoop海量数据处理:技术详解与项目实战》是一本深度探讨Hadoop在大数据处理中的应用的专业书籍。这本书全面覆盖了Hadoop生态系统的核心组件和技术,旨在帮助读者掌握处理海量数据的关键技能,并通过实际项目案例...

    云架构

    接下来,我们重点关注两个文件:“从几幅架构图中偷得半点海量数据处理经验 - 结构之法 算法之道”和“海量数据处理面试题集锦与Bit-map详解”。这些文件揭示了云架构在处理大数据时的应用策略。在云环境中,大数据...

    精美Visio架构图,数据流向图,数据抗压机制,应付领导专用

    数据流向图(Data Flow Diagram, DFD)是一种图形表示方法,用于描述系统中数据的流动和处理过程。DFD通常包含数据流、处理、数据存储和外部实体四个基本元素。这种图表能帮助我们识别和理解数据在系统中的运动路径...

    各种系统架构图与详细说明

    本文将从详细的角度解释系统架构图中的知识点,涵盖逻辑架构、功能结构、应用系统建设、数据采集、数据分析与展现、技术架构设计、整体架构设计、应用层级说明、标准体系规范说明等多个方面。 系统架构图是描述系统...

    海量数据分析-架构图收集.pdf

    海量数据分析在现代信息技术中扮演着至关重要的角色,特别是在企业决策支持、市场趋势预测以及运营优化等领域。...这两种解决方案为企业提供了应对大数据挑战的有效工具,帮助企业从海量数据中挖掘价值,驱动业务发展。

    京东亿级流量海量数据搜索架构.pdf

    京东亿级流量海量数据搜索架构主要关注的是如何处理大规模数据的高效检索问题,这在电商领域至关重要,因为搜索是用户获取商品信息的主要途径。京东的搜索系统经历了从简单到复杂、从非实时到实时、从集中式到分布式...

    C/S模式的组织架构图

    在C/S架构中,Oracle服务器作为数据处理的核心,存储着组织架构的相关数据,如员工信息、部门结构等。 描述中提到的“父id”概念,是组织架构图中的关键元素,用于表示层次关系。在树形结构的组织架构中,每个节点...

    海量级数据处理架构思路

    本文档以截图方式记录大神级别的技术牛人之间的谈论,有关海量级别的数据量,该如何架构的思路

    知名互联网公司网站架构图

    近段时间以来,通过接触有关海量数据处理和搜索引擎的诸多技术,常常见识到不少精妙绝伦的架构图。除了每每感叹于每幅图表面上的绘制的精细之外,更为架构图背后所隐藏的设计思想所叹服。个人这两天一直在搜集各大型...

    各类大型网站架构图

    总的来说,这四个架构图涵盖了不同领域的核心设计思路,从企业级的信息整合到电商平台的高并发处理,再到搜索引擎的复杂数据操作,以及电商数据分析的精细化运营。理解并掌握这些架构模式,有助于IT从业者在面对类似...

    海量地震数据处理方案与技术发展趋势.pdf

    文章展望了未来在海量数据分析与处理领域中,数据信息挖掘、数据可视化及信息融合技术的发展趋势。这些技术的发展旨在适应未来大数据体中多种信息的提取和价值的挖掘。 4. 地震勘探技术的进步 近年来,地震勘探数据...

Global site tag (gtag.js) - Google Analytics